Crawl Budget este un concept adesea înțeles greșit, discutat frecvent în comunitățile SEO și marketing digital. Cei mai mulți oameni tind să creadă că este un fel de lucru magic care poate fi folosit pentru a ajunge la cele mai bune rezultate Google.

Acest fenomen creează confuzie și duce la ceea ce oamenii de afaceri numesc „shiny object syndrome” (sindromul obiectului strălucitor), care implică faptul că, fără a înțelege elementele fundamentale, marketerii sunt mai puțin capabili de discernământ, iar astfel, se ghidează după orice sfat.

În articolul care urmează vor fi prezentate elementele fundamentale ale accesării cu crawlere (programe software) și cum pot fi utilizate pentru a identifica dacă Crawl Budget este ceva de care ar trebui să se țină cont.

Crawling este procesul prin care motoarele de căutare trimit roboți cunoscuți ca și spideri/ crawlers pentru a găsi content nou sau updatat.

Înainte de aprofundarea conceputului este esențială înțelegerea procesului de accesare cu crawlere și ce înseamnă acesta pentru motoarele de căutare.

Cum lucrează motoarele de căutare

Potrivit Google, există trei pași de bază pe care îi urmează motorul de căutare pentru a genera rezultate din paginile web.

Crawling: crawlerele web accesează pagini web disponibile public.

Indexare: Google analizează conținutul fiecărei pagini și stochează informațiile pe care le găsește.

Servire (și clasare): atunci când un utilizator introduce o interogare, Google prezintă cele mai relevante răspunsuri din indexul său.

Fără accesarea cu crawlere, conținutul nu va fi indexat, iar prin urmare, nu va apărea în Google.

Specificul procesului de crawling

Google afirmă în documentația sa despre accesarea cu crawlere și indexare faptul că:

Procesul de accesare cu crawlere începe cu o listă de adrese web, crawlerele folosesc link-uri pe acele site-uri pentru a descoperi alte pagini. Software-ul acordă o atenție deosebită site-urilor noi, modificărilor site-urilor existente și link-urilor moarte. Un program de calculator determină ce site-uri să acceseze cu crawlere, cât de des și câte pagini să fie preluate de pe fiecare site.”

Ce înseamnă acest lucru pentru SEO?

  • Crawlerele folosesc link-uri pe site-uri pentru a descoperi alte pagini. (Structura internă de legături a unui site este crucială.)
  • Crawlerele prioritizează site-urile noi, modificările site-urilor existente și link-urile nefuncționale.
  • Un proces automatizat decide ce site-uri să acceseze cu crawlere, cât de des și câte pagini va prelua Google.
  • Procesul de accesare cu crawlere este afectat de capacitățile utilizatorului de găzduire (resurse de server și lățime de bandă).

Accesarea cu crawlere pe web este un proces complicat și costisitor pentru motoarele de căutare, având în vedere dimensiunea web-ului.

Fără un proces eficient de accesare cu crawlere, Google nu va fi capabil să „organizeze informațiile din toată lumea și să le facă universal accesibile și utile.

Ce înseamnă termenul de „Crawl Budget”?

Crawl Budget înseamnă numărul de pagini pe care un crawler le setează pentru a le accesa cu crawlere într-o anumită perioadă de timp.

Odată ce acesta s-a epuizat, crawlerul web nu va mai accesa conținutul site-ului și va trece la alte site-uri.

Crawl budget-urile sunt diferite pentru fiecare site web, iar Crawl budget-ul unui site este stabilit automat de Google.

Motorul de căutare utilizează o gamă largă de factori pentru a determina cât număr de pagini este alocat unui site.

În general, există patru factori principali pe care Google îi folosește pentru a aloca Crawl Budget.

  • Dimensiunea site-ului: site-urile mai mari vor necesita mai mult Crawl Budget.
  • Configurare server: performanța și timpul de încărcare al site-ului ar putea avea un efect asupra numărului de pagini alocat.
  • Frecvența actualizărilor: cât de des este actualizat conținutul? Google va acorda prioritate conținutului care este actualizat în mod regulat.
  • Link-uri: link-uri de structură internă și link-uri moarte.

Deși este adevărat că problemele legate de accesarea cu crawlere pot împiedica Google să acceseze conținutul cel mai important al unui site, frecvența accesării cu crawlere nu este un indicator de calitate.

Dacă un site este accesat cu crawlere mai des, acest lucru nu va ajuta la o mai bună poziționare.

Dacă conținutul nu corespunde standardelor publicului, nu va atrage noi utilizatori.

Acest lucru nu se va schimba dacă Googlebot va accesa cu crawlere site-ul mai des. Deși crawling-ul este necesar pentru a fi în rezultate, nu este considerat un semnal de clasare.

Cum funcționează Crawl Budget

Majoritatea informațiilor despre modul în care funcționează Crawl Budget, provin dintr-un articol de Gary Illyes de pe blogul Google pentru webmasteri.

În această postare, Illyes a subliniat faptul că:

  • Crawl Budget nu ar trebui să fie înțeles ca ceva pentru care majoritatea editorilor să-și facă griji.
  • Dacă un site are mai puțin de câteva mii de adrese URL, de cele mai multe ori va fi accesat mai eficient.

Pentru a înțelege mai bine Crawl Budget, există anumite concepte cheie care trebuie cunoscute.

Limita ratei de accesare cu crawlere

Google știe că botul său poate impune constrângeri severe asupra site-urilor web dacă nu este atent, așa că deține mecanisme de control pentru a garanta faptul că crawlerele vizitează un site web numai atât cât să fie benefic pentru acesta.

Limita ratei de accesare cu crawlere ajută Google să determine Crawl Budget pentru un site web.

Iată cum funcționează:

  • Googlebot va accesa cu crawlere un site web.
  • Botul va împinge serverul site-ului și va vedea cum răspunde.
  • Googlebot va scădea sau crește apoi limita.

Cererea de accesare cu crawlere

Googlebot ia în considerare, de asemenea, cererea pe care o anumită adresă URL o primește de la index în sine, pentru a determina cât de activ sau pasiv ar trebui să fie.

Cei doi factori care joacă un rol semnificativ în determinarea cererii de crawl sunt:

  • Popularitatea URL: paginile populare vor fi indexate mai des decât cele nepopulare.
  • Învechire: sistemul Google va preveni adresele URL învechite și va beneficia de conținut actualizat.

Google utilizează în principal aceste limite ale ratei de accesare cu crawlere și cererea de accesare cu crawlere pentru a determina numărul de adrese URL pe care Googlebot poate dorește să le acceseze cu crawlere (Crawl Budget).

Factori care afectează Crawl Budget

Dacă există o cantitate semnificativă de adrese URL cu valoare redusă pe site, acest lucru poate afecta negativ posibilitatea de accesare cu crawlere a site-ului.

Lucruri precum scrolling-ul infinit, conținutul duplicat și spam-ul vor reduce semnificativ potențialul de accesare cu crawlere al site-ului.

Lista de factori critici care vor afecta bugetul de accesare cu crawlere al unui site:

Configurare server și găzduire

Google ia în considerare stabilitatea fiecărui site web.

Googlebot nu va accesa cu crawlere în mod continuu un site care se blochează în mod constant.

Navigare și identificatori de sesiune

Dacă site-ul are o mulțime de pagini dinamice, acest lucru ar putea cauza probleme cu adresele URL dinamice, precum și cu accesibilitatea.

Aceste probleme vor împiedica Google să indexeze mai multe pagini de pe acel site.

Conținut duplicat

Dublarea poate fi o mare problemă, deoarece nu oferă valoare utilizatorilor Google.

Conținut de calitate scăzută și spam

Crawler-ul va reduce bugetul dacă observă că o parte semnificativă a conținutului de pe site este de calitate scăzută sau spam.

Rendering

Solicitările de rețea făcute în timpul redării pot fi luate în considerare împotriva a Crawl Budget.

Rendering-ul este procesul de populare a paginilor cu date din API-uri și/sau baze de date. De asemenea, ajută Google să înțeleagă mai bine aspectul și/sau structura unui site.

Cum poți urmări Crawl Budget

Poate fi dificil de înțeles și monitorizat care este actualul Crawl Budget, având în vedere că majoritatea rapoartelor vechi au fost ascunse de noul Search Console.

În plus, ideea jurnalelor de server sună extrem de tehnic pentru mulți oameni.

Iată o scurtă prezentare generală a două moduri comune care pot fi utilizate pentru a monitoriza Crawl Budget.

Google Search Console

Pasul 1: Accesați Search Console > Settings > Crawl stats

GSC crawl status

Jurnale de server

Jurnalele de server stochează fiecare solicitare făcută către un server web.

O intrare de jurnal este adăugată la fișierul jurnal de acces de fiecare dată când un utilizator sau Googlebot vizitează un site.

Googlebot lasă o intrare în fișierul jurnal de acces atunci când vizitează site-ul.

Acest fișier jurnal poate fi analizat manual sau automat pentru a vedea cât de des ajunge Googlebot pe site-ul web.

Există analizoare comerciale de jurnal care pot face acest lucru, ajutând la obținerea informațiilor relevante despre ceea ce face botul Google pe site.

Rapoartele de analiză a jurnalelor de server vor afișa:

  • Cât de des este accesat cu crawlere site-ul;
  • Ce pagini accesează cel mai mult Googlebot;
  • Ce tip de erori a întâlnit Botul;

Mai jos este prezentată o listă cu cele mai populare instrumente de analiză a jurnalelor:

  • SEMrush Log File Analyzer;
  • SEO Log File Analyser by Screamingfrog;
  • OnCrawl Log Analyzer;
  • Botlogs by Ryte;
  • SEOlyzer;

Cum se poate optimiza Crawl Budget

Este știut faptul că optimizarea Crawl Budget este mai importantă pentru site-urile mai mari.

1. Prioritizează ce și când să accesezi cu crawlere

Paginile care oferă valoare reală utilizatorului final ar trebui întotdeauna prioritizate.

Puteți găsi acele adrese URL prin consultarea datelor din Google Analytics și Search Console.

Paginile care generează click-uri și venituri ar trebui să fie ușor accesibile pentru crawleri.

Crearea unui sitemap XML individual, incluzând paginile cheie este uneori o idee bună.

2. Stabilește câte resurse poate aloca serverul care găzduiește site-ul

Descărcând fișierele jurnal de server și utilizând unul dintre instrumentele menționate mai sus, tiparele și problemele potențiale pot fi identificate.

Scopul final ar trebui să fie schițarea unei idei despre modul în care configurația actuală a serverului este afectată de Googlebot.

3. Optimizarea paginilor

Optimizare XML Sitemap

Pot fi create mai multe sitemap-uri clasificate după tipul de adresă URL sau secțiunea din site (products.xml, blog-post.xml etc.).

Acest lucru va ajuta la controlarea procesului de accesare cu crawlere către cele mai valoroase secțiuni de pe site-ul respectiv.

Frecvența actualizărilor

Google trebuie notificat de fiecare dată când conținutul este actualizat.

Acest lucru poate fi făcut prin date structurate, sitemap XML sau chiar printr-un eTag.

Conținut de calitate scăzută, spam și conținut duplicat

Site-ul poate fi curățat prin eliminarea conținutului de calitate scăzută, duplicat și/sau spam.

Probleme de link

Link-urile de la o pagină la alta sunt încă extrem de importante pentru procesul de accesare cu crawlere.

Fiecare site ar trebui să remedieze periodic lucruri precum redirecționări greșite, erori 404 și lanțuri de redirecționare.

Optimizare Robots.txt

Fișierul robots.txt poate fi optimizat excluzând adresele URL sau fișierele nevaloroase (cum ar fi analizele interne sau chatbots) din procesul de accesare cu crawlere.

Nu trebuie excluse surse utile sau importante din Googlebot (adică un fișier CSS necesar pentru a reda o anumită pagină).

Cum s-a schimbat procesul de accesare cu crawlere

Google și procesul de accesare cu crawlere au evoluat de-a lungul timpului.

Printre schimbările importante se numără următoarele:

Mobile-First Indexing

În martie 2018, Google a început să acorde prioritate conținutului mobil pe web și să își actualizeze indexul de la desktop-first la mobile-first, în încercarea de a îmbunătăți experiența utilizatorilor pe dispozitivele mobile.

Odată cu această schimbare, Google Desktop Bot a fost înlocuit cu smartphone-ul Googlebot ca crawler principal.

Google a anunțat trecerea la indexarea mobile-first pentru toate site-urile, iar cea mai mare parte a accesării cu crawlere pentru căutare este efectuată de bot-ul Google care simulează utilizator al smartphone-ului mobil.