SEO-Wiki — SEO-Fach­be­grif­fe ver­ständ­lich erklärt!

Das Crawl-Bud­get ist ein zen­tra­ler Begriff im SEO-Bereich und beschreibt die Men­ge an Sei­ten einer Web­site, die eine Such­ma­schi­ne inner­halb eines bestimm­ten Zeit­raums crawlt und mög­li­cher­wei­se inde­xiert. Ein­fach aus­ge­drückt: Es defi­niert die Kapa­zi­tät und Prio­ri­tät, mit der der Goo­gle­bot oder ande­re Craw­ler Ihre Web­site besu­chen. Ein effi­zi­en­tes Crawl-Bud­get ist essen­zi­ell, um sicher­zu­stel­len, dass alle wich­ti­gen Sei­ten einer Web­site von Such­ma­schi­nen erkannt und inde­xiert werden.

Such­ma­schi­nen wie Goog­le set­zen Res­sour­cen bewusst ein und steu­ern, wie inten­siv eine Web­site gecrawlt wird. Das Crawl-Bud­get ist hier­bei beson­ders relevant:

  • Für klei­ne Web­sites: Weni­ger kri­tisch, da Such­ma­schi­nen oft die gesam­te Web­site craw­len können.
  • Für gro­ße Web­sites: Von zen­tra­ler Bedeu­tung, um sicher­zu­stel­len, dass wich­ti­ge Inhal­te prio­ri­siert gecrawlt wer­den, ohne Res­sour­cen auf irrele­van­te Sei­ten oder Dupli­ca­te Con­tent zu verschwenden.

Das Crawl-Bud­get wird durch zwei Haupt­fak­to­ren beeinflusst:

Die­se bei­den Aspek­te zusam­men bestim­men, wie vie­le und wel­che Sei­ten einer Web­site gecrawlt wer­den. Ein gutes Crawl-Bud­get-Manage­ment sorgt dafür, dass SEO-rele­van­te Sei­ten inde­xiert wer­den, wäh­rend unnö­ti­ges Craw­ling ver­mie­den wird.

  • Crawl Rate Limit: Die maxi­ma­le Anzahl von Anfra­gen, die der Craw­ler inner­halb eines bestimm­ten Zeit­raums an Ihren Ser­ver stel­len kann, ohne die­sen zu überlasten.
  • Crawl Demand: Die Rele­vanz und Aktua­li­tät Ihrer Inhal­te sowie die Nach­fra­ge danach. Aktua­li­sier­te oder oft besuch­te Inhal­te haben eine höhe­re Priorität.
Web­site­typ Bedeu­tung des Crawl-Budgets Bei­spiel­pro­ble­me
Klei­ne Website Meist nicht kri­tisch, da alle Sei­ten gecrawlt wer­den können. Kei­ne beson­de­ren Probleme.
Mitt­le­re Website Wich­ti­ger, um irrele­van­te Sei­ten auszuschließen. Craw­ling von Fil­tern oder Dupli­ca­te Content.
Gro­ße Website Sehr wich­tig, um wich­ti­ge Sei­ten regel­mä­ßig craw­len zu lassen. Prio­ri­sie­rung von Kate­go­rien oder Produkten.
News-Web­site Ent­schei­dend, da Aktua­li­tät zen­tral ist. Ver­zö­ge­run­gen bei der Inde­xie­rung aktu­el­ler Nachrichten.
  • Goo­gle­bot: Der Craw­ler von Goog­le, der Web­sites ana­ly­siert und indexiert.
  • Inde­xie­rung: Der Pro­zess, bei dem gecrawl­te Inhal­te in die Goog­le-Daten­bank auf­ge­nom­men werden.
  • robots.txt: Eine Datei, mit der Sie steu­ern kön­nen, wel­che Berei­che Ihrer Web­site gecrawlt wer­den sollen.

Das Crawl-Bud­get ist ent­schei­dend für die erfolg­rei­che Inde­xie­rung und das Ran­king einer Web­site. Es beein­flusst, wie gut Such­ma­schi­nen Ihre Inhal­te ver­ste­hen und wie schnell neue oder aktua­li­sier­te Inhal­te in den Such­ergeb­nis­sen erschei­nen. Ins­be­son­de­re für umfang­rei­che Web­sites ist ein effi­zi­en­tes Crawl-Bud­get-Manage­ment essen­zi­ell, da Such­ma­schi­nen nur begrenz­te Res­sour­cen aufwenden.

Ein opti­mier­tes Crawl-Bud­get sorgt dafür, dass:

  • Wich­ti­ge Sei­ten prio­ri­siert wer­den: Inhal­te, die für SEO und Nut­zer rele­vant sind, wer­den häu­fi­ger gecrawlt.
  • Tech­ni­sche Res­sour­cen effi­zi­ent genutzt wer­den: Der Craw­ler ver­bringt weni­ger Zeit mit irrele­van­ten oder dop­pel­ten Seiten.
  • Neue Inhal­te schnel­ler inde­xiert wer­den: Vor allem bei News-Sei­ten oder E‑Com­mer­ce-Shops mit häu­fi­gen Updates ist dies entscheidend.

Wenn das Crawl-Bud­get inef­fi­zi­ent genutzt wird, kön­nen fol­gen­de Pro­ble­me auftreten:

Ver­wais­te Sei­ten
Sei­ten, die nicht intern ver­linkt sind, blei­ben mög­li­cher­wei­se unge­crawlt und somit unentdeckt.

Dupli­ca­te Con­tent
Dop­pel­te Inhal­te ver­schwen­den wert­vol­les Crawl-Bud­get und kön­nen zu Ran­king-Ver­lus­ten führen.

Tech­ni­sche Feh­ler
Ser­ver­feh­ler (5xx) oder fal­sche Wei­ter­lei­tun­gen (302 statt 301) kön­nen den Craw­ler ablenken.

Unwich­ti­ge Sei­ten wer­den gecrawlt
Fil­ter­sei­ten oder Pagi­na­ti­ons­links bean­spru­chen Craw­ling-Res­sour­cen ohne Mehr­wert für SEO.

Der Goo­gle­bot ist der am wei­tes­ten ver­brei­te­te Craw­ler und spielt eine zen­tra­le Rol­le im Craw­ling-Pro­zess. Neben Goog­le gibt es jedoch auch ande­re Such­ma­schi­nen, wie Bing oder Duck­Duck­Go, deren Craw­ler eige­ne Prio­ri­tä­ten set­zen. Goo­gle­bot steu­ert das Crawl-Bud­get auf Basis von zwei Faktoren:

  • Crawl Rate Limit: Begren­zung, um den Ser­ver nicht zu überlasten.
  • Crawl Demand: Rele­vanz und Aktua­li­tät der Inhal­te bestim­men die Nachfrage.

Um die Bedeu­tung eines opti­mier­ten Crawl-Bud­gets zu ver­deut­li­chen, hier eine Über­sicht häu­fi­ger Feh­ler und mög­li­cher Lösungen:

Pro­blem Beschrei­bung Lösung
Dupli­ca­te Content Dop­pel­te Sei­ten ver­schwen­den Crawling-Ressourcen Inhal­te kon­so­li­die­ren (z. B. Cano­ni­cal Tags)
Irrele­van­te Seiten Fil­ter und ande­re unwich­ti­ge Sei­ten wer­den gecrawlt Aus­schluss per robots.txt oder Noindex
Lang­sa­me Ladezeiten Ver­zö­ge­run­gen beim Craw­len durch hohe Server-Ladezeiten Lade­zeit durch Opti­mie­run­gen reduzieren
Über­las­te­ter Server Zu vie­le Anfra­gen füh­ren zu Server-Timeouts Ser­ver­leis­tung ver­bes­sern, Rate begrenzen

Code-Bei­spiel: Aus­schluss irrele­van­ter Sei­ten in robots.txt

Eine kor­rekt kon­fi­gu­rier­te robots.txt hilft, das Crawl-Bud­get effi­zi­en­ter zu nut­zen. Beispiel:

User-agent: *
Disallow: /filter/
Disallow: /tmp/
Disallow: /admin/

Hier wer­den Fil­ter­sei­ten, tem­po­rä­re Sei­ten und admi­nis­tra­ti­ve Berei­che von der Inde­xie­rung ausgeschlossen.

Das Crawl-Bud­get wird von Such­ma­schi­nen durch eine Kom­bi­na­ti­on tech­ni­scher und inhalt­li­cher Fak­to­ren bestimmt. Zwei zen­tra­le Aspek­te ste­hen dabei im Fokus: die Belast­bar­keit des Ser­vers und die Rele­vanz der Inhal­te. Die­se bestim­men, wie vie­le Sei­ten einer Web­site inner­halb eines bestimm­ten Zeit­raums gecrawlt wer­den kön­nen und wel­che Prio­ri­tät die­se Inhal­te erhalten.

Domain-Popu­la­ri­tät

Web­sites mit einer hohen Auto­ri­tät (gemes­sen durch Back­links, Traf­fic und Rele­vanz) erhal­ten ten­den­zi­ell ein höhe­res Crawl-Bud­get. Goog­le sieht die­se Domains als wich­ti­ger an und wid­met ihnen mehr Ressourcen.

Inter­ne und exter­ne Links

  • Inter­ne Links: Sie hel­fen dem Craw­ler, die Struk­tur der Web­site zu ver­ste­hen und prio­ri­sier­te Sei­ten zu erkennen.
  • Exter­ne Links: Ein­ge­hen­de Links von rele­van­ten Sei­ten stei­gern den Crawl Demand und signa­li­sie­ren, dass die­se Sei­ten häu­fi­ger gecrawlt wer­den sollten.

Ser­ver-Per­for­mance

Lang­sa­me Lade­zei­ten oder Ser­ver-Feh­ler schrän­ken das Crawl-Bud­get ein, da Goo­gle­bot kei­ne wert­vol­len Res­sour­cen auf unzu­ver­läs­si­gen Ser­vern ver­schwen­den möchte.

Aktua­li­sie­rungs­häu­fig­keit

Regel­mä­ßig aktua­li­sier­te Web­sites, wie News-Por­ta­le oder Blogs, wei­sen eine höhe­re Craw­ling-Fre­quenz auf.

Die Goog­le Search Con­so­le ist ein essen­zi­el­les Tool zur Über­wa­chung des Crawl-Bud­gets. Unter der Kate­go­rie “Craw­ling-Sta­tis­ti­ken” kön­nen fol­gen­de Wer­te ana­ly­siert werden:

  • Anzahl gecrawl­ter Sei­ten pro Tag:  Zeigt, wie vie­le Sei­ten der Goo­gle­bot täg­lich besucht.
  • Down­load-Grö­ße und Lade­zei­ten:  Gibt Hin­wei­se auf die Effi­zi­enz des Craw­ling-Pro­zes­ses und mög­li­che Engpässe.
  • HTTP-Ant­wort­codes:  Iden­ti­fi­ziert feh­ler­haf­te Sei­ten, die das Craw­ling beein­träch­ti­gen können.
Metrik Beschrei­bung Opti­mie­rungs­an­satz
Gecrawl­te Sei­ten pro Tag Wie vie­le Sei­ten Goog­le täg­lich crawlt. Sicher­stel­len, dass rele­van­te Sei­ten prio­ri­siert werden.
Lade­zeit Durch­schnitt­li­che Lade­zeit gecrawl­ter Seiten. Lade­zeit durch tech­ni­sche Opti­mie­run­gen reduzieren.
Feh­ler­codes (4xx, 5xx) Anzahl von Sei­ten mit Fehlern. Feh­ler­haf­te Sei­ten kor­ri­gie­ren oder aus robots.txt ausschließen.
Aktua­li­sie­rungs­häu­fig­keit Wie oft sich Inhal­te auf der Web­site ändern. Regel­mä­ßi­ge Updates zur Erhö­hung des Crawl Demand.

Bei­spiel-Code: Opti­mie­rung der Lade­zeit mit Caching

Eine Mög­lich­keit, die Ser­ver-Per­for­mance zu ver­bes­sern und somit das Crawl-Bud­get posi­tiv zu beein­flus­sen, ist die Imple­men­tie­rung von Caching:

<IfModule mod_expires.c>
  ExpiresActive On
  ExpiresByType text/html "access plus 1 month"
  ExpiresByType image/jpeg "access plus 1 year"
  ExpiresByType image/png "access plus 1 year"
  ExpiresByType text/css "access plus 1 month"
  ExpiresByType application/javascript "access plus 1 month"
</IfModule>

Die­ses Snip­pet akti­viert den Cache und gibt Goo­gle­bot schnel­ler Zugriff auf bereits zwi­schen­ge­spei­cher­te Ressourcen.

1. Dupli­ca­te Con­tent wird regel­mä­ßig gecrawlt

Wenn der Craw­ler immer wie­der die­sel­ben Inhal­te besucht, obwohl die­se kei­ne neu­en Infor­ma­tio­nen bie­ten, geht wert­vol­le Craw­ling-Zeit ver­lo­ren. Häu­fig tritt die­ses Pro­blem bei:

  • Fil­ter- oder Sor­tier­funk­tio­nen in Onlineshops.
  • Mehr­fach ver­füg­ba­ren Sei­ten mit unter­schied­li­chen URLs (z. B. mit und ohne UTM-Parameter).

2. Nicht inde­xier­ba­re Sei­ten wer­den gecrawlt

Sei­ten, die per noindex-Tag oder robots.txt aus­ge­schlos­sen wur­den, soll­ten idea­ler­wei­se nicht mehr besucht wer­den. Wenn dies den­noch geschieht, wird Crawl-Bud­get verschwendet.

3. Hohe Anzahl an Ser­ver-Feh­lern (5xx)

Feh­ler­haf­te Sei­ten, die von Such­ma­schi­nen gecrawlt wer­den, signa­li­sie­ren tech­ni­sche Pro­ble­me. Goo­gle­bot könn­te dadurch weni­ger Zeit für vali­de Inhal­te haben.

4. Lang­sa­me Crawling-Geschwindigkeit

Wenn der Craw­ler auf Lade­pro­ble­me stößt, redu­ziert er die Anzahl der Anfra­gen, um die Ser­ver-Per­for­mance nicht zu beeinträchtigen.

Um inef­fi­zi­en­tes Craw­ling zu erken­nen, kön­nen fol­gen­de Tools und Metho­den ein­ge­setzt werden:

Goog­le Search Console

Unter den Craw­ling-Sta­tis­ti­ken kannst du sehen, wie vie­le Sei­ten gecrawlt wur­den, wel­che HTTP-Sta­tus­codes auf­tra­ten und wie hoch die Lade­zeit der gecrawl­ten Sei­ten war.

Ser­ver-Log-Ana­ly­se

Durch die Ana­ly­se von Ser­ver-Logs kannst du erkennen:

  • Wel­che Sei­ten der Craw­ler besucht hat.
  • Wie oft feh­ler­haf­te Sei­ten auf­ge­ru­fen wurden.
  • Ob unnö­ti­ge Sei­ten wie­der­holt gecrawlt werden.

Craw­ling-Tools wie Screa­ming Frog oder Sitebulb

Die­se Tools simu­lie­ren den Goo­gle­bot und hel­fen, inef­fi­zi­en­te Sei­ten­struk­tu­ren oder Craw­ling-Pro­ble­me zu identifizieren.

Feh­ler­ur­sa­che Beschrei­bung Lösung
Dupli­ca­te Content Dop­pel­te Sei­ten wer­den unnö­tig gecrawlt. Cano­ni­cal-Tags ein­set­zen, Para­me­ter entfernen.
Craw­ling von noindex-Seiten Nicht rele­van­te Sei­ten wer­den trotz­dem gecrawlt. Über­prü­fung der robots.txt und noindex-Tags.
Ser­ver-Feh­ler (5xx) Hohe Anzahl feh­ler­haf­ter Anfragen. Ser­ver-Opti­mie­run­gen, feh­ler­haf­te Sei­ten reparieren.
Zu lan­ge Ladezeiten Craw­ler war­tet zu lan­ge auf Antworten. Caching akti­vie­ren, Bil­der optimieren.

Ein häu­fi­ger Grund für inef­fi­zi­en­tes Craw­ling sind URLs mit Track­ing-Para­me­tern. Die­se kön­nen in der Goog­le Search Con­so­le mit einem URL-Para­me­ter-Tool oder in der robots.txt aus­ge­schlos­sen werden:

User-agent: *
Disallow: /*?utm_source=
Disallow: /*?utm_medium=
Disallow: /*?sessionid=

Mit die­ser Regel wird ver­hin­dert, dass URLs mit den genann­ten Para­me­tern gecrawlt werden.

Eine effi­zi­en­te Nut­zung des Crawl-Bud­gets ist essen­zi­ell, um sicher­zu­stel­len, dass Such­ma­schi­nen die wich­ti­gen Sei­ten Ihrer Web­site craw­len und inde­xie­ren. Im Fol­gen­den fin­den Sie bewähr­te Stra­te­gien und Maß­nah­men, die Ihnen dabei hel­fen, Ihr Crawl-Bud­get opti­mal zu nutzen.

Ver­bes­se­rung der Ladegeschwindigkeit

Lang­sa­me Lade­zei­ten kön­nen dazu füh­ren, dass der Craw­ler weni­ger Sei­ten besucht, da er auf Ant­wort­zei­ten war­ten muss. Maß­nah­men zur Opti­mie­rung der Ladegeschwindigkeit:

  • Bil­der kom­pri­mie­ren und Lazy Loa­ding für nicht sicht­ba­re Inhal­te verwenden.
  • Java­Script und CSS mini­mie­ren und zusammenfassen.
  • Ein Con­tent Deli­very Net­work (CDN) ver­wen­den, um Lade­zei­ten für glo­ba­le Nutzer*innen zu reduzieren.

Ver­rin­ge­rung von Server-Fehlern

Ser­ver-Feh­ler (z. B. 5xx-Sta­tus­codes) kön­nen Craw­ling-Akti­vi­tä­ten blo­ckie­ren. Empfehlungen:

  • Über­wa­chen Sie Ser­ver-Logs regel­mä­ßig auf Fehler.
  • Ska­lie­ren Sie Ihre Ser­ver­ka­pa­zi­tät, um Last­spit­zen zu bewältigen.
  • Rich­ten Sie ein Moni­to­ring-Tool ein, um Ser­ver-Feh­ler sofort zu erkennen.

Umgang mit Dupli­ca­te Content

Dupli­ca­te Con­tent ver­schwen­det wert­vol­le Craw­ling-Res­sour­cen. Redu­zie­ren Sie Dupli­ka­te durch:

  • Cano­ni­cal-Tags: Ver­wei­sen Sie auf die Haupt­ver­si­on einer Seite.
  • Para­me­ter­hand­ling: Ent­fer­nen Sie unnö­ti­ge URL-Para­me­ter in der Goog­le Search Con­so­le oder der robots.txt.
  • Wei­ter­lei­tun­gen: Ver­mei­den Sie, dass meh­re­re URLs auf die­sel­ben Inhal­te füh­ren, indem Sie 301-Redi­rects verwenden.

Prio­ri­sie­rung wich­ti­ger Seiten

Wich­ti­ge Sei­ten soll­ten häu­fi­ger gecrawlt wer­den. Stra­te­gien dazu:

  • Fügen Sie unwich­ti­ge Sei­ten in die robots.txt ein, um sie vom Craw­ling auszuschließen.
  • Nut­zen Sie das noindex-Tag, um irrele­van­te Sei­ten aus den Such­ergeb­nis­sen zu entfernen.

Bei­spiel für eine robots.txt-Datei:

User-agent: *
Disallow: /dev/
Disallow: /temp/
Disallow: /test/

Opti­mie­rung der inter­nen Verlinkung

Eine kla­re inter­ne Link­struk­tur hilft Craw­lern, die Web­site effi­zi­ent zu durchlaufen:

  • Ver­lin­ken Sie wich­ti­ge Sei­ten pro­mi­nent, z. B. in der Navi­ga­ti­on oder über Breadcrumbs.
  • Ver­wen­den Sie spre­chen­de Anker­tex­te, die dem Craw­ler den Kon­text der Ziel­sei­te vermitteln.
  • Ver­mei­den Sie tie­fe Klick­pfa­de (mehr als drei Klicks von der Startseite).

Über­prü­fung exter­ner Links

Ein­ge­hen­de Links von ande­ren Web­sites erhö­hen die Prio­ri­tät bestimm­ter Sei­ten für den Craw­ler. Nut­zen Sie Tools wie Ahrefs oder SEM­rush, um Ihre Back­links zu ana­ly­sie­ren und gezielt hoch­wer­ti­ge Links aufzubauen.

Maß­nah­me Beschrei­bung
Lade­ge­schwin­dig­keit optimieren Bil­der kom­pri­mie­ren, Lazy Loa­ding, CDN verwenden.
Ser­ver-Feh­ler reduzieren Ser­ver-Logs prü­fen, Moni­to­ring ein­rich­ten, Kapa­zi­tät skalieren.
Dupli­ca­te Con­tent minimieren Cano­ni­cal-Tags set­zen, Para­me­ter ent­fer­nen, Wei­ter­lei­tun­gen einrichten.
Wich­ti­ge Sei­ten priorisieren robots.txt und noindex gezielt einsetzen.
Inter­ne Ver­lin­kung optimieren Fla­che Klick­hier­ar­chie, spre­chen­de Anker­tex­te verwenden.
Exter­ne Links ana­ly­sie­ren & verbessern Back­link-Qua­li­tät prü­fen und stra­te­gi­schen Link­auf­bau betreiben.

Das The­ma Crawl-Bud­get ist oft von Mythen und Miss­ver­ständ­nis­sen geprägt. Nicht jedes Craw­ling-Pro­blem hängt direkt mit dem Crawl-Bud­get zusam­men, und man­che Maß­nah­men zur Opti­mie­rung haben kei­ne oder sogar nega­ti­ve Aus­wir­kun­gen. In die­sem Abschnitt räu­men wir mit gän­gi­gen Miss­ver­ständ­nis­sen auf und klä­ren, was das Crawl-Bud­get tat­säch­lich beeinflusst.

“Such­ma­schi­nen craw­len alles, also ist das Crawl-Bud­get unwich­tig.“
Falsch. Such­ma­schi­nen haben begrenz­te Res­sour­cen, und selbst gro­ße Web­sites kön­nen nicht davon aus­ge­hen, dass jede Sei­te gecrawlt wird. Unwich­ti­ge oder dop­pel­te Inhal­te kön­nen das Bud­get schnell erschöpfen.

“Craw­ling ist das­sel­be wie Inde­xie­rung.“
Nein, nicht alle gecrawl­ten Sei­ten wer­den inde­xiert. Such­ma­schi­nen bewer­ten, ob eine Sei­te rele­vant genug ist, um in den Index auf­ge­nom­men zu wer­den. Die Opti­mie­rung des Crawl-Bud­gets ist nur ein Teil des Prozesses.

“Das Aus­schlie­ßen von Sei­ten in der robots.txt spart Crawl-Bud­get.“
Ein weit ver­brei­te­ter Irr­glau­be. Sei­ten, die in der robots.txt aus­ge­schlos­sen wer­den, wer­den zwar nicht gecrawlt, sie ver­brau­chen jedoch wei­ter­hin Res­sour­cen, da der Craw­ler prü­fen muss, ob sie zugäng­lich sind. Lösung: Unwich­ti­ge Sei­ten lie­ber mit einem noindex-Tag und inter­nem Aus­schluss behandeln.

“Alle Sei­ten soll­ten gecrawlt wer­den.“
Das ist in den meis­ten Fäl­len inef­fi­zi­ent. Nicht jede Sei­te einer Web­site ist für SEO rele­vant. Fil­ter­sei­ten, Pagi­na­ti­ons­sei­ten oder tem­po­rä­re URLs soll­ten vom Craw­ling aus­ge­schlos­sen werden.

Tech­ni­sche Faktoren

  • Ser­ver-Geschwin­dig­keit: Lang­sa­me Ant­wort­zei­ten kön­nen den Craw­ler ausbremsen.
  • Sta­tus­codes: Feh­ler­haf­te Sei­ten (4xx und 5xx) ver­schwen­den Crawling-Ressourcen.
  • robots.txt: Steue­rung, wel­che Berei­che der Web­site der Craw­ler besu­chen soll.

Inhalt­li­che Faktoren

  • Rele­vanz und Aktua­li­tät: Neue oder aktua­li­sier­te Inhal­te wer­den priorisiert.
  • Inter­ne Ver­lin­kung: Star­ke inter­ne Links signa­li­sie­ren dem Craw­ler, wel­che Sei­ten wich­tig sind.

Unbe­ein­fluss­ba­re Faktoren

  • Crawl Rate Limit: Goog­le ent­schei­det basie­rend auf der Ser­ver­ka­pa­zi­tät, wie vie­le Anfra­gen pro Zeit­fens­ter mög­lich sind.
  • Crawl Demand: Die Nach­fra­ge der Nutzer*innen nach bestimm­ten Inhal­ten kann die Craw­ling-Fre­quenz beeinflussen.
Mythos Fakt
robots.txt spart Crawl-Budget. robots.txt blo­ckiert das Craw­len, ver­braucht aber wei­ter­hin Ressourcen.
Craw­ling = Indexierung. Gecrawl­te Sei­ten müs­sen nicht inde­xiert wer­den, wenn sie als irrele­vant ein­ge­stuft werden.
Alle Sei­ten soll­ten gecrawlt werden. Nur SEO-rele­van­te Sei­ten soll­ten gecrawlt werden.
Eine gro­ße Web­site hat auto­ma­tisch mehr Crawl-Budget. Die Web­site-Rele­vanz und tech­ni­sche Per­for­mance sind ent­schei­dend, nicht die Größe.

Bei­spiel-Code: Rich­ti­ges Hand­ling mit noindex

Um unwich­ti­ge Sei­ten vom Craw­ling und der Inde­xie­rung aus­zu­schlie­ßen, ist das noindex-Tag die bes­se­re Wahl als robots.txt. Bei­spiel:

<meta name="robots" content="noindex, nofollow">

Das noindex-Tag ver­hin­dert, dass die Sei­te inde­xiert wird, und das nofollow-Attri­but signa­li­siert dem Craw­ler, den Links auf die­ser Sei­te nicht zu folgen.

Das Über­wa­chen des Crawl-Bud­gets ist ent­schei­dend, um sicher­zu­stel­len, dass Such­ma­schi­nen die wich­tigs­ten Sei­ten Ihrer Web­site effi­zi­ent craw­len. Die Ana­ly­se von Craw­ling-Daten gibt Ihnen wert­vol­le Ein­bli­cke in mög­li­che Pro­ble­me und Opti­mie­rungs­po­ten­zia­le. Im Fol­gen­den wer­den die bes­ten Metho­den und Tools beschrie­ben, um das Crawl-Bud­get effek­tiv zu überwachen.

Die Goog­le Search Con­so­le ist das pri­mä­re Tool, um Infor­ma­tio­nen über das Craw­ling-Ver­hal­ten des Goo­gle­bots auf Ihrer Web­site zu erhal­ten. Unter “Craw­ling-Sta­tis­ti­ken” fin­den Sie fol­gen­de wich­ti­ge Daten:

1. Anzahl der gecrawl­ten Sei­ten pro Tag

Die­ser Wert zeigt, wie vie­le Sei­ten täg­lich gecrawlt wer­den. Ein plötz­li­cher Rück­gang könn­te auf Ser­ver­pro­ble­me oder feh­ler­haf­te Ein­stel­lun­gen (z. B. in der robots.txt) hin­wei­sen.

2. Down­load-Grö­ße der gecrawl­ten Seiten

Eine hohe Down­load-Grö­ße kann auf unop­ti­mier­te Inhal­te (z. B. gro­ße Bil­der oder nicht kom­pri­mier­te Res­sour­cen) hin­wei­sen, die den Craw­ling-Pro­zess verlangsamen.

3. Durch­schnitt­li­che Lade­zeit der gecrawl­ten Seiten

Die­ser Wert gibt Hin­wei­se auf die Ser­ver-Per­for­mance. Lang­sa­me Lade­zei­ten kön­nen dazu füh­ren, dass weni­ger Sei­ten gecrawlt werden.

4. HTTP-Sta­tus­codes

  • 2xx (Erfolg): Alles in Ordnung.
  • 3xx (Wei­ter­lei­tun­gen): Soll­ten kor­rekt auf die Ziel­sei­ten ver­wei­sen (301 statt 302).
  • 4xx (Feh­ler): Die­se Sei­ten soll­ten repa­riert oder aus dem Craw­ling aus­ge­schlos­sen werden.
  • 5xx (Ser­ver­feh­ler): Die­se Feh­ler müs­sen drin­gend beho­ben wer­den, da sie Craw­ling-Res­sour­cen verschwenden.

Die Ana­ly­se der Ser­ver-Logs gibt tie­fer­ge­hen­de Ein­bli­cke in das Ver­hal­ten der Craw­ler und hilft, spe­zi­fi­sche Pro­ble­me zu iden­ti­fi­zie­ren. Die­se Logs ent­hal­ten Infor­ma­tio­nen dar­über, wel­che URLs besucht wur­den, wel­che Sta­tus­codes zurück­ge­ge­ben wur­den und wie häu­fig bestimm­te Sei­ten gecrawlt werden.

Vor­ge­hen zur Server-Log-Analyse:

1. Log-Daten abru­fen
Expor­tie­ren Sie die Logs von Ihrem Web­ser­ver (z. B. Apa­che oder Nginx).

2. Ana­ly­se mit Tools
Ver­wen­den Sie spe­zia­li­sier­te Tools wie:

  • Screa­ming Frog Log File Ana­ly­zer: Ide­al für detail­lier­te Crawling-Analysen.
  • Splunk oder ELK Stack: Für umfas­sen­de Daten­ana­ly­se und Visualisierung.

3. Über­prü­fen Sie spe­zi­fi­sche Crawling-Muster

  • Häu­fig gecrawl­te Sei­ten: Ent­spre­chen die­se den wich­ti­gen SEO-Seiten?
  • Feh­ler­mel­dun­gen: Gibt es 4xx- oder 5xx-Sei­ten, die häu­fig auf­ge­ru­fen werden?
  • Unnö­ti­ge Craw­ling-Vor­gän­ge: Wer­den irrele­van­te oder dop­pel­te Sei­ten gecrawlt?
Kenn­zahl Beschrei­bung Opti­mie­rungs­an­satz
Craw­ling-Fre­quenz Wie oft der Craw­ler bestimm­te Sei­ten besucht. Wich­ti­ge Sei­ten prio­ri­sie­ren, irrele­van­te Sei­ten ausschließen.
HTTP-Sta­tus­codes Ver­hält­nis von erfolg­rei­chen zu feh­ler­haf­ten Seiten. Feh­ler­haf­te Sei­ten (4xx, 5xx) korrigieren.
Down­load-Grö­ße Durch­schnitt­li­che Daten­men­ge pro gecrawl­ter Seite. Res­sour­cen (z. B. Bil­der, Skrip­te) opti­mie­ren und komprimieren.
Lade­zeit Durch­schnitt­li­che Ant­wort­zeit der Server. Ser­ver­leis­tung ver­bes­sern, Lade­zei­ten durch Caching und Kom­pri­mie­rung reduzieren.
Anzahl irrele­van­ter Seiten Wie vie­le Sei­ten gecrawlt wer­den, die für SEO nicht wich­tig sind. Aus­schluss die­ser Sei­ten durch robots.txt oder noindex-Tag.

Um die Akti­vi­tä­ten des Goo­gle­bots in Ihren Ser­ver-Logs zu iden­ti­fi­zie­ren, kön­nen Sie fol­gen­de Fil­ter­re­gel ver­wen­den (Bei­spiel für Apache-Logs):

grep "Googlebot" access.log

Die­ses Kom­man­do zeigt alle Anfra­gen, die vom Goo­gle­bot stam­men. Kom­bi­nie­ren Sie es mit wei­te­ren Tools, um detail­lier­te Sta­tis­ti­ken zu erstellen.

In die­sem Abschnitt fas­sen wir die wich­tigs­ten Erkennt­nis­se zusam­men und beto­nen, war­um das Crawl-Bud­get ein unver­zicht­ba­rer Bestand­teil jeder erfolg­rei­chen SEO-Stra­te­gie ist. Dabei wird auch die Not­wen­dig­keit eines kon­ti­nu­ier­li­chen Moni­to­rings und der lang­fris­ti­gen Opti­mie­rung hervorgehoben.

Das Crawl-Bud­get ist ein ent­schei­den­der Fak­tor für die Sicht­bar­keit Ihrer Web­site in den Such­ma­schi­nen. Ein opti­mier­tes Crawl-Bud­get sorgt dafür, dass Such­ma­schi­nen effi­zi­ent und fokus­siert die wich­tigs­ten Sei­ten Ihrer Web­site craw­len und inde­xie­ren. Hier sind die zen­tra­len Aspek­te, die Sie beach­ten sollten:

Crawl-Bud­get ver­ste­hen und optimieren:

Durch das Iden­ti­fi­zie­ren und Behe­ben von Hin­der­nis­sen wie unnö­ti­gen Wei­ter­lei­tun­gen oder schwer zugäng­li­chen Inhal­ten stel­len Sie sicher, dass Such­ma­schi­nen ihre Res­sour­cen auf die rich­ti­gen Sei­ten konzentrieren.

Craw­ling-Pro­zes­se überwachen:

Die regel­mä­ßi­ge Über­wa­chung des Crawl-Bud­gets durch Tools wie die Goog­le Search Con­so­le und Ser­ver-Log-Ana­ly­sen gibt wert­vol­le Ein­bli­cke in das Ver­hal­ten des Craw­ler und mög­li­che Probleme.

Prio­ri­sie­rung von wich­ti­gen Seiten:

Stel­len Sie sicher, dass Ihre wich­tigs­ten Sei­ten regel­mä­ßig gecrawlt wer­den, indem Sie tech­ni­sche Pro­ble­me besei­ti­gen und unnö­ti­ge Sei­ten vom Craw­ling aus­schlie­ßen. Hier­bei hilft das Set­zen von Prio­ri­tä­ten und das Aus­schlie­ßen irrele­van­ter Sei­ten durch robots.txt oder noindex-Tags.

Feh­ler­ana­ly­se und Optimierung:

Regel­mä­ßi­ge Feh­ler­ana­ly­sen und das Behe­ben von Craw­ling-Feh­lern, wie zum Bei­spiel 4xx- und 5xx-Feh­lern, ist uner­läss­lich. Die­se Feh­ler ver­schwen­den Craw­ling-Res­sour­cen und kön­nen Ihre SEO-Bemü­hun­gen behindern.

Das Crawl-Bud­get ist kei­ne ein­ma­li­ge Auf­ga­be, son­dern ein fort­lau­fen­der Pro­zess. Im Lau­fe der Zeit wer­den sich neue Sei­ten hin­zu­zu­fü­gen, der Inhalt auf Ihrer Web­site wird sich ver­än­dern, und die Prio­ri­tä­ten für das Craw­ling kön­nen sich eben­falls ver­schie­ben. Es ist daher wich­tig, regel­mä­ßig die Craw­ling-Stra­te­gie zu über­prü­fen und anzu­pas­sen, um sicher­zu­stel­len, dass das Crawl-Bud­get effi­zi­ent genutzt wird.

Ein lang­fris­ti­ger Ansatz soll­te fol­gen­des umfassen:

  • Kon­ti­nu­ier­li­ches Moni­to­ring: Die regel­mä­ßi­ge Über­prü­fung der Craw­ling-Daten und die Ana­ly­se von Feh­lern ist essen­zi­ell, um pro­ak­tiv auf poten­zi­el­le Pro­ble­me reagie­ren zu können.
  • Anpas­sun­gen an die Web­site: Mit wach­sen­der Web­site und zuneh­men­dem Con­tent soll­ten auch die Craw­ling-Stra­te­gien ange­passt wer­den, um das Crawl-Bud­get wei­ter­hin opti­mal zu nutzen.
  • Berück­sich­ti­gung von SEO-Ände­run­gen: Ände­run­gen an der SEO-Stra­te­gie, wie die Ein­füh­rung neu­er Sei­ten oder Umstruk­tu­rie­run­gen, soll­ten stets im Zusam­men­hang mit dem Crawl-Bud­get betrach­tet werden.

Um die bes­ten Ergeb­nis­se zu erzie­len, soll­ten Sie nicht nur ein­ma­lig Ihr Crawl-Bud­get ana­ly­sie­ren, son­dern die­se Über­prü­fung regel­mä­ßig durch­füh­ren. Ein gut geplan­tes und kon­ti­nu­ier­lich über­wach­ten Craw­ling-Manage­ment stellt sicher, dass Such­ma­schi­nen effek­tiv arbei­ten und Ihre Web­site in den SERPs gut plat­ziert ist.

Wich­ti­ge Maß­nah­men zur regel­mä­ßi­gen Überprüfung:

  • Regel­mä­ßi­ge Reports und Ana­ly­sen in der Goog­le Search Con­so­le: Über­wa­chen Sie regel­mä­ßig die Craw­ling-Sta­tis­ti­ken und pas­sen Sie Ihre Sei­te bei Bedarf an.
  • Monat­li­che Ser­ver-Log-Ana­ly­sen: Die­se bie­ten tie­fe­re Ein­bli­cke in die Craw­ling-Akti­vi­tä­ten und hel­fen, Pro­ble­me zu erken­nen, die mit den Stan­dard-Tools mög­li­cher­wei­se nicht sicht­bar sind.
  • SEO-Audits: Füh­ren Sie regel­mä­ßig voll­stän­di­ge SEO-Audits durch, um sicher­zu­stel­len, dass kei­ne rele­van­ten Sei­ten im Crawl-Bud­get ver­nach­läs­sigt werden.

jetzt her­un­ter­la­den

Ulti­ma­ti­ver Gui­de: ChatGPT-SEO Guide

So inte­grierst du ChatGPT in dei­ne Pro­zes­se im SEO und Con­tent Mar­ke­ting. Ler­ne wie du ChatGPT im SEO nutzt: Von der ers­ten The­men­re­cher­che bis zum fer­ti­gen Content!

jetzt her­un­ter­la­den