Crawl Budget – Weitmark

Stell dir vor, Google hätte unendlich viel Zeit und Ressourcen für deine Website. Der Googlebot würde jeden Tag vorbeischauen, jede noch so kleine Änderung sofort registrieren und jede deiner Unterseiten – egal wie tief verschachtelt – blitzschnell in den Index aufnehmen. Das wäre der Idealzustand.

Die Realität sieht leider anders aus. Das Internet ist gigantisch, und selbst Google muss haushalten. Der Googlebot kann nicht alles gleichzeitig crawlen. Er muss priorisieren. Er muss entscheiden: „Lohnt es sich, hier Zeit zu investieren, oder gehe ich lieber zur nächsten Website?“

Genau hier kommt das Crawl Budget ins Spiel. Es ist die Währung, mit der deine Website um die Aufmerksamkeit von Google bezahlt. Wenn dein Budget aufgebraucht ist, dreht der Bot ab – und deine neuen Inhalte bleiben erst einmal unsichtbar.

Wir erleben oft, dass Kunden nervös werden, wenn sie diesen Begriff hören. „Muss ich mein Crawl Budget optimieren?“, ist eine häufige Frage. Die Antwort ist ein klares „Jein“. Für viele Websites ist es gar kein Thema, für andere ist es der entscheidende Flaschenhals.

In diesem Artikel entmystifizieren wir das Thema Crawl Budget. Wir zeigen dir, wann du wirklich handeln musst, wer deine größten „Budget-Diebe“ sind und wie du dafür sorgst, dass Google seine Zeit auf deine wichtigsten Seiten verwendet.

Was ist Crawl Budget (praxisnah erklärt)?

Lass uns die Buzzwords beiseitelegen und das Konzept ganz einfach betrachten. Das Crawl Budget ist im Grunde die Anzahl der URLs, die der Googlebot auf deiner Website crawlen kann und will.

Es setzt sich aus zwei Hauptfaktoren zusammen:

1. Crawl Capacity (Das Limit deines Servers)

Google ist ein höflicher Gast. Der Bot möchte deinen Server nicht überlasten. Wenn deine Website langsam antwortet oder bei vielen Zugriffen in die Knie geht, drosselt Google die Geschwindigkeit.

Einfach gesagt: Wie viele Seiten kann Google technisch abrufen, ohne dass deine Seite abstürzt?

2. Crawl Demand (Die Wichtigkeit deiner Seite)

Google will Inhalte finden, die Nutzer interessieren. Beliebte Seiten (mit vielen externen Links und Traffic) werden öfter besucht als verwaiste Landingpages, die seit 2015 niemand mehr angeklickt hat. Auch Aktualität spielt eine Rolle: Ein News-Portal hat einen höheren „Crawl Demand“ als eine statische Visitenkarte.

Einfach gesagt: Wie viele Seiten will Google abrufen, weil sie wichtig oder aktuell sind?

Ein Rechenbeispiel:
Stell dir vor, du hast einen riesigen Online-Shop mit 100.000 URLs (Produkte, Kategorien, Filter). Google gesteht dir aber aufgrund deiner Server-Performance und deiner aktuellen Popularität nur ein Budget von 2.000 Crawls pro Tag zu.
Du kannst dir leicht ausrechnen, wie lange es dauert, bis der Bot einmal alles gesehen hat: Wochen. Wenn du heute ein neues Produkt einstellst, kann es passieren, dass Google es erst in 20 Tagen findet. Das ist bares Geld, das dir entgeht.

Wann ist Crawl Budget wirklich ein Thema?

Hier müssen wir ehrlich sein, um dir unnötige Arbeit zu ersparen. In der SEO-Szene wird Crawl Budget oft als Allheilmittel verkauft. Doch für die meisten Websites da draußen ist es gar nicht das primäre Problem.

Du hast wahrscheinlich KEIN Crawl-Budget-Problem, wenn:

Deine Seite weniger als ein paar tausend URLs hat.
Neue Inhalte in der Regel innerhalb von ein paar Tagen im Index auftauchen.
Du keine komplexen technischen Spielereien (wie riesige Filter-Navigationen) nutzt.

Bei einer sauberen Unternehmensseite mit 500 Unterseiten kommt der Googlebot locker durch. Hier solltest du dich eher auf Content und Onpage-Optimierung konzentrieren.

Wann musst du hellhörig werden?
Das Thema wird kritisch für:

Große E-Commerce-Sites: Sobald du Varianten, Filter und Sortierungen hast, explodiert die Zahl der URLs schnell in die Millionen.
Große Publisher/News-Portale: Hier ist Schnelligkeit alles. Wenn die Breaking News erst morgen indexiert wird, ist der Traffic weg.
Seiten mit technischer „URL-Explosion“: Wenn ein Fehler im System unendlich viele URLs generiert (z. B. Kalenderfunktionen, die bis ins Jahr 3000 verlinken).
Seiten nach einem Relaunch: Wenn Weiterleitungen nicht sauber gesetzt sind, verrennt sich der Bot.

Oft ist ein scheinbares „Crawl Budget Problem“ in Wahrheit nur ein Symptom für unsaubere Technik. Wenn du Google zwingst, Tausende von Fehlerseiten zu crawlen, fehlt die Zeit für die echten Inhalte.

Die häufigsten Budget-Fresser (und wie du sie stoppst)

Wenn wir Crawl-Analysen durchführen, finden wir fast immer die gleichen Verdächtigen, die Ressourcen verschwenden. Das Gute daran: Wenn du diese „Fresser“ eliminierst, wird Budget frei, ohne dass du deinen Server aufrüsten musst.

Hier sind die Top 5 der Ressourcen-Vernichter:

1. Parameter-URLs und Faceted Navigation

Das ist der Endgegner im E-Commerce. Stell dir vor, du hast einen Schuh-Shop.
Die URL /schuhe ist wichtig.
Aber was ist mit /schuhe?farbe=rot&groesse=42&sortierung=preis_asc&ansicht=liste?
Jede Kombination aus Filtern erzeugt eine neue URL. Technisch ist das oft notwendig, aber für Google ist es meist Duplicate Content oder uninteressant.

Wenn du Google erlaubst, jede dieser Millionen Kombinationen zu crawlen, wird der Bot den Großteil seiner Zeit in deiner Faceted Navigation verbringen. Deine wichtigen Kategorieseiten bleiben auf der Strecke. Hier helfen klare Regeln in der robots.txt oder saubere Canonical-Tags, wobei robots.txt effektiver ist, um das Crawling vorher zu stoppen.

Mehr dazu: Parameter-URLs richtig handhaben

2. Redirect-Ketten (Die stille Bremse)

Ein Link zeigt auf Seite A. Seite A leitet weiter auf Seite B. Seite B leitet weiter auf Seite C.
Jeder dieser Sprünge (Hops) kostet den Bot Zeit und Mühe. Google folgt meist nur 5 solcher Sprünge, bevor er abbricht. Schlimmer noch: Jeder Hop in einer Redirect-Kette frisst einen kleinen Teil des Crawl Budgets.
Wir sehen oft alte Weiterleitungen aus Relaunches von 2015, die auf Weiterleitungen von 2018 zeigen, die wiederum auf die heutige URL zeigen. Das muss bereinigt werden.

3. Soft 404 Fehler

Ein Soft 404 ist besonders tückisch. Das passiert, wenn eine Seite für den Nutzer aussieht wie „Nicht gefunden“ (z. B. „Leider keine Produkte in dieser Kategorie“), der Server aber technisch meldet: „Alles okay hier (Statuscode 200)“.
Google crawlt diese Seite, analysiert den Inhalt und merkt dann: „Moment, hier ist ja gar nichts.“ Das ist verschwendete Zeit. Wenn eine Seite leer ist oder nicht existiert, sollte sie auch technisch korrekt antworten (404 oder 410).

4. 5xx Serverfehler

Wenn der Googlebot vorbeikommt und dein Server meldet „500 Internal Server Error“ oder „503 Service Unavailable“, ist das ein Warnsignal.
Passiert das häufiger, denkt Google: „Oh, der Server ist überlastet. Ich komme lieber seltener vorbei, um nichts kaputtzumachen.“
Du verlierst also doppelt: Die Fehlerseiten werden nicht indexiert und deine generelle Crawl Capacity wird herabgestuft. Ein stabiler Server ist die Grundvoraussetzung für gutes Crawling.

5. Doppelte URLs (Duplicate Content)

Erreichbarkeit unter http und https? Mit und ohne www? Mit und ohne Trailing Slash (/ am Ende)?
Wenn deine Seite unter vier verschiedenen Varianten erreichbar ist, muss Google theoretisch alle vier prüfen, um die richtige zu finden. Saubere, server-seitige 301-Weiterleitungen auf eine Hauptversion sind Pflicht.

Maßnahmen mit Priorität (erst Hygiene, dann Feintuning)

Du weißt jetzt, wo die Probleme liegen könnten. Aber wo fängst du an? Wir empfehlen eine klare Reihenfolge. Erst muss die Basis stimmen, bevor wir an den Feinheiten schrauben.

Schritt 1: Statuscodes aufräumen

Dein Ziel ist eine saubere Struktur, in der fast jeder Crawl auf einer funktionierenden Seite (Status 200) landet.

Prüfe deine HTTP-Statuscodes.
Eliminiere interne Links, die auf 404-Fehlerseiten zeigen (Broken Links). Jeder Link auf eine tote Seite ist eine Sackgasse für den Bot.
Löse Redirect-Ketten auf. Verlinke intern immer direkt auf das finale Ziel, nicht auf die Weiterleitung.

Schritt 2: Die XML-Sitemap säubern

Deine XML-Sitemap ist deine Wunschliste an Google. „Bitte schau dir diese Seiten an.“
Wenn diese Liste voller Müll ist (404-Seiten, weitergeleitete URLs, noindex-Seiten), verliert Google das Vertrauen in deine Sitemap.
Sorge dafür, dass in der Sitemap wirklich nur deine indexierbaren, kanonischen Top-Seiten stehen. Das erhöht die Wahrscheinlichkeit, dass Google diese priorisiert abarbeitet.

Schritt 3: Parameter und Filter steuern

Entscheide aktiv, was Google sehen darf.

Braucht Google die „Sortieren nach Preis“-URLs? Wahrscheinlich nicht. Sperre sie in der robots.txt.
Braucht Google die Kombination aus „Farbe: Rot“ + „Größe: XL“ + „Material: Leder“? Meistens nicht, da das Suchvolumen dafür zu gering ist („Longtail“ hin oder her).
Setze klare Regeln, welche URL-Muster für den Bot tabu sind. Das ist der effektivste Hebel, um bei großen Shops Budget freizuschaufeln.

Schritt 4: Interne Verlinkung fokussieren

Google nutzt interne Links, um die Wichtigkeit einer Seite zu verstehen.
Eine Seite, die von der Startseite verlinkt ist, wird sehr oft gecrawlt. Eine Seite, die nur über zehn Klicks erreichbar ist, wird selten besucht.
Nutze das zu deinem Vorteil. Verlinke deine wichtigsten „Money Pages“ und neue Artikel prominent (z. B. „Beliebte Produkte“, „Ähnliche Artikel“). Damit lenkst du den Bot gezielt dorthin, wo er am dringendsten gebraucht wird.

Monitoring: woran du Verbesserung erkennst

Du hast aufgeräumt. Aber hat es was gebracht? SEO ist messbar, und das gilt auch für das Crawl Budget.

Dein wichtigstes Tool ist der Crawl-Statistiken-Bericht in der Google Search Console (unter „Einstellungen“).

Achte auf folgende Indikatoren:

Gesamtzahl der Crawling-Anfragen: Steigt die Kurve oder bleibt sie stabil auf hohem Niveau? Ein Einbruch deutet auf Serverprobleme hin.
Antworten nach Statuscode: Der Anteil an „200 OK“ sollte dominieren (idealerweise >90%). Wenn du viele 301, 302 oder 404 siehst, hast du noch Hausaufgaben bei der Link-Hygiene.
Dateityp: Wird hauptsächlich HTML (dein Content) gecrawlt, oder verbringt der Bot zu viel Zeit mit JavaScript-Dateien oder Bildern?
Zweck: Schau dir das Verhältnis von „Aktualisierung“ (bekannte Seiten) zu „Entdeckung“ (neue Seiten) an. Wir wollen eine gesunde Mischung.

Für Fortgeschrittene: Logfile-Analyse
Wenn du es ganz genau wissen willst, kommst du an den Server-Logfiles nicht vorbei. Hier siehst du jeden einzelnen Zugriff des Googlebots – ungefiltert. Du erkennst sofort, ob der Bot sich in einer Endlosschleife aus Filter-URLs verfangen hat, die in der Search Console vielleicht gar nicht so detailliert auftauchen. Das ist der Goldstandard der Diagnose.

FAQ: Häufige Fragen zum Crawl Budget

Sollte ich einfach alles blockieren, was nicht wichtig ist?
Vorsicht mit dem Hammer. Wenn du per robots.txt zu viel blockierst, kann das Nebenwirkungen haben (z. B. können Linksignale nicht mehr fließen). Blockiere Parameter-URLs, ja. Aber blockiere keine regulären Kategorieseiten oder JS/CSS-Dateien, die für das Rendering wichtig sind.

Hilft eine XML-Sitemap immer beim Crawl Budget?
Sie hilft bei der Priorisierung. Sie erhöht nicht automatisch das Budget (die Kapazität), aber sie sagt dem Bot: „Wenn du schon da bist, fang bitte hiermit an.“ Eine saubere Sitemap ist daher essenziell für die Effizienz.

Spielt die Ladezeit (Page Speed) eine Rolle?
Absolut. „Time is money“ gilt auch für Bots. Wenn Google deine Seite in 200ms laden kann statt in 2000ms, kann der Bot in der gleichen Zeit zehnmal so viele Seiten crawlen. Ein schneller Server ist der einfachste Weg, das Crawl Budget faktisch zu erhöhen.

Fazit: Qualität vor Quantität

Crawl Budget Optimierung klingt technisch und kompliziert, ist aber im Kern logisch: Mach es dem Bot einfach.

Stell dir den Googlebot wie einen Besucher vor, der wenig Zeit hat. Würdest du ihn durch ein Labyrinth aus kaputten Türen (404), Umleitungen (301) und sinnlosen Kopien (Parameter) schicken? Sicher nicht. Du würdest ihm den roten Teppich zu deinen besten Inhalten ausrollen.

Genau das tun wir mit technischem SEO. Wir räumen die Hindernisse weg. Das Ergebnis ist nicht nur eine bessere Crawl-Statistik, sondern fast immer auch ein besseres Ranking – weil Google deine Seite endlich richtig versteht und wertschätzt.

Hast du den Verdacht, dass Google deine Seite nur mit angezogener Handbremse crawlt? Finden wir es heraus.