Crawling vs. Indexierung

Es ist der Albtraum eines jeden Website-Betreibers: Sie haben Zeit, Energie und Geld in eine neue Seite investiert – doch bei Google ist sie unauffindbar. Wenn Kunden nach Ihrem neuen Produkt oder Ihrem Ratgeber suchen, herrscht Stille.

Die erste Reaktion ist oft Panik oder der Versuch, „mehr SEO“ zu machen. Doch bevor Sie an Keywords oder Textlängen schrauben, müssen Sie ein fundamentales technisches Konzept verstehen. Denn wenn Google Ihre Seite nicht „sieht“ oder nicht „speichert“, hilft die beste Optimierung nichts.

Das Problem liegt fast immer im Zusammenspiel von Crawling und Indexierung. Diese Begriffe werden oft synonym verwendet, beschreiben aber zwei völlig unterschiedliche Prozesse. Wer den Unterschied kennt, stochert bei Problemen nicht mehr im Nebel, sondern findet die technische Bremse in wenigen Minuten.

Dieser Artikel ist Teil unserer Serie zu den SEO-Grundlagen.

Definition: Crawling vs. Indexierung

Um zu verstehen, warum eine Seite nicht in den Suchergebnissen auftaucht, müssen wir den Weg einer URL von der Erstellung bis zur Suchergebnisseite (SERP) betrachten. Google arbeitet hier wie ein Bibliothekar, der neue Bücher sortiert.

Was ist Crawling? (Der Besuch)

Crawling ist der Prozess des Entdeckens und Auslesens. Stellen Sie sich vor, Google sendet einen Bot (den „Crawler“ oder „Spider“) los, um das Web zu durchstreifen. Dieser Bot folgt Links – von einer bekannten Seite zur nächsten.

Wenn der Crawler auf Ihrer Seite landet, „liest“ er den Code. Er schaut sich an, welche Texte, Bilder und Links vorhanden sind. Crawling bedeutet also: „Google weiß, dass diese URL existiert, und hat sie besucht.“

Der Bibliothekar-Vergleich: Der Bibliothekar geht durch die Gänge, sieht ein neues Buch im Regal stehen, nimmt es kurz in die Hand und blättert durch die Seiten.

Was ist Indexierung? (Die Aufnahme)

Indexierung ist der Prozess des Verarbeitens und Speicherns. Nachdem der Crawler die Daten gesammelt hat, werden diese an den Google-Index gesendet. Hier analysiert Google den Inhalt: Worum geht es? Welche Qualität hat der Text? Ist er ein Duplikat?

Erst wenn Google entscheidet, dass die Seite wertvoll und einzigartig genug ist, wird sie in den Index aufgenommen. Nur Seiten, die im Index sind, können in den Suchergebnissen erscheinen.

Der Bibliothekar-Vergleich: Der Bibliothekar entscheidet, dass das Buch gut und relevant ist. Er schreibt eine Karteikarte, sortiert es in den offiziellen Katalog ein und macht es für Besucher ausleihbar.

Wichtig: Crawling ist die Voraussetzung für Indexierung, aber keine Garantie. Google kann Ihre Seite crawlen (besuchen), sich aber entscheiden, sie nicht zu indexieren (nicht aufzunehmen).

Was beeinflusst Crawling (Discovery & Zugriff)?

Wenn Ihre Seite gar nicht erst gecrawlt wird, hat Google keine Chance, sie zu bewerten. Crawling-Probleme sind meist „Türsteher-Probleme“: Der Bot kommt nicht rein oder findet den Weg nicht.

1. Interne Verlinkung & Discovery

Der Googlebot ist hungrig nach Links. Er hangelt sich von Link zu Link. Eine neue Unterseite, auf die kein einziger interner Link zeigt (eine sogenannte „Waisen-Seite“ oder „Orphan Page“), ist für den Crawler praktisch unsichtbar – es sei denn, sie steht in der Sitemap.

Lösung: Stellen Sie sicher, dass jede wichtige Seite von anderen relevanten Seiten Ihrer Domain verlinkt wird.

2. Die XML-Sitemap

Die Sitemap ist wie ein Inhaltsverzeichnis für den Crawler. Sie reichen diese Liste in der Google Search Console ein, um Google aktiv zu sagen: „Hier sind meine Seiten, bitte besuche sie.“

Achtung: Eine Sitemap garantiert kein Crawling, sie ist nur ein starker Hinweis.

3. Die robots.txt (Der Türsteher)

Die Datei robots.txt ist die erste Anlaufstelle für den Crawler. Hier können Sie Regeln definieren, welche Bereiche Ihrer Website der Bot nicht betreten darf (Disallow).

Häufiger Fehler: Ein versehentliches Disallow: / sperrt den Crawler für die gesamte Website aus. Das passiert oft nach einem Relaunch, wenn der Schutz der Testumgebung versehentlich auf die Live-Seite übernommen wird.

4. Server-Fehler (Statuscodes)

Wenn der Crawler Ihre Seite besucht, aber der Server nicht antwortet (Timeout) oder einen Fehler meldet (Statuscode 5xx), bricht der Bot ab. Wenn das häufig passiert, kommt der Crawler seltener vorbei, weil er Ihre Serverressourcen schonen will. Dies nennt man eine Reduzierung des „Crawl Budgets“.

Was beeinflusst Indexierung (Indexierbarkeit & Auswahl)?

Ihre Seite wurde gecrawlt? Wunderbar. Aber warum ist sie nicht bei Google zu finden? Jetzt geht es um die Indexierbarkeit und die qualitative Bewertung.

1. Das „noindex“-Tag

Dies ist der häufigste Grund für fehlende Indexierung. Mit dem Meta-Tag <meta name="robots" content="noindex"> im Quellcode sagen Sie Google explizit: „Bitte nimm diese Seite NICHT in den Index auf.“

Das ist sinnvoll für Impressum, Datenschutz oder interne Suchergebnisseiten. Aber bei wichtigen Landingpages ist es ein K.O.-Kriterium.

2. Canonical Tags & Duplicate Content

Google hasst es, Speicherplatz für identische Inhalte zu verschwenden. Wenn Sie den gleichen Text auf drei verschiedenen URLs haben (z. B. durch Druckversionen oder URL-Parameter), wählt Google meist nur eine Version für den Index aus.

Mit dem Canonical Tag steuern Sie diesen Prozess. Sie zeigen auf die „Original-Version“. Wenn Sie aber auf Seite A ein Canonical Tag setzen, das auf Seite B zeigt, wird Seite A nicht indexiert. Das ist technisch korrekt, führt aber oft zu Verwirrung, wenn es versehentlich passiert.

Mehr dazu finden Sie in unserem Artikel über Duplicate Content.

3. Soft 404 Fehler

Ein „Soft 404“ ist eine Seite, die dem Nutzer sagt „Inhalt nicht gefunden“, aber dem Googlebot technisch meldet „Alles okay (Status 200)“. Oder es ist eine Seite mit so wenig Inhalt (z. B. eine leere Kategorieseite), dass Google sie als fehlerhaft einstuft und nicht indexiert.

4. Qualitätsmängel (Thin Content)

Manchmal ist technisch alles sauber: Die Seite ist erreichbar, darf indexiert werden, steht in der Sitemap. Trotzdem sagt die Google Search Console: „Gecrawlt – zurzeit nicht indexiert“.

Das ist oft ein Qualitätssignal. Google hat die Seite besucht, analysiert und entschieden: „Das bietet keinen Mehrwert.“ Vielleicht ist der Text zu kurz („Thin Content“), kopiert oder für Nutzer irrelevant. Hier hilft keine Technik, hier müssen Sie den Inhalt verbessern. Die Relevanz von Rankingfaktoren wie Einzigartigkeit und Tiefe greift hier schon vor dem eigentlichen Ranking.

Mini-Diagnose: 10-Minuten-Checkliste

Sie haben eine URL, die nicht rankt? Gehen Sie diese Liste durch, um das Problem einzugrenzen.

URL-Prüfung in der Search Console (GSC):
Geben Sie die URL oben in die Suchleiste der GSC ein.
- Steht dort „URL ist auf Google“? → Die Seite ist im Index. Das Problem ist das Ranking (zu weit hinten), nicht die Indexierung.
- Steht dort „URL ist nicht auf Google“? → Prüfen Sie den Grund im Bericht darunter.
Live-Test der URL (GSC):
Klicken Sie auf „Live-URL testen“. Das zeigt, ob Google die Seite jetzt gerade erreichen kann.
- Fehler beim Abruf? → Prüfen Sie robots.txt und Server-Status.
Quellcode-Check auf „noindex“:
Öffnen Sie die Seite im Browser, machen Sie einen Rechtsklick → „Seitenquelltext anzeigen“. Suchen Sie (Strg+F) nach „noindex“.
- Gefunden? → Entfernen Sie das Tag, wenn die Seite indexiert werden soll.
Canonical-Check:
Suchen Sie im Quelltext nach „canonical“.
- Zeigt der Link auf die URL selbst? → Gut (selbstreferenzierend).
- Zeigt er auf eine andere URL? → Dann wird diese URL wahrscheinlich nicht indexiert. Ist das Absicht?
Interne Suche:
Kopieren Sie einen einzigartigen Satz von Ihrer Seite und suchen Sie ihn bei Google in Anführungszeichen.
- Wird eine andere Seite Ihrer Website angezeigt? → Google betrachtet Ihre neue Seite vielleicht als Duplikat.

5 häufige Szenarien und ihre Lösung

Um das Ganze noch greifbarer zu machen, hier fünf Klassiker aus der Praxis:

Szenario 1: „Gefunden – zurzeit nicht indexiert“

Diagnose: Google kennt die URL (z. B. aus der Sitemap), war aber noch nicht dort, um sie zu crawlen.
Ursache: Oft Überlastung des Crawl Budgets bei riesigen Seiten oder einfach Zeitmangel bei neuen Seiten.
Lösung: Interne Verlinkung stärken! Geben Sie der Seite mehr Gewicht durch Links von starken Seiten (z. B. Startseite).

Szenario 2: „Gecrawlt – zurzeit nicht indexiert“

Diagnose: Google war da, hat den Inhalt gesehen, aber nicht gespeichert.
Ursache: Meist Qualitätsprobleme (Thin Content), Duplikate oder technische Widersprüche.
Lösung: Inhalt deutlich aufwerten, einzigartiger machen und prüfen, ob die Seite fast identisch zu einer anderen ist.

Szenario 3: Blockiert durch robots.txt

Diagnose: GSC meldet „Indexierung durch robots.txt blockiert“.
Ursache: Ein Disallow-Eintrag verbietet dem Bot den Zutritt.
Lösung: Prüfen Sie die Datei domain.de/robots.txt und entfernen Sie die blockierende Zeile. Achtung: Eine Seite kann trotz robots-Sperre indexiert werden (ohne Inhalt, nur der Link), wenn viele externe Links darauf zeigen.

Szenario 4: Falsches Canonical auf Kategorieseiten

Diagnose: Seite 2 einer Kategorie wird nicht indexiert.
Ursache: Oft zeigt das Canonical Tag von Seite 2 fälschlicherweise auf Seite 1. Das sagt Google: „Seite 2 ist nur eine Kopie von Seite 1“.
Lösung: Paginierte Seiten sollten ein selbstreferenzierendes Canonical Tag haben (Seite 2 zeigt auf Seite 2).

Szenario 5: Die vergessene Testumgebung

Diagnose: Plötzlich sind Tausende URLs im Index, die dort nicht hingehören (z. B. dev.domain.de).
Ursache: Die Entwicklungsumgebung wurde nicht per Passwortschutz oder noindex gesperrt.
Lösung: Sofort Passwortschutz aktivieren und die Subdomain in der Search Console per „Removals Tool“ aus dem Index entfernen.

Fazit: Erst die Technik, dann der Inhalt

Der Unterschied zwischen Crawling und Indexierung ist nicht nur akademisch. Er entscheidet darüber, ob Sie ein Problem der Erreichbarkeit (Crawling) oder der Qualität/Technik (Indexierung) lösen müssen.

Wir erleben oft, dass Kunden versuchen, Rankings durch neue Texte zu erzwingen, während die Seite technisch auf „noindex“ steht oder in einer Sackgasse der Website-Struktur verhungert. Sparen Sie sich diesen Frust. Machen Sie die technische Hausaufgabe zuerst. Denn nur eine Seite, die Google besuchen und verstehen kann, wird Ihnen Kunden bringen.

Häufig gestellte Fragen (FAQ)

Reicht eine XML-Sitemap aus, damit Google meine Seiten findet?
Nein, eine Sitemap ist nur eine Empfehlung. Google nutzt sie, um URLs zu entdecken, garantiert aber weder Crawling noch Indexierung. Eine solide interne Verlinkung ist oft wichtiger als die Sitemap.

Was bedeutet „Gefunden – zurzeit nicht indexiert“ in der GSC?
Google kennt die URL, hat sie aber noch nicht gecrawlt. Das passiert oft, wenn Google entscheidet, dass das Crawling die Serverlast zu sehr erhöhen würde oder wenn die Seite als nicht wichtig genug priorisiert wurde. Geduld und bessere interne Links helfen hier.

Was ist ein Soft 404 Fehler?
Das ist eine Seite, die für den Nutzer aussieht wie eine Fehlerseite („Nicht gefunden“), aber dem Bot technisch den Statuscode 200 (OK) sendet. Das verwirrt Google. Solche Seiten sollten immer einen echten 404-Statuscode senden, damit sie aus dem Index fliegen.

Kann Google eine Seite trotz robots.txt-Sperre indexieren?
Ja, das ist möglich. Wenn der Bot eine Seite nicht crawlen