crawler-budget5-680x240

In der aktuellen Ausgabe der Websiteboosting (Nr. 32/Ausgabe 07-08.2015) ist mal wieder ein Artikel von uns zu finden. Maik und Erich haben sich darin mit dem Thema „Ressourcen optimieren: das Budget-Problem bei Suchmaschinen“ befasst.

Suchmaschinen müssen effizient mit ihren Ressourcen umgehen und können daher nicht immer alle vorhandenen Seiten einer Domain crawlen. Im Artikel geben Maik und Erich daher detaillierte Hinweise und Hilfestellungen zum Indexierungsmanagement und beantworten die Frage, wie man es insbesondere bei größeren Webseiten schafft, dass nur die wichtigsten Seiten gecrawlt werden und kein Crawling-Budget auf unwichtigen URLs verlorengeht..

Crawler sind bei ihrer Suche nach neuen Informationen auf bekannten URLs bzw. Webadressen und Verlinkungen zu neuen, ihnen unbekannten Webseiten darauf angewiesen, dass diese möglichst einfach auffindbar sind. Aus Gründen der Wirtschaftlichkeit teilen sie einer Domain je nach ihrer eingeschätzten Bedeutung ein bestimmtes Budget an zu crawlenden Seiten zu. Die Unterseiten finden sie in der Regel über die interne Verlinkung und über Sitemaps, falls diese eingereicht wurden.

Gerade auf umfangreicheren Sites kann es aufgrund ungünstiger Verlinkungen passieren, dass die Crawler immer wieder im Kreis herumgeschickt oder auf Linkpfade geleitet werden, die immer tiefer in die Websitestruktur hineinführen. Die Folge: Das Crawling-Budget wird falsch bzw. nicht richtig ausgenutzt. Aus Sicht des Seitenbetreibers sollte der Crawler jedoch möglichst schnell neue Inhalte und Topthemen erfassen, wenig signifikanten Inhalten nur wenig Ressourcen zuteilen und auch nur die passenden URLs in den Suchindex der Suchmaschine aufnehmen.

Doch wie entstehen solche Crawler-Fallen? Die Problematik ist im Grunde erst mit komplexen Content-Management- und Shop-Systemen aufgetaucht. Bei diesen kann es passieren, dass eine fast willkürlich verlinkte, sich zudem noch dynamisch ständig ändernde Linklandschaft entsteht. Der Crawler bewertet nämlich jede kleinste Variation einer URL als eigenständige URL, also als eigene Seite – auch wenn der Inhalt unverändert ist.
Wenn also z. B. innerhalb einer Produktkategorie eines Onlineshops nur zwei Produkte zu sehen sind, so kann ein Nutzer mit einem Blick das günstigere Produkt erfassen. Der Crawler findet aber für jeweils aufsteigend und absteigend nach Preis sortierte Ergebnisse zwei Seiten, die einzeln besucht werden müssen. Es werden also Ressourcen für eine Seite aufgewendet, deren Inhalt mit einer anderen identisch ist – sie unterscheiden sich nur in der Reihenfolge der Sortierung. Wäre dies auf einer Domain nur ein Einzelfall, wäre das kein Problem. Stellt man sich aber vor, dass bei jeder Shop-Seite mit Sortiermöglichkeit eine Kopie erzeugt wird, summiert sich dies schnell zu einer großen Anzahl an Seiten.

Der richtige Umgang mit Produktfiltern

Ein weiteres Problem vieler Onlineshops ist die Anzahl an Links, die benötigt wird, wenn die Produktauswahl eingegrenzt werden soll. Beispielhaft wird von einer einfachen Auswahl bestehend aus „Farbe“, „Länge“ und „Umfang“ ausgegangen. Eine gängige Umsetzung ist dabei das Setzen von GET-Parametern mit der Auswahl der jeweils gewählten Produkteigenschaften. Bereits bei dieser beispielhaften Auswahl aus drei Filtern mit je drei Optionen ergeben sich 36 mögliche URL-Kombinationen.

Beispiel vorhandene Filterauswahl:

>> Farben: blau, grün, rot
>> Länge: 32, 33, 34
>> Umfang: 32, 33, 34

Durch die Kombination dieser Filtermöglichkeiten ergibt sich eine Reihe von URLs:

Abb1

Exemplarische URLs, die typischerweise beim Filtern von Produkten entstehen

Grundsätzlich gibt es zwei Techniken, mit denen man dieses Problem umgehen kann. Die erste besteht im Ersetzen der URLs durch solche, die von den Crawlern nicht erkannt werden können. Die zweite Technik verwendet HTML-Formulare, um die Filtereinstellungen zu setzen. Wichtig ist hierbei stets, dass im Quellcode keine für Crawler verwertbaren Links zu den Filtereinstellungen zu finden sind.

Abb2

Exemplarisches Setzen der Filter über JavaScript-Events

Diese Vorgehensweise macht vor allem dann Sinn, wenn man viele Filtermöglichkeiten hat. Außerdem sollte man überlegen, erst ab einer gewissen Filtertiefe auf diese Methode zurückzugreifen, da Filterungen auf erster und oft auch auf zweiter Ebene relevant sein können für das Auffinden im Google-Index. Diese sollten daher auch mit dem Meta-Tag „robots“ und der Direktive „index, follow“ ausgezeichnet werden.

Der richtige Umgang mit Paginierung

Ein weiteres Problem bei Onlineshops sind die Paginierungsseiten bei langen Produktlisten. Sie lassen sich nicht vermeiden, möchte man doch dem Nutzer die Möglichkeit lassen, durch die Produkte zu stöbern. Ist die Anzahl an Produkten jedoch groß, werden schnell Hunderte einzelne Seiten zur Darstellung benötigt.

Beispiel einer Paginierung:

Abb3

Typische Interne Verlinkung einer Paginierung

Daraus ergeben sich z.B. solche URLs für die einzelnen Seiten:

Abb4

Exemplarische URLs von Paginationsseiten

Die daraus resultierenden einzelnen URLs führen dazu, dass die Crawler sehr viel Zeit damit verbringen, den erzeugten Seiten zu folgen – allein in diesem Beispiel wären es 208. Aus einer solchen Anzahl an ähnlichen Seiten ergeben sich in der Regel keine wirklichen SEO-Vorteile, aber durchaus einige Nachteile. Die Seiten sind unvorteilhaft verlinkt und erzeugen eine Linkkette. Sie stellen nur sicher, dass alle Produkte gecrawlt werden können.

Diesem Umstand kann man auf unterschiedliche Weisen begegnen. Ein Ansatz besteht aus einer Kappung der Paginierung auf z .B. 50 Seiten. Dies hat zur Folge, dass mehrere Produkte auf einer Paginationsseite platziert werden müssen. Durch die Kappung findet der Crawler ein definiertes Ende für die Paginierung und kann gesparte Ressourcen für eine weitere Produktkategorie verwenden.

Generell ist eine Crawl-Optimierung auch durch entsprechende Ausschlüsse über die robots.txt sowie die Google Webmaster Tools empfehlenswert. Die oben beschriebenen Ansätze dienen jedoch dazu, insbesondere bei größeren Seiten die Anzahl entstehender URLs zu minimieren. Sie haben zudem den Vorteil, dass alle Nutzer weiterhin auf der Seite navigieren können und redundante URLs vom Crawling ausgeschlossen werden.

Der vollständige Text ist zu finden in der Websiteboosting (Nr. 32/Ausgabe 07-08.2015).

© Image via Flickr – Elco van Staveren „linked dataBestimmte Rechte vorbehalten. Quelle: Flickr.com


«

»

Dieser Artikel wurde 1621 Mal gelesen.

Kommentare (1)

  1. Pingback: Top 10 der Woche 25/15 - SEO-united.de Blog

Hinterlasse Deinen Kommentar

Performics ist bekannt aus:
Werde Performics Fan auf Facebook & Twitter