Webcrawler oder Spider

Wie der Name schon erahnen läßt, handelt es sich hierbei um Bots, die darauf ausgerichtet sind Dateien nach bestimmten Inhalt zu durchsuchen. Welchen Inhalt sie dabei selbst beachten und was aus dem Ergebnis geschieht ist von Bot zu Bot verschieden. Ihr Aufgabengebiet reicht vom Erfassen aller Links, Grafiken, Emailadressen, den Textinhalt etc. etc..
Neben den recht stark bekannten Webcrawlern der Suchmaschinen, haben sich auch Webcrawler in dem Bereich der Webseitenoptimierung gut etabliert. Selbst ich benutze einen Crawler für meine Seite.

Der GSiteCrawler ist ein, bis zum jetzigen Zeitpunkt (22.01.2009), kostenloser Webcrawler zum Erstellen von Sitemaps für Google, Yahoo und MSN/Live.com. Ob auch andere Webcrawler auf solch erstellte Sitemaps zugreifen ist mir zur Zeit nicht bekannt. Meines Erachten nach sowohl gewerblich wie auch privat gut zu gebrauchen, wenn man sich kinderleicht Sitemaps erstellen möchte. Zur Zeit leider nur für Windows.

Dieser Webcrawler macht vom Prinzip nichts anderes als andere Webcrawler auch. Er durchsucht eine Webseite, die ihm vorgegeben wird nach Links, folgt diesen und sucht weitere Links bis er auf dieser Webpräsens nicht mehr weiter kommt. Dabei merkt er sich das letzte Änderungsdatum der Seiten und die vorhandenen Links, die auf die Seiten dieser Webpräsenz verweisen. Im Ergebnis fürgt er sie alle in eine passende Googlesitemap zusammen. Zur Zeit kann man Googlesitemaps und Yahoo URL-Listen gleichzeitig damit erstellen, auf Wunsch ins Webverzeichnis laden und gleichzeitig bei Google als neu hochgeladen melden.Die URL-Liste kann je nach Wunsch bearbeitet werden. Zusätzlich gibt es eine Statistik. "Tote" oder fehlerhafte Links sind so auch bei großen Projekten schnell lokalisiert.

Für Linuxsysteme und Serverseitige Sitemapgeneratoren findet man ebenso auch im Netz. Inwieweit diese gut oder schlecht sind vermag ich nicht zu beurteilen. Aus diesem Grund gebe ich hier auch keinen direkten Link zu einen dieser Sitemapgeneratoren. Ich denke aber Sitemapgenerator und Linux kann schon jeder schreiben. Ob die gleiche Suche mit dem zusätzlchen Begriff "Google" vor Sitemapgenerator das Ergebnis verbessert hab ich jetzt nicht getestet.

Wie man sieht können Bots auch ihre gute Seite haben. Die Kehrseite davon ist natürlich, daß solche Bots auch für negative Einsätze genutzt werden können. Warum sich Links merken, wenn man auch Emailadressen oder Seiten mit Formularen suchen kann? Es ist halt wie immer alles eine Frage wozu ein Bot erstellt und eingesetzt wird.