Robot

Ein Robot (auch Webrobot, Webspider oder Webcrawler genannt) ist eine Software, die in der Regel von Suchmaschinen wie Google oder Bing dazu eingesetzt wird, das World Wide Web zu durchsuchen und Webseiten zu analysieren. Ein Robot kann aber auch zu unlauteren Zwecken eingesetzt werden, beispielsweise um Content von Webseiten zu stehlen oder E-Mail-Adressen für Spam-Mailings einzusammeln.

Funktionsweise eines Robots

Ein Robot hangelt sich im World Wide Web mittels Hyperlinks von einer Seite zur nächsten. Die auf dieser Reise gefundenen Internetadressen werden gespeichert und der Reihe nach besucht. Schließlich werden alle gefundenen Seiten in einem riesigen Index abgelegt. Theoretisch kann ein Robot auf diese Weise Kenntnis von allen Seiten im Internet bekommen, die von einer anderen bekannten Seite verlinkt sind und für den Crawler nicht gesperrt sind (z. B. mittels einer Anweisung in einer robots.txt-Datei). Unsichtbar für einen Robot bleiben allerdings Inhalte, die sich hinter zugangsbeschränkten Portalen verstecken, da ein Robots keine Eingaben tätigen kann. Diesen Bereich, der in öffentlichen Suchmaschinen nicht abgebildet wird, nennt man auch das „Deep Web“.

Tatsächlich aber sind die Ressourcen von Suchmaschinen begrenzt und es werden auch nicht die Inhalte aller Seiten in den Suchmaschinenindex aufgenommen. So werden z. B. doppelte Inhalte aussortiert ebenso wie illegale oder anderweitig rechtswidrige Inhalte. Die gespeicherten Seiten werden in mehr oder weniger regelmäßigen Abständen vom Robot wieder besucht, um Änderungen zum letzten Besuch festzustellen.

Ein Webmaster kann in der sogenannten robots.txt-Datei oder in gewissen Meta-Tags im HTML-Header festlegen, welche Seiten ein Robot in den Index aufnehmen darf und welche nicht. Allerdings halten sich nicht alle Crawler an den Robots Exclusion Standard.

abgelegt unter: