Ob Bot, Spider, Crawler oder Scraper, in allen Fällen steht hinter diesen
Namen ein mehr oder weniger automatisch arbeitendes Computerprogramm, welches wie ein Robot arbeitet und
auch so bezeichnet wird. Unterschiede gibt es, nur ergeben sich diese mehr aus der Aufgabenstellung als
aus den technischen Möglichkeiten. So sollen die Crawler der Suchmaschinen das Web nach neuen Webseiten
durchsuchen und bereits bekannte Webseiten regelmäßig besuchen, um den Inhalt von neuen oder geänderten
Seiten dabei für eine nachfolgende Auswertung zu speichern.
Der Programmablauf ist eigentlich recht simpel. Bei einer Webseite beginnend, werden alle im Quelltext
dieser Seite gefundenen externen und internen Verweise (Links) zu anderen Webseiten erfasst und
die URLs der referenzierten Quellen gespeichert, um diese gespeicherten URLs beim nächsten Durchlauf
gegebenenfalls mit aufzurufen und die Daten der Ressourcen zu speichern und auszuwerten. Bei den Daten
kann es sich um Hypertext bzw. um den Quelltext von Hypertext-Dokumenten handeln, doch es kann sich auch
um Daten von anderen Ressourcen handeln. So zum Beispiel um PDF-Dokumente oder um Binärdaten von Images.
Anders sieht es mit Scrapern aus. Scraper werden darauf programmiert, nur nach bestimmten Inhalten
auf bestimmten Seiten zu suchen, um diese Daten gezielt auszulesen. Nicht immer ist die Vorgehensweise dabei
unbedenklich, zumindest rechtlich gesehen. Doch auch wenn keine Urheberrechte oder andere Rechte
verletzt werden, so sollte auf den Einsatz von Scrapern verzichtet werden, wenn die Anbieter von
Webangeboten einem Scraping nicht zustimmen.
Aus dem zuletzt genannten und weiteren Grund, möchten wir ausdrücklich betonen, alle auf unseren
Seiten veröffentlichten Beispiele und Code-Listings sind nur als Demo gedacht und sollten nur für
Testzwecke eingesetzt werden.
Übersicht
Einfache Beispiele als Klassen, die einen Aufruf von HTML-Seiten wie durch einen Bot ermöglichen:
Bots und Scraper für spezielle Fälle:
Und mehr ...
Einstieg in PHP
Übersicht