Home
Navigation
Impressum
Coder Welten - Programmierung und Optimierung
Coder Welten
 
 

 

 

Von Bots, Crawlern und Scrapern

Einfache Bots und Crawler mit PHP programmieren

Ob Bot, Spider, Crawler oder Scraper, in allen Fällen steht hinter diesen Namen ein mehr oder weniger automatisch arbeitendes Computerprogramm, welches wie ein Robot arbeitet und auch so bezeichnet wird. Unterschiede gibt es, nur ergeben sich diese mehr aus der Aufgabenstellung als aus den technischen Möglichkeiten. So sollen die Crawler der Suchmaschinen das Web nach neuen Webseiten durchsuchen und bereits bekannte Webseiten regelmäßig besuchen, um den Inhalt von neuen oder geänderten Seiten dabei für eine nachfolgende Auswertung zu speichern.

Der Programmablauf ist eigentlich recht simpel. Bei einer Webseite beginnend, werden alle im Quelltext dieser Seite gefundenen externen und internen Verweise (Links) zu anderen Webseiten erfasst und die URLs der referenzierten Quellen gespeichert, um diese gespeicherten URLs beim nächsten Durchlauf gegebenenfalls mit aufzurufen und die Daten der Ressourcen zu speichern und auszuwerten. Bei den Daten kann es sich um Hypertext bzw. um den Quelltext von Hypertext-Dokumenten handeln, doch es kann sich auch um Daten von anderen Ressourcen handeln. So zum Beispiel um PDF-Dokumente oder um Binärdaten von Images.

Anders sieht es mit Scrapern aus. Scraper werden darauf programmiert, nur nach bestimmten Inhalten auf bestimmten Seiten zu suchen, um diese Daten gezielt auszulesen. Nicht immer ist die Vorgehensweise dabei unbedenklich, zumindest rechtlich gesehen. Doch auch wenn keine Urheberrechte oder andere Rechte verletzt werden, so sollte auf den Einsatz von Scrapern verzichtet werden, wenn die Anbieter von Webangeboten einem Scraping nicht zustimmen.

Aus dem zuletzt genannten und weiteren Grund, möchten wir ausdrücklich betonen, alle auf unseren Seiten veröffentlichten Beispiele und Code-Listings sind nur als Demo gedacht und sollten nur für Testzwecke eingesetzt werden.


Übersicht

Beispiele zur Veranschaulichung

Einfache Beispiele als Klassen, die einen Aufruf von HTML-Seiten wie durch einen Bot ermöglichen:


Bots und Scraper für spezielle Fälle:

  • Simpler Bot (zum Auslesen entfernter HTML-Seiten mit Formularen)

Und mehr ...

 

Copyright © Verlag Horst Müller - Stendal - 2006 - Impressum - Datenschutz - Nutzungsbedingungen