Informationssuche im Internet: In welchem Ausmaß entsprechen existierende Suchwerkzeuge für das World Wide Web Anforderungen für die wissenschaftliche Suche

3.2.2 Harvesting

Der Prozeß des Einsammelns der Daten mittels eines Roboters wird allgemein Harvesting oder Gathering genannt, die dazu eingesetzte Software harvesting robot, gatherer, wanderer, spider u.ä. M. Koster definiert einen harvesting robot als

"program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced".[25]

Dieses Funktionsprinzip, den Hyperlinks in den Dokumenten zu folgen, wird bei allen roboterbasierten Suchdiensten angewandt. Zusätzlich ist bei den Diensten i.d.R. auch eine Anmeldung der Seiten durch die Benutzer oder Anbieter möglich. Unterschiede zwischen den Diensten bestehen in der Strategie der Roboter, im Umfang der gesammelten Seiten, im Deckungsbereich und der Häufigkeit der Aktualisierung. Historisch bedingt können zwei Strategien beim Verfolgen von Links unterschieden werden: Vorzug der Breite (breadth first) oder der Tiefe (depth first).[26] Bei der ersten Strategie werden innerhalb eines Servers nur wenige Hierarchieebenen von Links verfolgt, dafür aber möglichst viele Server berücksichtigt. Bei der depth first Methode werden zunächst möglichst viele Dateien innerhalb der Hierarchie eines Servers indexiert.

Der Umfang der gesammelten Seiten reicht von wenigen Tausend, z.B. bei regional begrenzten Diensten, bis zu mehr als 50 Millionen bei den großen, globalen Diensten. Genaue Zahlen zum Umfang der indexierten Dokumente finden sich immer seltener in den Dokumentationen der Dienste selbst. Werden von diesen Zahlen genannt, geht oft nicht eindeutig hervor, ob die Anzahl der indexierten Seiten, alle Bilder innerhalb von HTML-Seiten als eigene Dokumente oder gar die Zahl der bekannten URLs gemeint sind. Da es nicht möglich ist, die genaue Größe der Dienste zu errechnen, können die Angaben zur Größe der Dienste nicht kontrolliert werden. Ungefähre Größenangaben sind einerseits von unabhängigen Suchdiensteanalysen[27] erhältlich und andererseits von Vergleichen, die manche Dienste als Eigenwerbung veröffentlichen (HotBot[28] und zeitweise Infoseek[29]). Zu den größten Diensten mit bis zu 50 Millionen indexierten Dokumenten zählen dabei Excite (55 Mio.), Alta Vista (100 Mio.), Infoseek (Angaben schwanken zwischen 30 und 50 Mio.), HotBot (53,6 Mio Dokumente).[30] Eine vollständige Indexierung des gesamten WWW ist praktisch nicht möglich, auch wenn große Suchdienste dies angeben.[31] Bestimmte Dokumente, wie solche, auf die von keiner anderen Seite verwiesen wird, sowie dynamische, paßwortgeschützte oder explizit von der Indexierung ausgeschlossene Dokumente[32], können von den Suchdiensten nicht erreicht werden.

Weitere Unterschiede gibt es im Deckungsbereich der Dienste hinsichtlich der berücksichtigten Protokolle, Dokumenttypen und Formate. Teilweise werden nur HTML-Dokumente indexiert. Auch bei diesen gibt es Probleme, da viele Suchroboter Verweise in Bildern (clickable images) und in Seiten mit Frames nicht erkennen und weiterverfolgen können. Ein Teil der Dienste indexiert zusätzlich zu HTML-Seiten auch FTP-Dateien, Usenet News und Informationen in Gophern. Von den FTP-Dateien werden dabei nur die Verzeichnisse mit den Dateinamen und Textdateien indexiert. Einige Dienste erfassen zusätzlich zu Textdateien auch Bilder, Töne, Java Appletts u.a.

Auch im geographischen Deckungsbereich gibt es Verschiedenheiten. Neben den großen, globalen gibt es mehr und mehr Dienste mit geographischer Beschränkung. Hier können einerseits Dienste, die sich auf ein bestimmtes Land oder eine Sprache beschränken und andererseits die lokalen Varianten der globalen Dienste unterschieden werden. Diese bieten in zunehmendem Maße an, Dokumente aus einzelnen Ländern oder geographischen Regionen herauszufiltern. Das System beruht auf dem Filtern nach Domains in den URLs der Dokumente. Eine fachliche Selektierung ist bei roboterbasierten Diensten schwer möglich, doch auch hier gibt es einzelne Versuche, die in Kap. 5.1.2 näher beschrieben werden.

Ein Problem der Suchdienste ist die Aktualität der Einträge. Dokumente im Internet werden oft verändert, entfernt, neu plaziert oder es werden neue Dokumente abgelegt. Aufgrund dieser ständigen Veränderungen ist es einerseits notwendig, permanent neue Dokumente zu suchen und in die Datenbank aufzunehmen und andererseits, die bereits erfaßten regelmäßig auf Veränderungen zu überprüfen und, wenn nötig, zu reindexieren. Ebenso müssen Einträge aus der Datenbank entfernt werden, wenn die Dokumente nicht mehr im Internet verfügbar sind. Nach Sullivan wird die Datenbank bei den großen Diensten zwischen täglich und zweiwöchentlich überprüft.[33] Die Zeit zwischen Anmeldung einer Ressource beim Dienst und der Indexierung beträgt zwischen 2-4 Wochen (so Angaben darüber bestehen).[34] Relevant für die Aktualität eines Dienstes ist jedoch auch, wie oft schon im Index enthaltene Seiten überprüft und ggf. neu indexiert werden. Dies dürfte bei den großen Diensten aufgrund der Menge der verzeichneten Dokumente wesentlich seltener geschehen. Becavac erwähnt zwei Varianten der Aktualisierung: zeitabhängig bzw. abhängig von der Zugriffshäufigkeit eines Dokumentes.[35] Weiterhin besteht die Möglichkeit, die Aktualisierungsrate an die Änderungshäufigkeit der Seite, die per HTTP-Request ermittelt werden kann, anzupassen.

[25] Koster 1997, Abschn.: What is a WWW robot?

[26] s. Poulter 1997, S. 135
Diese unterschiedlichen Vorgehensweisen sind historisch bedingt, da die Leistungsfähigkeit der frühen Dienste begrenzt war. Die Dienste beschränkten sich entweder auf die tiefe Indexierung weniger Server (Harvest) oder auf eine möglichst breite, jedoch nicht sehr tiefe Indexierung (globale Suchdienste). Heute erreichen oft die größten Dienste auch die tiefste Indexierung.

[27] z.B. Sullivan 1997a

[28] Hotwired 1997

[29] Die im Sommer 1997 eingesehene Seite wurde inzwischen wieder entfernt.

[30] Die Zahlen stammen aus von den beiden o.g. Quellen bzw. aus den Dokumentationen der Dienste.

[31] vgl. Kap. 5.2.1

[32] Die Indexierung durch Roboter kann durch Aufnahme in die Datei "robot.txt" oder durch den Hinweis "Noindex" im HEAD des HTML-Dokumentes verhindert werden. (Vgl. dazu Koster 1997, Kap. 4: Robots exclusion standard.) Die Konvention der "robot.txt"-Datei wird von den meisten Internet-Suchdiensten respektiert, der "Noindex"-Vermerk von einigen.

[33] vgl. Sullivan 1997a

[34] Diese Angaben beziehen sich vermutlich darauf, wie oft neue Daten in den Index übernommen werden.

[35] vgl. Becavac 1997, Kap. 2.3.1.3