previous next Up Title Contents

5.1.2 Qualitätsauswahl bei roboterbasierten Suchdiensten

Bei roboterbasierten Diensten findet aufgrund ihrer Arbeitsweise keine intellektuelle Auswahl statt. Die meisten roboterbasierten Suchdienste streben auch keine Auswahl an, sondern haben größtmögliche Vollständigkeit zum Ziel. Dies hat den Vorteil der Objektivität, da jede manuelle Auswahl eine subjektive Entscheidung ist. Die verzeichneten Dokumente sind also von sehr unterschiedlicher Qualität, eine Beurteilung muß der Nutzer leisten. Durch eine informative Ergebnisanzeige kann diese Beurteilung für den Informationssuchenden erleichtert werden.

Eine Auswahl mit automatisierten Methoden ist jedoch in gewissem Maße möglich und wird in Ansätzen auch praktiziert. Eine Methode ist, den Harvestingroboter nur ausgewählte Server absuchen zu lassen und damit eine große Menge irrelevanter Informationen auszuklammern. Dies wird z. B. bei dem UK Academic Directory (früher ACDC) eingesetzt, der nur Server akademischer Einrichtungen in Großbritannien in die Datenbank aufnimmt. Dabei wird das Kriterium der Autorität und Reputation des Informationsanbieters angewandt.

Um dieses Kriterium weiter abzusichern, können auch ausschließlich offizielle Dokumente dieser Server indexiert werden (Dies kann realisiert werden, indem alle URLs, die eine Tilde (~) enthalten, ausgeschlossen werden.) Die Methode des Filterns bzw. der ausschließlichen Aufnahme von Dokumenten autorisierter Server wird auch von den wenigen, bisher existierenden fachlichen, roboterbasierten Suchdiensten eingesetzt. Der Europe Physics Broker beschränkt sich auf das Absuchen der Server von Physikinstituten und -forschungseinrichtungen in Europa. Auf dieser Grundlage wurden drei Datenbanken erstellt. PhysDep verzeichnet die entsprechenden Institutionen, PhysDoc die auf deren Servern aufliegenden Dokumente und PhysDis Dissertationen im Bereich Physik. Eine Anmeldung der Institutionen ist möglich. Der MathN Broker verzeichnet mathematische Preprints und Skripten und greift dazu auf die Server deutscher, mathematischer Institute zu. MathSearch ist ein Dienst, der ca. 90.000 Seiten Dokumente englischsprachiger Server der Mathematik und Statistik nachweist. Ebenso fungiert ComWeb, ein Dienst für kommunikationswissenschaftliche Ressourcen. Die Quelle bilden ca. 250 Server meist kommunikationswissenschaftlicher, akademischer Institute. Eine Aufnahme eines Servers bedingt die Selbstanmeldung. Der Dienst ist international orientiert, der größte Teil der Institute liegt allerdings momentan in den USA. Der Suchdienst für ingenieurwissenschaftliche Quellen All Engineering beginnt die Suche auf 14 ausgewählten Servern, welche Zusammenstellungen ingenieurwissenschaftlicher Quellen enthalten und folgt allen Links dieser Seiten zwei Schritte weit. Dem geht die Annahme voraus, daß von den Seiten dieser Institutionen wieder auf fachlich relvante Seiten verwiesen wird. Der Suchdienst für geschichtswissenschaftliche Quellen zu Altertum und Mittelalter ARGOS geht hinsichtlich der Qualitätsauswahl noch einen Schritt weiter. Auch hier findet eine roboterbasierte Suche in ausgewählten Servern, sog. associate sites, statt. Gesucht und indiziert werden die Seiten dieser Server sowie mit bestimmten Einschränkungen diejenigen Seiten, auf die von dort verwiesen wird (Verfolgung eines Links). Diese Links unterliegen einer redaktionellen Kontrolle. Es wurde ein Editorial Board gebildet, das aus Experten besteht, die die Associate Sites betreiben. Diese entscheiden je nach wissenschaftlicher Qualität die Aufnahme weiterer Sites, auf die dann von den Associate Sites verwiesen wird, oder auch deren Ausschluß.[72] Damit ist dieser Dienst einen Grenzfall roboterbasierter Dienste, da von den Redakteuren der Associate Sites intellektuelle Entscheidungen über Aufnahme oder Ausschluß getroffen werden, Harvesting und Indexierung jedoch roboterbasiert sind und im Gegensatz zu den manuell erstellten Diensten die Volltexte indexiert werden. Mit der gleichen Methode arbeitet HIPPIAS, ein ebenso wie ARGOS an der University of Evansville erstellter Dienst für die "limited area search of philosophy on the internet".

Mit den hier verwendeten Methoden kann die Menge nicht relevanter Dokumente entschieden verringert werden, indem z.B. Werbeangebote kommerzieller Firmen aus der Datenbank ausgeschlossen werden. Bei den auf die Server bestimmter Institute begrenzten Diensten besteht jedoch auch die Gefahr, daß wissenschaftlich relevante Ressourcen, die sich nicht auf akademischen Servern befinden, sondern z.B. von privatwirtschaftlichen Forschungsabteilungen veröffentlicht wurden, nicht erfaßt werden.

Die bisher angewandten Methoden beruhen im wesentlichen auf einem sehr groben Herausfiltern potentiell irrelevanter Ressourcen. Eine weitergehende Möglichkeit wäre, verallgemeinerbare Eigenschaften von Dokumenten zur Auswahl heranzuziehen, wie Charakteristika von persönlichen Homepages, Größe von Dokumenten oder Anzahl der Verweise von anderen Seiten auf diese Dokumente. Anhand dieser kann die roboterbasierte Entscheidung erfolgen, ob die Dokumente in die Datenbank aufgenommen werden oder nicht. Dies ist bisher in noch keinem Dienst verwirklicht, aber im DESIRE-Projekt angedacht.

Insgesamt muß festgestellt werden, daß die Möglichkeiten der Auswahl von Qualitätsressourcen bei roboterbasierten Diensten beschränkt sind.


[72] vgl. Argos 1997


previous next Up Title Contents