previous next Up Title Contents

3.2.3 Indexierung

Roboterbasierte Suchdienste im Internet indexieren i.d.R. den Volltext eines Dokumentes oder Teile davon. In Lycos wird z.B. nicht der gesamte Text, sondern Titel, Überschriften sowie die ersten 20% des Textes indexiert. Auch häufig vorkommende Worte, sog. Stopworte, werden oftmals ausgelassen. Bei der, von den meisten großen Suchdiensten inzwischen angewandten, Volltextindexierung werden die tatsächlich im Text vorkommenden Worte indexiert. Sie steht damit im Unterschied zu intellektueller Indexierung, bei der Konzepte und die inhaltliche Bedeutung eines Dokumentes erfaßt werden. Volltextindexierung kann zu Problemen beim Information Retrieval führen, da in der natürlichen Sprache zahlreiche Synonyme vorkommen und Konzepte in unterschiedlichen Worten beschrieben sein können.[36]

Ein Teil der Dienste indexiert auch die Inhalte einzelner HTML-Elemente einschließlich der Feldattribute, wie Titel, Überschriften, URL, Texte oder die URL der Links, Dateinamen von Bildern, Java-Appletts, Kommentare oder bestimmte Metadaten. Dabei bleiben die Feldinformationen erhalten. Sind diese Elemente speziell indexiert, können sie zur gezielten Suche herangezogen werden. Weiterhin können Informationen mit indexiert werden, die nicht im Dokument selbst stehen, aber automatisiert abfragbar sind. Dazu zählen Angaben über die Größe des Dokuments oder das Datum der letzten Änderung.

Besonderes Gewicht hat die Indexierung von im Header der HTML-Dokumente vorkommenden Metadaten. Diese stellen für die Autoren eine Möglichkeit dar, zusätzliche Informationen zu ihren Dokumenten zu liefern und diese inhaltlich zu beschreiben.


[36] s. auch Convey 1989, S. 41


previous next Up Title Contents