previous next Up Title Contents

3.2.4 Information Retrieval

Mit dem Begriff Information Retrieval werden Verfahren der Informationssuche in Datenbanken bezeichnet. Ratzek definierte den Begriff:

"Unter Information Retrieval (IR) wird ein EDV-gestütztes Verfahren verstanden, das aufgrund von Algorithmen das gezielte Suchen und Auffinden von Informationen in einem EDV-gestützten Speicher während des Datenverarbeitungsprozesses unterstützt."[37]

Die Möglichkeiten des Information Retrieval sind von den Methoden abhängig, die bei der Indexierung der Dokumente angewandt wurden.

Bei den Suchdiensten im Internet kommen zwei grundsätzliche Methoden des Information Retrieval zum Einsatz: das exact-match-Verfahren und die best-match-Suche. Exact match steht für das Modell der Boole'schen Suche und wird in der Mehrzahl der Online-Retrievalsysteme angewandt. Mehrere Suchbegriffe werden dabei durch die logischen Operatoren AND, OR bzw. NOT verknüpft, ergänzt durch Näheoperatoren. Mit der exact-match-Methode können bei Ausnutzung der Syntax und der Möglichkeit der Klammerung von Suchbegriffen sehr präzise Suchen durchgeführt werden. Sie wird häufig bei bibliographischen Datenbanken eingesetzt, wo strukturierte Daten vorliegen. Das Verfahren hat aber Beschränkungen, die von Willett aufgezeigt wurden.[38] Es ist für den Endnutzer kompliziert und nur nach vorheriger Schulung anwendbar. Die Größe der Ergebnismenge ist a priori kaum vorhersehbar und es ist oft notwendig, eine Suche im Nachhinein zu verfeinern oder auszuweiten. Willett kritisiert weiterhin, daß das Boole'sche Retrieval zu einfacher Teilung der Dokumentmenge in zutreffende und nichtzutreffende Dokumente führt. Alle Treffer werden als gleich wichtig angesehen, es erfolgt kein Relevanzranking und die relative Bedeutung verschiedener Komponenten der Frage wird außer acht gelassen.

Eine Alternative oder Ergänzung dieses Verfahrens bietet die best-match-Suche. Dabei werden die Dokumente in der Reihenfolge abnehmender Ähnlichkeit mit der Suchanfrage geordnet.[39] Bei mehreren Suchbegriffen werden diejenige Treffer höher gewichtet, die alle Suchworte enthalten. Die dabei verwendeten Rangordnungsalgorithmen sind bei den Diensten unterschiedlich. Einfluß auf die Rangordnung haben meist das Vorhandensein des Suchbegriffs im Titel des Dokuments und in den Überschriften, die Häufigkeit des Vorkommens und die Nähe der Suchbegriffe zueinander. Ein guter und häufig verwendeter Algorithmus ist TF/IDF[40], bei dem Begriffe, die seltener in der gesamten Datenbank, aber relativ häufig in einem Dokument vorkommen, besonders hoch gewichtet werden.

Im Gegensatz zum exact-match-Verfahren werden aber auch Dokumente gefunden, in denen nur einzelne der Suchworte vorkommen. Die Qualität des Rangordnungsalgorithmus hat besonders bei sehr großen Treffermengen enorme Bedeutung, da nicht alle Treffer durchgesehen werden können. Willett beschreibt das best-match-Verfahren:

"... a best-match search compares a set of query terms with the sets of terms corresponding to each of the documents in the database, calculates a measure of similarity between the query and each document based on the terms that they have in common, and then sorts the documents into order of decreasing similarity with the query."[41]

Nachteile der best-match-Methode sind, daß diese zu sehr hohen Treffermengen führen kann, da auch die Dokumente angezeigt werden, die nur einzelne Suchbegriffe enthalten. Weiterhin ist bei dieser Methode die Manipulationsgefahr durch die Informationsanbieter sehr groß. Durch häufiges Wiederholen von Suchbegriffen (unsichtbar in den Metatags bzw. verdeckt durch Anpassung der Schrift an die Hintergrundfarbe), Manipulation des Titels o.ä. wird versucht, die Stellung der Dokumente in der Ergebnisanzeige zu beeinflussen.[42] Dennoch sind bei automatischer Indexierung und großen Datenbanken best-match-Methoden praktikabler als reine Boole'sche Suchen.

Bei den Internetsuchdiensten werden meist Mischungen aus beiden Methoden angewandt. Oft basieren die Dienste auf best-match-Retrieval, verwenden jedoch zusätzlich Boole'sche Randbedingungen.[43] Die meisten roboterbasierten Suchdienste stellen verschiedene Eingabemasken für einfache und erweiterte Suche zur Verfügung. Die Maske für die einfache Suche bietet zumeist nur ein Eingabefenster, in dem eine einfache Stichwortsuche möglich ist. Dabei wird oft empfohlen, mehrere Suchbegriffe oder eine Frage in natürlicher Sprache einzugeben. Die Optionen für erweiterte Suche unterscheiden sich sehr stark bei den einzelnen Diensten. Teilweise werden die gleichen Retrievalverfahren verwendet wie bei der einfachen Suche und nur mehr Optionen (Verwendung verschiedener Kriterien und Operatoren) angeboten, teilweise basiert die erweiterte Suche jedoch auf völlig anderen Algorithmen. So wird bei der einfachen Suche ein best-match-Verfahren eingesetzt, bei der erweiterten Suche können vorrangig exact-match-Methoden angewandt werden (Alta Vista). Dies führt zu großen Unterschieden in der Arbeitsweise der Dienste, die für die Benutzung wesentlich sind. Es erschwert auch den Vergleich mehrerer Suchdienste, da dabei nie alle Treffer betrachtet werden.

Besonders bei den großen Suchdiensten kommen verstärkt avancierte Methoden des Information Retrieval zum Einsatz, die dazu beitragen können, die Qualität der Suche zu erhöhen. Diese Methoden sollen hier nur erwähnt werden, sie werden in Kap. 5 näher beschrieben. Es sind einerseits Funktionalitäten, die eine aktive Beherrschung und Anwendung avancierter Syntax voraussetzen, wie die Verwendung von Näheoperatoren, Phrasensuche, Trunkierung, Klammerung sowie die nutzergesteuerte Gewichtung von Suchbegriffen. Es werden auch verschiedene Verfahren der Eingrenzung des Suchraumes angeboten, wie geographisches oder sprachliches Filtern, Eingrenzen der Suche auf bestimmte Suchfelder oder nach bestimmten Medientypen oder eine zeitliche Eingrenzung. Bei einigen Diensten kommen avancierte Methoden des Information Retrieval zum Einsatz, wie Konzeptsuche, Frageerweiterung (query expansion) oder die Suche anhand von Beispieldokumenten (relevance feedback, query by example).


[37] Ratzek 1991, S. 242

[38] vgl. Willett 1993, S. 2

[39] vgl. Willett 1993.

[40] Term Frequency / Inverted Document Frequency

[41] Willett 1993, S. 2

[42] vgl. Stellin 1996

[43] Z.B. kann der Ausschluß bestimmter Begriffe durch ein "-" vor dem Wort oder die Erfordernis durch "+" ausgedrückt werden.


previous next Up Title Contents