previous next Up Title Contents

2.2 Charakteristika von Dokumenten im Internet im Vergleich zu traditionellen Publikationen

Dokumente im Internet unterscheiden sich in einer Reihe von Merkmalen von traditionellen, gedruckten Dokumenten. Diese Unterschiede betreffen sowohl den Publikationsprozeß als auch die Dokumente selbst. Sie liegen in den verschiedenen Medien, deren Eigenschaften und Möglichkeiten begründet.

Das WWW, das heute den größten Teil des Internets ausmacht, ist ein riesiger, offener, auf verschiedenen Servern verteilter Hypertext. Es besteht aus Textbausteinen, die durch Verweise beliebig miteinander verbunden sein können. Die Verweise können sowohl zu semantisch zusammenhängenden Seiten desselben Verfassers als auch zu völlig anderen Publikationen auf anderen Servern zeigen. Dokumentgrenzen sind mit automatisierten Methoden, wie Suchdienste sie einsetzen, nicht feststellbar. Suchroboter zerschlagen beim Einsammeln und Indexieren die Zusammenhänge und Hierarchien in Dokumenten und stellen diese bei der Anzeige der Suchergebnisse nicht wieder her.

Weiterhin liegen im Internet eine Vielzahl von Dokumentarten und -formaten vor. Neben unterschiedlichen Textformaten, wie ASCII, HTML, PDF, Postscript u.ä. gibt es multimediale Elemente, wie Bilder, Töne oder Videos in verschiedenen Formaten. Die Dokumente werden von unterschiedlichen Protokollen, wie HTTP, FTP und Gopher transportiert.

Traditionelle Dokumente sind statisch. Einmal veröffentlicht, können Veränderungen nur in einer weiteren Auflage vorgenommen werden. Internetdokumente dagegen können jederzeit geändert werden. Neben Seiten, die nach ihrer Entstehung nicht mehr modifiziert werden, gibt es viele, die ständig fortgeschrieben werden, wobei oftmals weder das Entstehungsdatum noch das Datum der letzten Aktualisierung angegeben werden. Ebenso können jederzeit Seiten entfernt, hinzugefügt oder an anderer Stelle abgelegt werden. Internetdokumente haben damit aber auch den Vorteil, potentiell aktueller sein zu können als gedruckte Publikationen.

Printveröffentlichungen sind durch ISBN bzw. ISSN sowie durch die bibliographische Beschreibung eindeutig gekennzeichnet. Internetdokumente dagegen haben keine dauerhaften Adressen und keine eindeutigen Namen. Sie werden über die URL (Uniform Resource Locactor) nachgewiesen. Diese URL sind jedoch instabil und bezeichnen die Dokumente nicht eindeutig. Das gleiche Dokument kann unter mehreren URL vorhanden sein; unter einer URL können im Laufe der Zeit verschiedene Dokumente abgelegt sein. Aus der Notwendigkeit einer eindeutigen Bezeichnung von Internetdokumenten heraus wurden URN (Uniform Resource Name) entwickelt, die im Sommer 1997 als Standard verabschiedet wurden, aber noch nicht in der Praxis eingesetzt werden.

Internetdokumente haben eine höhere Flüchtigkeit als traditionelle Printmedien. Dies wirkt sich auch auf die Praktiken der Publikation, der Distribution und der Archivierung aus. Traditionelle Veröffentlichungen werden in der Regel in Verlagen publiziert; der Publikationsprozeß ist zentralisiert. Besonders wissenschaftliche Printpublikationen durchlaufen i.d.R. einen mehrstufigen Prozeß der Qualitätskontrolle (Auswahl durch den Verlag, peer review). Im Internet dagegen kann jeder veröffentlichen; der Publikationsprozeß ist dezentralisiert. Qualitätskontrolle von Internetdokumenten ist selten, sie wird nur in wenigen Fällen von wissenschaftlichen elektronischen Zeitschriften und Preprints angewandt. Die Qualität von Dokumenten im Internet ist damit sehr unterschiedlich.

Traditionelle Printveröffentlichungen unterliegen einer Archivierungspflicht seitens der Nationalbibliotheken. Sie werden auf verschiedenen Ebenen katalogisiert und indexiert, in Bibliotheken gesammelt, geordnet und erschlossen. Im Internet sind weder Archivierung noch Erschließung der Dokumente generell geregelt. In einigen Ländern, wie Schweden, Finnland und Norwegen wurden inzwischen Regelungen zur Archivierung auf elektronische Dokumente ausgeweitet. In Schweden hat die Nationalbibliothek z.B. das Recht der Archivierung aller auf schwedischen Servern öffentlich angebotenen Dokumente. Die europäischen Nationalbibliotheken veranstalteten 1995 einen Workshop zu Archivierungsfragen von elektronischen Publikationen, in dem die Notwendigkeit einer Archivierung unterstrichen wurde.

Mark Lager, Informationsbibliothekar an der California Lutheran University beschreibt die Eigenschaften von Informationen im Internet im Gegensatz zu den traditionellen, in Bibliotheken vorhandenen:

"Unlike the orderly world of the library collection, this new source of information is chaotic, often not organized and includes information not of high quality ... The useful and the innocuous are lumped together in this huge collection. Academic information (e.g. journal articles and course materials) is combined with social culture information and with personal home pages. There is no separation."[14]

Hier wird ein weiterer Unterschied zu traditionellen Informationssammlungen deutlich. Es existiert eine immense Spannbreite der Inhalte und der Qualität der Ressourcen. Dokumente sehr unterschiedlichen Inhalts sind mit dem gleichen Aussehen über das gleiche Medium abrufbar. Im Printbereich läßt sich oft schon durch das Erscheinungsbild, die Gestaltung, Schrift und durch den herausgebenden Verlag feststellen, ob es sich um ein wissenschaftliches Fachbuch, Unterhaltung oder Populärwissenschaft handelt. Diese Unterscheidungskriterien sind im Internet noch nicht in gleichem Maße ausgeprägt. Sie werden dadurch erschwert, daß alle Dokumente über ein Medium angeboten werden.

Es gibt nicht nur große Unterschiede in der inhaltlichen Qualität der Internetdokumente, sondern auch in der Qualität der Strukturierung dieser. Klar strukturierte Dokumente stellen eine große Hilfe für das Retrieval dar, da sie ermöglichen, die Suche auf bestimmte Teile von Dokumenten einzuschränken. HTML, auf SGML (Standard Generalized Markup Language) aufbauend, ermöglicht prinzipiell eine logische Strukturierung der Dokumente. Bei den existierenden Dokumenten handelt es sich jedoch zum größeren Teil um unspezifizierte Volltexte. Die strukturierenden Möglichkeiten von HTML werden in der Praxis inkonsistent verwandt und teilweise zu Layoutzwecken mißbraucht. Proprietäre Erweiterungen von HTML, wie durch Netscape oder Microsoft, erschweren darüber hinaus eine Auswertung der Strukturelemente.

Eine weitere Schwierigkeit besteht darin, daß nicht mit Sicherheit davon ausgegangen werden kann, daß sich bestimmte Informationen im Internet befinden. Es liegen zu allen Wissensbereichen gedruckte Texte vor. Auch im Internet finden sich Informationen zu sehr vielen, auch abgelegenen und nicht vermuteten Themen, aber es kann nie davon ausgegangen werden, daß zu einem Bereich tatsächlich Informationen vorhanden sein müssen.[15]

Die genannten Unterschiede bei den Primärpublikationen haben großen Einfluß auf die Möglichkeiten von Sekundärveröffentlichungen, die diese Dokumente nachweisen. Werkzeuge zum Nachweis traditioneller, wissenschaftlicher Publikationen sind Bibliothekskataloge, Bibliographien, Online-Datenbanken und seit den 80er Jahren Datenbanken auf CD-ROM. Besonders in den Naturwissenschaften kann durch umfassende Erfassung in Bibliographien mit großer Sicherheit festgestellt werden, ob es Publikationen zu einem bestimmten Thema gibt.[16] Da gedruckte Bibliographien elektronische Dokumente lange Zeit nicht wahrgenommen haben, sind sie viel lückenhafter nachgewiesen als Printpublikationen. Dies ist historisch bedingt und könnte sich zukünftig ändern, da Bibliographien im Internet leichter zu erstellen und zu aktualisieren sind als traditionell.

Die in gedruckten Sekundärveröffentlichungen verzeichneten Dokumente sind qualitativ ausgewählt und professionell manuell erschlossen worden. Damit liegen grundlegende bibliographische Angaben und häufig auch darüber hinausgehende Informationen über den Inhalt der Dokumente, wie Schlagworte auf der Basis von kontrolliertem Vokabular, Klassifikationscodes, Abstracts usw. vor, die zur Suche herangezogen werden können. Die riesigen, ständig wachsenden und sich verändernden Datenmengen im Internet dagegen machen eine professionelle Erschließung aller Internetdokumente unmöglich. Eine umfassende Erschließung ist nur mit automatisierten Methoden möglich. Die unterschiedliche Qualität der Strukturierung der Dokumente, die Vielzahl von Dokumentarten und -formaten sowie deren Organisation als offener, verteilter Hypertext stellen allerdings auch die automatische Indexierung vor große Probleme.

Eigenschaft

gedruckte Dokumente

Internetdokumente

Darstellung

linear; feste Dokumentgrenzen

nichtlinear; offener verteilter Hypertext

Dokumentarten

Texte, eventuell Bilder / Graphiken

multimedial: viele, verschiedene Dokumentarten möglich

Veränderbarkeit / Aktualität

nur in neuer Auflage; durch Publikationsprozeß eingeschränkte Aktualität

jederzeit; viele fortgeschriebene Dokumente; potentiell größere Aktualität

eindeutige Kennzeichnung

ISBN, ISSN

nein
Initiativen: URN

Publikationsprozeß

i.d.R. in Verlagen; zentralisiert

dezentralisiert

Verfügbarkeit

über Buchhandel, Bibliotheken, Dokumentenlieferdienste etc.

gut; direkt verfügbar

unterschiedliche Vertriebsskanäle

ja

nein

Beurteilbarkeit

gut über Verlag, Gestaltung etc.

wenig ausgeprägt

Qualitätskontrolle

durch Verlage; teilweise peer reviewing

selten

Deckungsbereich

umfassen alle Wissensgebiete

unsicher

Archivierung

Nationalbibliotheken

nicht geregelt; einige Initiativen

Nachweis

Bibliothekskataloge, Bibliographien, Datenbanken

teilweise durch Suchdienste

Erschließung

auf vielen Ebenen; meist professionell erschlossen

einige Initiativen; teilweise durch Suchdienste, Ressourcenzusammenstellungen etc.

Tabelle 1: Unterschiede zwischen gedruckten und Internetdokumenten

[14] Lager 1996, Kap. Introduction

[15] zu Charakteristika von Internetinformationen s.a.: Pinkerton 1994 und Nelson 1994

[16] Auch bei der Verzeichnung gedruckter Publikationen gibt es allerdings Lücken, besonders im Bereich der Geisteswissenschaften und der grauen Literatur, die weder in Bibliothekskatalogen noch in vielen Fachinformationsdiensten nachgewiesen sind.


previous next Up Title Contents