
Klassifikation und Thesaurus sind die klassischen Dokumentationssprachen. Insofern
scheint es sich anzubieten, diese auch für Erschließung von Web-Dokumenten
zu verwenden. Die Eignung eines kontrollierten Vokabulars für die Erschließung
des Web-Korpus wurde in Kap. 5.2 bereits diskutiert und dessen Einsatz verworfen.
Nun soll die Möglichkeit diskutiert werden, Thesauri bzw. Klassifikationen
als zusätzliches Browsing-Element in der Recherche einzusetzen.
Das große Problem der Verwendung von Thesauri ist, dass diese sich jeweils
auf einen relativ engen Themenbereich beschränken und damit dem Grundansatz
der Suchmaschinen entgegenstehen, die ein möglichst vollständiges
Abbild des Web liefern wollen. Der Sonderfall der Spezialsuchmaschinen soll
hier ausgeklammert werden; Bestrebungen, einen Universalthesaurus zu erstellen,
werden verworfen, gilt doch, dass „ein universaler Thesaurus zwar zugegebenermaßen
faszinierend [ist], aber alle bisherigen Versuche dazu als fehlgeschlagen oder
nicht vollendet betrachtet werden [müssen]“ (Burkart 2004, 141).
Eine Ausnahme ist in den sprachwissenschaftlichen Thesauri zu sehen; hier existiert
mit WordNet ein Universalthesaurus für die englische Sprache, ähnliche
Informationen für die deutsche Sprache bietet das Wortschatz-Lexikon der
Universität Leipzig.
Solche umfassenden Thesauri lassen sich verwenden, um eine eingegebene Suchanfrage
um Synonyme und eventuell Ober- und Unterbegriffe zu erweitern. Dies kann einerseits
automatisch geschehen, andererseits kann dem Nutzer angeboten werden, diese
weiteren Begriffe der Anfrage hinzuzufügen. Im Vergleich zu den automatisch
generierten Vorschlägen zur Einschränkung bzw. Erweiterung der Suchanfrage
(s. Abschnitt 10.2) kann eine höhere Zuverlässigkeit erreicht werden.
Für eine automatische Erschließung der Dokumente erscheinen Thesauri
(zumindest zur Zeit) nicht geeignet. Bisher existiert kein System, welches die
automatische Zuordnung der Deskriptoren zu den Dokumenten in einem thematisch
nicht beschränkten Bereich zuverlässig bewerkstelligt. Zwar gibt es
im professionellen Umfeld die bereits angesprochenen Systeme wie Factiva, die
den Gesamtbestand der dort verfügbaren Nachrichten einheitlich automatisch
indexieren. Allerdings liegt solchen Systemen auch immer eine eingeschränkte
Sicht auf die Dokumente (im Falle von Factiva eine wirtschaftliche) zugrunde.
Bei der Verwendung von Klassifikationen entstehen ähnliche Probleme. Die
Zuordnung der Dokumente funktioniert auch hier nicht zuverlässig, weshalb
Versuche, das Web klassifikatorisch zu erschließen, als gescheitert angesehen
werden müssen. Zumindest gilt das für die Ansätze, die auf eine
automatische Zuordnung der Dokumente setzten. Eine manuelle klassifikatorische
Erschließung findet nach wie vor bei den Web-Verzeichnissen statt, wobei
hier vor allem der inkonsistente Aufbau der Klassifikationssysteme (Stock u.
Stock 2000b) und die alleinige Erschließung von Websites kritisiert werden.
Die verbesserte Einbindung von Verzeichnisergebnissen in die reguläre Web-Suche
wird in Kap. 12.6 diskutiert.
Die Suchmaschine GERHARD (Wätjen et al. 1998) versuchte, die im Web gecrawlten
Dokumente automatisch den Klassen der universellen Dezimalklassifikation (DK)
zuzuordnen. Dabei wurde die Suche im Verzeichnis mit der Navigation verbunden,
Volltexte wurden nicht erschlossen. Nach Angaben der Betreiber ist das System
in der Lage, etwa 80 Prozent der Dokumente korrekt zuzuordnen. Eine genaue Überprüfung
des Systems war jedoch nicht möglich, da der Datenbestand seit mehreren
Jahren nicht aktualisiert wurde und mittlerweile zu einem großen Teil
aus „toten Links“ besteht. Abb. 10.8 zeigt die Navigation innerhalb
der Verzeichnisstruktur von GERHARD.
Abb. 10.8. Ausschnitt aus der Ergebnispräsentation von GERHARD
Der Einsatz von Klassifikationen und Thesauri ist auf zwei Ebenen zu bewerten.
Auf einer theoretischen Ebene mag dieser Vorteile in der Recherche bringen,
indem die Recherche zielgerichteter durchgeführt werden kann. Dazu müssten
allerdings die Dokumente zuverlässig mit Notationen oder Deskriptoren versehen
werden. Dem steht jedoch die Uneinheitlichkeit des Web-Korpus entgegen.
Auf der pragmatischen Ebene ist der Einsatz von Klassifikationen nur bei einer
Zuordnung oder wenigstens Überprüfung der Dokumente „von Hand“
zu empfehlen. Bestehende klassifikatorische Ansätze sollten besser in die
Websuche eingebunden werden.
Der Einsatz von Thesauri kann pragmatisch für die Generierung von Synonymen
zu einer Suchanfrage verwendet werden. Entsprechende Versuche, die den Gewinn
für die Recherche empirisch nachweisen, stehen aber noch aus. Auch stellt
sich die Frage, ob die in Abschnitt 10.2 beschriebenen Verfahren, die weitere
Suchbegriffe aus dem Web-Korpus ermitteln, nicht mit weniger Pflegeaufwand Vorschläge
von ähnlicher Qualität liefern können. Auch hier wäre eine
empirische Überprüfung zu leisten.