Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 10.3 Klassifikation und Thesaurus
< 10.2 Vorschläge zur Erweiterung und Einschränkung der Suchanfrage  |  Inhaltsverzeichnis  |  10.4 Clusterbildung >
10.3 Klassifikation und Thesaurus

Klassifikation und Thesaurus

Klassifikation und Thesaurus sind die klassischen Dokumentationssprachen. Insofern scheint es sich anzubieten, diese auch für Erschließung von Web-Dokumenten zu verwenden. Die Eignung eines kontrollierten Vokabulars für die Erschließung des Web-Korpus wurde in Kap. 5.2 bereits diskutiert und dessen Einsatz verworfen. Nun soll die Möglichkeit diskutiert werden, Thesauri bzw. Klassifikationen als zusätzliches Browsing-Element in der Recherche einzusetzen.
Das große Problem der Verwendung von Thesauri ist, dass diese sich jeweils auf einen relativ engen Themenbereich beschränken und damit dem Grundansatz der Suchmaschinen entgegenstehen, die ein möglichst vollständiges Abbild des Web liefern wollen. Der Sonderfall der Spezialsuchmaschinen soll hier ausgeklammert werden; Bestrebungen, einen Universalthesaurus zu erstellen, werden verworfen, gilt doch, dass „ein universaler Thesaurus zwar zugegebenermaßen faszinierend [ist], aber alle bisherigen Versuche dazu als fehlgeschlagen oder nicht vollendet betrachtet werden [müssen]“ (Burkart 2004, 141). Eine Ausnahme ist in den sprachwissenschaftlichen Thesauri zu sehen; hier existiert mit WordNet ein Universalthesaurus für die englische Sprache, ähnliche Informationen für die deutsche Sprache bietet das Wortschatz-Lexikon der Universität Leipzig.
Solche umfassenden Thesauri lassen sich verwenden, um eine eingegebene Suchanfrage um Synonyme und eventuell Ober- und Unterbegriffe zu erweitern. Dies kann einerseits automatisch geschehen, andererseits kann dem Nutzer angeboten werden, diese weiteren Begriffe der Anfrage hinzuzufügen. Im Vergleich zu den automatisch generierten Vorschlägen zur Einschränkung bzw. Erweiterung der Suchanfrage (s. Abschnitt 10.2) kann eine höhere Zuverlässigkeit erreicht werden.
Für eine automatische Erschließung der Dokumente erscheinen Thesauri (zumindest zur Zeit) nicht geeignet. Bisher existiert kein System, welches die automatische Zuordnung der Deskriptoren zu den Dokumenten in einem thematisch nicht beschränkten Bereich zuverlässig bewerkstelligt. Zwar gibt es im professionellen Umfeld die bereits angesprochenen Systeme wie Factiva, die den Gesamtbestand der dort verfügbaren Nachrichten einheitlich automatisch indexieren. Allerdings liegt solchen Systemen auch immer eine eingeschränkte Sicht auf die Dokumente (im Falle von Factiva eine wirtschaftliche) zugrunde.
Bei der Verwendung von Klassifikationen entstehen ähnliche Probleme. Die Zuordnung der Dokumente funktioniert auch hier nicht zuverlässig, weshalb Versuche, das Web klassifikatorisch zu erschließen, als gescheitert angesehen werden müssen. Zumindest gilt das für die Ansätze, die auf eine automatische Zuordnung der Dokumente setzten. Eine manuelle klassifikatorische Erschließung findet nach wie vor bei den Web-Verzeichnissen statt, wobei hier vor allem der inkonsistente Aufbau der Klassifikationssysteme (Stock u. Stock 2000b) und die alleinige Erschließung von Websites kritisiert werden. Die verbesserte Einbindung von Verzeichnisergebnissen in die reguläre Web-Suche wird in Kap. 12.6 diskutiert.
Die Suchmaschine GERHARD (Wätjen et al. 1998) versuchte, die im Web gecrawlten Dokumente automatisch den Klassen der universellen Dezimalklassifikation (DK) zuzuordnen. Dabei wurde die Suche im Verzeichnis mit der Navigation verbunden, Volltexte wurden nicht erschlossen. Nach Angaben der Betreiber ist das System in der Lage, etwa 80 Prozent der Dokumente korrekt zuzuordnen. Eine genaue Überprüfung des Systems war jedoch nicht möglich, da der Datenbestand seit mehreren Jahren nicht aktualisiert wurde und mittlerweile zu einem großen Teil aus „toten Links“ besteht. Abb. 10.8 zeigt die Navigation innerhalb der Verzeichnisstruktur von GERHARD.

Abb. 10.8. Ausschnitt aus der Ergebnispräsentation von GERHARD


Der Einsatz von Klassifikationen und Thesauri ist auf zwei Ebenen zu bewerten. Auf einer theoretischen Ebene mag dieser Vorteile in der Recherche bringen, indem die Recherche zielgerichteter durchgeführt werden kann. Dazu müssten allerdings die Dokumente zuverlässig mit Notationen oder Deskriptoren versehen werden. Dem steht jedoch die Uneinheitlichkeit des Web-Korpus entgegen.
Auf der pragmatischen Ebene ist der Einsatz von Klassifikationen nur bei einer Zuordnung oder wenigstens Überprüfung der Dokumente „von Hand“ zu empfehlen. Bestehende klassifikatorische Ansätze sollten besser in die Websuche eingebunden werden.
Der Einsatz von Thesauri kann pragmatisch für die Generierung von Synonymen zu einer Suchanfrage verwendet werden. Entsprechende Versuche, die den Gewinn für die Recherche empirisch nachweisen, stehen aber noch aus. Auch stellt sich die Frage, ob die in Abschnitt 10.2 beschriebenen Verfahren, die weitere Suchbegriffe aus dem Web-Korpus ermitteln, nicht mit weniger Pflegeaufwand Vorschläge von ähnlicher Qualität liefern können. Auch hier wäre eine empirische Überprüfung zu leisten.

< 10.2 Vorschläge zur Erweiterung und Einschränkung der Suchanfrage  |  Inhaltsverzeichnis  |  10.4 Clusterbildung >