Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 5.2 Kontrolliertes Vokabular
< 5.1 Unterschiede zwischen klassischem Information Retrieval und Web Information Retrieval  |  Inhaltsverzeichnis  |  5.3 Kriterien für die Aufnahme in den Datenbestand >
5.2 Kontrolliertes Vokabular

Kontrolliertes Vokabular

Soll das Web als Quelle für professionelle Recherchen genutzt werden, tauchen zwei Probleme auf: einerseits die Frage der Vollständigkeit der ermittelten Informationen, andererseits die Methode der Erschließung. Die Frage der Vollständigkeit der im Web vorhandenen Informationen und der Abdeckung dieser durch die Suchmaschinen wurde in Kapitel 3 behandelt. Bei der Websuche bleibt stets die Frage offen, ob tatsächlich alle verfügbaren Informationen gefunden wurden, da nicht festgestellt werden kann, welche Informationen in welchem Umfang überhaupt im Web vorhanden sind und auch nie sichergestellt werden kann, ob aus der Menge der erschlossenen Informationen auch tatsächlich alle relevanten Dokumente gefunden wurden.
Zwar besteht auch bei mittels eines kontrollierten Vokabulars erschlossenen Datenbanken das grundsätzliche Problem, dass der Recall-Wert nicht genau ermittelt werden kann, jedoch ist das Problem hier als weit geringer einzuschätzen, da wenigstens klar ist, welche Quellen in der jeweiligen Datenbank erschlossen werden. Damit lässt sich feststellen, ob überhaupt Dokumente zum gewünschten Thema vorhanden sind. Bei der Suche in einer Suchmaschine lässt sich bei null Treffern nicht ermitteln, ob zu diesem Thema schlicht nichts vorhanden ist oder ob die Suchstrategie ihr Ziel verfehlte.
Die Dokumente in klassischen Online-Datenbanken werden in der Regel mittels eines kontrollierten Vokabulars erschlossen. Den Dokumenten werden Deskriptoren bzw. Schlagwörter, Notationen und weitere Merkmale zugeordnet. Die Dokumente, auch die aus unterschiedlichen Quellen, werden einheitlich beschrieben, so dass sie bei Verwendung desselben Vokabulars bei der Recherche besser wiedergefunden werden können. Einige linguistische Probleme können so gelöst werden: Unterschiedliche Bezeichnungen eines Begriffs beispielsweise durch Synonyme und Akronyme werden zu einem Begriff zusammengefasst, homonyme Bezeichnungen werden in unterschiedliche Begriffe getrennt. Die Dokumente werden nicht nur durch Begriffe beschrieben, die tatsächlich in ihrem Volltext vorkommen, sondern auch durch Begriffe, die den dargestellten Sachverhalt beschreiben, vom Autor selbst jedoch nicht genannt werden. Der Anteil der Begriffe, die in der Erschließung, jedoch nicht in den Texten selbst verwendet werden, liegt bei etwa zehn Prozent (Bates 2004).
Allerdings verlangen Systeme, die mit einem kontrollierten Vokabular arbeiten, vom Nutzer die Kenntnis desselben. Als weiterer Nachteil ist die relative Starrheit eines solchen Vokabulars zu sehen. Insbesondere universelle Klassifikationssysteme lassen sich nur schwer veränderten Gegebenheiten anpassen und tendieren damit stets zur Inaktualität. Die Erschließung mittels Thesauri hingegen ist in der Regel auf ein einzelnes Fachgebiet beschränkt und taugt nicht für die Erschließung thematisch nicht beschränkter Datenbestände.
Während also kontrollierte Vokabulare für den Einsatz in Online-Datenbanken und systematisch aufgebauten fachlichen Kollektionen (wie etwa Bibliotheken) unbedingt benötigt werden, ist ihr Einsatz bei Suchmaschinen nur im Kontext der nutzerführenden Verfahren (s. Kap.10) als sinnvoll anzusehen. Vor allem wegen der Universalität der von den Suchmaschinen erschlossenen Inhalte und in Hinblick auf das Verhalten der Nutzer ist ansonsten davon abzuraten. Aus den Erfahrungen mit kontrolliertem Vokabular bleibt jedoch die durchaus nutzbare Erkenntnis, dass die Textwörter allein zur vollständigen Beschreibung eines Dokuments nicht genügen. Im Bereich der Suchmaschinen wurde die Diskussion um die Erweiterung vor allem unter der Überschrift „Metadaten" geführt, weiterhin ist an eine „Erweiterung" der Dokumente um beschreibende Daten von externen Seiten zu denken.

< 5.1 Unterschiede zwischen klassischem Information Retrieval und Web Information Retrieval  |  Inhaltsverzeichnis  |  5.3 Kriterien für die Aufnahme in den Datenbestand >