
Soll das Web als Quelle für professionelle Recherchen genutzt werden,
tauchen zwei Probleme auf: einerseits die Frage der Vollständigkeit der
ermittelten Informationen, andererseits die Methode der Erschließung.
Die Frage der Vollständigkeit der im Web vorhandenen Informationen und
der Abdeckung dieser durch die Suchmaschinen wurde in Kapitel 3 behandelt. Bei
der Websuche bleibt stets die Frage offen, ob tatsächlich alle verfügbaren
Informationen gefunden wurden, da nicht festgestellt werden kann, welche Informationen
in welchem Umfang überhaupt im Web vorhanden sind und auch nie sichergestellt
werden kann, ob aus der Menge der erschlossenen Informationen auch tatsächlich
alle relevanten Dokumente gefunden wurden.
Zwar besteht auch bei mittels eines kontrollierten Vokabulars erschlossenen
Datenbanken das grundsätzliche Problem, dass der Recall-Wert nicht genau
ermittelt werden kann, jedoch ist das Problem hier als weit geringer einzuschätzen,
da wenigstens klar ist, welche Quellen in der jeweiligen Datenbank erschlossen
werden. Damit lässt sich feststellen, ob überhaupt Dokumente zum gewünschten
Thema vorhanden sind. Bei der Suche in einer Suchmaschine lässt sich bei
null Treffern nicht ermitteln, ob zu diesem Thema schlicht nichts vorhanden
ist oder ob die Suchstrategie ihr Ziel verfehlte.
Die Dokumente in klassischen Online-Datenbanken werden in der Regel mittels
eines kontrollierten Vokabulars erschlossen. Den Dokumenten werden Deskriptoren
bzw. Schlagwörter, Notationen und weitere Merkmale zugeordnet. Die Dokumente,
auch die aus unterschiedlichen Quellen, werden einheitlich beschrieben, so dass
sie bei Verwendung desselben Vokabulars bei der Recherche besser wiedergefunden
werden können. Einige linguistische Probleme können so gelöst
werden: Unterschiedliche Bezeichnungen eines Begriffs beispielsweise durch Synonyme
und Akronyme werden zu einem Begriff zusammengefasst, homonyme Bezeichnungen
werden in unterschiedliche Begriffe getrennt. Die Dokumente werden nicht nur
durch Begriffe beschrieben, die tatsächlich in ihrem Volltext vorkommen,
sondern auch durch Begriffe, die den dargestellten Sachverhalt beschreiben,
vom Autor selbst jedoch nicht genannt werden. Der Anteil der Begriffe, die in
der Erschließung, jedoch nicht in den Texten selbst verwendet werden,
liegt bei etwa zehn Prozent (Bates 2004).
Allerdings verlangen Systeme, die mit einem kontrollierten Vokabular arbeiten,
vom Nutzer die Kenntnis desselben. Als weiterer Nachteil ist die relative Starrheit
eines solchen Vokabulars zu sehen. Insbesondere universelle Klassifikationssysteme
lassen sich nur schwer veränderten Gegebenheiten anpassen und tendieren
damit stets zur Inaktualität. Die Erschließung mittels Thesauri hingegen
ist in der Regel auf ein einzelnes Fachgebiet beschränkt und taugt nicht
für die Erschließung thematisch nicht beschränkter Datenbestände.
Während also kontrollierte Vokabulare für den Einsatz in Online-Datenbanken
und systematisch aufgebauten fachlichen Kollektionen (wie etwa Bibliotheken)
unbedingt benötigt werden, ist ihr Einsatz bei Suchmaschinen nur im Kontext
der nutzerführenden Verfahren (s. Kap.10) als sinnvoll anzusehen. Vor allem
wegen der Universalität der von den Suchmaschinen erschlossenen Inhalte
und in Hinblick auf das Verhalten der Nutzer ist ansonsten davon abzuraten.
Aus den Erfahrungen mit kontrolliertem Vokabular bleibt jedoch die durchaus
nutzbare Erkenntnis, dass die Textwörter allein zur vollständigen
Beschreibung eines Dokuments nicht genügen. Im Bereich der Suchmaschinen
wurde die Diskussion um die Erweiterung vor allem unter der Überschrift
„Metadaten" geführt, weiterhin ist an eine „Erweiterung"
der Dokumente um beschreibende Daten von externen Seiten zu denken.