Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 12.2 Qualitätsbeschränkungen bei der Recherche in Datenbank-Hosts
< 12.1 Bedeutung der Beschränkung nach der Qualität der Dokumente  |  Inhaltsverzeichnis  |  12.3 Identifizierung von Top-Quellen im WWW >
12.2 Qualitätsbeschränkungen bei der Recherche in Datenbank-Hosts

Qualitätsbeschränkungen bei der Recherche in Datenbank-Hosts

Datenbank-Hosts erfüllen zum Teil eine ähnliche Aufgabe wie Web-Verzeichnisse: Sie bieten unter einer Oberfläche ein Verzeichnis relevanter Quellen, die für die Recherche ausgewählt werden können: „The Web directories are aggregators – they do for Web sites what proprietary online services do for individual databases“ (O’Leary 1998, 79). Im Unterschied zu den Hosts ermöglichen es die Web-Verzeichnisse allerdings nicht, in allen Quellen oder in allen Quellen eines bestimmten Bereichs gleichzeitig zu suchen.
Im Folgenden soll beschrieben werden, welchen Nutzen die Hosts bei der Auswahl geeigneter Quellen für die Recherche und die Einschränkung der Suche auf bedeutende Quellen bieten. Daraus werden Möglichkeiten für Suchmaschinen abgeleitet, ihre Qualitätseinschränkungen auf ähnliche Art zu verbessern.

Abb. 12.1. Beschränkung der Trefferliste auf zwei Treffer je Server am Beispiel von MSN


Alle Hosts haben erkannt, dass eine gleichzeitige Suche in allen verfügbaren Quellen nur selten die vom Nutzer gewünschten Ergebnisse bringt. Vielmehr ist eine gezielte Quellenauswahl mit für den Sucherfolg entscheidend. Bei Lexis-Nexis findet sich beispielsweise eine Datenbankgruppe „Major World Publications“, die die als am wichtigsten angesehenen Nachrichtenquellen der Welt enthält. Eine ähnliche Datenbank-Gruppe ist die „Manager-Kombi“ bei Genios, die die wichtigsten deutschsprachigen Zeitungen und Nachrichtenmagazine enthält. Die Quellen, die in diesen Datenbankgruppen enthalten sind, wurden von Hand ausgewählt. Dabei ist die Auswahl der Quellen für eine Datenbankgruppe für den Nutzer nachvollziehbar: Welches die bedeutendsten deutschen Tageszeitungen sind oder welche Fachzeitschriften einer Rubrik wie „Medien und Kommunikation“ zuzuordnen sind, dürfte relativ unstrittig sein.
Eine weitere Möglichkeit bieten Funktionen wie die Cross-Suche, die eine Recherche über alle Quellen des Hosts ermöglichen, wobei nicht die Trefferlisten mit den Dokumenten angezeigt werden, sondern nur die Zahl der in der jeweiligen Datenbank vorhandenen Dokumente. Diese Art der Suche soll es dem Nutzer erleichtern, die für seine Recherche wichtigsten Quellen auszuwählen. Dies werden in der Regel diejenigen sein, die die meisten Dokumente zum Thema enthalten bzw. diejenigen fachlich spezialisierten Quellen, die zumindest eine gewisse Anzahl von passenden Dokumenten enthalten.
Der Ansatz der Top-Quellen beruht auf der Einsicht, dass Suchanfragen zu einem bedeutenden Teil eher zu viele als zu wenige Treffer liefern. Es erfolgt eine Konzentration auf die wichtigen Quellen, gleichzeitig werden die weniger bedeutenden Quellen ausgeschlossen, um Ballast zu vermeiden.
Die Cross-Suche eignet sich hingegen sowohl für Suchanfragen, die nur wenige Dokumente ergeben, als auch für solche, die zu viele Treffer bringen. Als Mittel zum Auffinden der wenigen Treffer eignete sich die Cross-Suche vor allem in Systemen, die keine direkte Suche über alle Datenbanken zuließen. Mittlerweile kommt der Cross-Suche allerdings eher eine Bedeutung in Bezug auf trefferreiche Anfragen zu; hier können gezielt Quellen ausgewählt werden, die besonders viele Treffer zum Thema enthalten, gleichzeitig aber schon als Quelle für das Thema relevant sind oder einen besonderen Blickwinkel eröffnen.
Überträgt man die Auswahl der Top-Quellen bzw. die Cross-Suche auf die Web-Suche, so zeigt sich bei den gängigen Suchmaschinen, dass der Ansatz, bei einer Recherche erst einmal die wichtigsten Quellen zu finden, von diesen negiert wird, denn alle großen Suchmaschinen zeigen in ihren Trefferlisten nur zwei Treffer pro Server, also pro Quelle, an (s. Abb. 12.1). Zwar ist es möglich, durch Folgen eines Links unterhalb dieser Treffer die weiteren Ergebnisse auf dem gleichen Server zu sehen, die Server mit vielen Dokumenten zum Thema werden jedoch nicht bevorzugt gelistet oder besonders hervorgehoben. Wie viele Dokumente tatsächlich hinter den entsprechenden Links stehen, wird bei den gängigen Suchmaschinen nicht mit angegeben. Für den Benutzer ist es also nicht ersichtlich, ob es sich tatsächlich um eine umfangreiche Quelle zum Thema handelt.
Daraus ergibt sich bei der Websuche ein Paradox, nämlich dass man bei dieser vermeintlich einfachen Suche schon im Voraus die wichtigsten Quellen kennen sollte. Und kennt man sie, so hat man doch nicht die Möglichkeit, die Suche auf diese zu beschränken. Daraus ergibt sich, dass man die Websuche zumindest zum Teil auch als Quellensuche betrachten sollte. Dabei können Informationen aus Verzeichnissen, aber auch andere aus dem Web extrahierte Informationen nützlich sein.

< 12.1 Bedeutung der Beschränkung nach der Qualität der Dokumente  |  Inhaltsverzeichnis  |  12.3 Identifizierung von Top-Quellen im WWW >