
Neben der bereits formulierten Kritik an einzelnen Tests (die sich anhand weiterer
Beispiele noch fortsetzen ließe) wurde bereits erwähnt, dass sich
die Tests damit nur in ihrer Methodik kritisieren lassen, jedoch noch eine umfassendere
Frage zu stellen ist, nämlich die nach der Sinnhaftigkeit von Retrievaltests
für eine umfassende Bewertung von Retrievalsystemen, speziell Suchmaschinen.
Die zwei wichtigsten Kritikpunkte an Retrievaltests sind, dass sie erstens den
Nutzerbedürfnissen und dem Nutzerverhalten nicht gerecht werden und zweitens
nicht alle für die Suchmaschinen qualitätsbestimmenden Faktoren messen.
Spink (2002) beschreibt einen über die klassischen Retrievaltests hinausgehenden
Bewertungsansatz, der sich stark auf die Beurteilung der Nutzer hinsichtlich
ihrer eigenen Fortschritte bei der Lösung ihrer Informationsbedürfnisse
konzentriert. Belegt wird die Bedeutung dieses Bewertungsansatzes anhand einer
Untersuchung der Metasuchmaschine Inquirus. 22 Nutzer werden in einer umfassenden
quantitativen und qualitativen Untersuchung befragt und müssen in einer
Laborsituation Suchen durchführen. Ein besonderes Augenmerk wird auf die
Befragung der Nutzer vor und nach der Laboruntersuchung gelegt. Dabei zeigt
sich, dass die Relevanzbewertung der Dokumente durch die Nutzer und die daraus
berechneten Precisionwerte nicht mit der von den Nutzern empfundenen Nützlichkeit
des Suchwerkzeugs korrelieren. Mit anderen Worten: Für die Nutzer sind
Precisionwerte unbedeutend, ihr Informationsbedürfnis kann auch durch das
Retrieval nur eines oder weniger Dokumente befriedigt werden. Auch zurückgegebene
irrelevante Dokumente spielen nur eine untergeordnete Rolle.
Ein aus der Untersuchung abgeleiteter Schluss ist, dass mit den traditionell
verwendeten Maßen die Leistung von Information-Retrieval-Systemen nur
eingeschränkt beurteilt werden kann. Untersuchungen sollten zusätzlich
die Interaktionen der Nutzer mit dem System berücksichtigen, um die Nützlichkeit
des Systems für die Nutzer ermitteln zu können. Traditionelle Bewertungsmaße
seien zu sehr auf diejenigen ausgerichtet, die Information-Retrieval-Systeme
erstellen bzw. betrieben. Die Effektivität dieser Systeme ließe sich
am besten durch die (von diesen selbst bewerteten) Fortschritte der Nutzer bei
der Lösung ihres Informationsproblems beurteilen (Spink 2002, 419).
Bei der Bewertung der Systeme spielt neben der Effektivität auch die Usability
eine wichtige Rolle. Diese wird in Retrievaltests allerdings nicht gemessen.
Weiterhin kann die Interaktion zwischen Nutzer und System nicht berücksichtigt
werden; prinzipiell werden Systeme bevorzugt, die in einem Schritt brauchbare
Ergebnisse liefern. Die vielleicht in diesem Schritt gegebenen Hinweise auf
Möglichkeiten zur Verfeinerung der Recherche oder die direkte Hinleitung
zu einer Verbesserung des Ergebnisses werden nicht honoriert. Dass solche Ansätze
aber durchaus sinnvoll sind – wenn nicht gar dringend benötigt werden
– wird im nächsten Kapitel gezeigt werden.
Neben der Precisionanalyse werden von unterschiedlicher Seite weitere Faktoren
genannt, um die Qualität von Suchmaschinen zu messen.
Vaughan (2004) schlägt drei die klassischen Maße Recall und Precision
ergänzenden Maße vor. Dies sind:
• Qualität des Rankings (quality of result ranking): Hierbei wird
die Qualität des von der Suchmaschine durchgeführten Rankings dem
Ranking durch menschliche Gutachter gegenübergestellt und die Übereinstimmung
zwischen den beiden gemessen.
• Fähigkeit, die wichtigsten Dokumente auszugeben (ability to retrieve
top ranked pages): Hierbei werden von unterschiedlichen Suchmaschinen jeweils
die top gerankten Dokumente bis zu einem bestimmten Cut-off-Wert (z.B. zehn)
zusammengeführt und menschlichen Gutachtern zur Bewertung vorgelegt. Dann
werden die von den Menschen am besten bewerteten Dokumente ausgefiltert, wobei
wieder ein Cut-Off festgelegt wird (bspw. 75 Prozent der Dokumente sollen in
die Wertung eingehen). Letztlich wird für jede Suchmaschine berechnet,
wie hoch der Anteil dieser Dokumente im Ergebnis ist. Es handelt sich also um
eine Art von modifiziertem Recall.
• Stabilität der Resultate (stability measurements): Hier werden
drei Maße verwendet. Erstens wird die Stabilität der Anzahl der gefundenen
Dokumente gemessen, zweitens die Anzahl der Dokumente innerhalb der Top 20,
die im Verlauf einer relativ kurzen Zeitspanne (z.B. innerhalb einer Woche)
gleich bleiben, und drittens die Anzahl der Dokumente innerhalb der Top 20,
die innerhalb einer relativ kurzen Zeitspanne (wiederum z.B. eine Woche) in
der gleichen Reihenfolge in der Trefferliste auftauchen.
Während die ersten beiden vorgeschlagenen Maße noch als ergänzende
Retrievalmaße bezeichnet werden können, die die bestehende Qualitätsbestimmung
durch die Precision ergänzen bzw. die Unmöglichkeit der Bestimmung
des Recalls ausgleichen, geht das dritte vorgeschlagene Qualitätsmaß
einen Schritt weiter. Die Stabilität des Rankings spielt in anderen Information-Retrieval-Systemen
keine Rolle, da sie dort als generell gegeben angesehen werden kann.
Allerdings können auch diese weiteren Faktoren die Qualität von Suchmaschinen
nicht vollständig messen. Auch in der vorliegenden Arbeit kann kein neues
Qualitätsmodell für Suchmaschinen entwickelt werden, allerdings soll
hier vor allem auf zwei wichtige Punkte hingewiesen werden, die in ein solches
Qualitätsmodell einließen müssten:
• Index-Qualität: Hier wird nicht die Retrieval-Performance selbst
gemessen, sondern ihre Grundlage in Form des zugrunde liegenden Datenbestands.
Faktoren sind die Größe des Datenbestands, die Indexierungstiefe
(werden auch Dokumente, die auf einer tieferen Hierarchieebene liegen, indexiert?),
die gleichmäßige Indexierung von Dokumenten aller Sprachen, die Aktualität
des Datenbestands (können aktuelle Dokumente überhaupt gefunden werden
oder sind diese im Datenbestand schlicht noch nicht vorhanden?) und das Vorhandensein
unterschiedlicher Datenbestände (lassen sich neben den klassischen Web-Dokumenten
auch Newsgroup-Postings, Videodateien usw. finden?).
• Abfragemöglichkeiten: Vielfach lassen sich Dokumente leicht finden,
wenn entsprechende Abfragemöglichkeiten vorhanden sind, um die Suche gezielt
einzuschränken. Einerseits ist also das Vorhandensein entsprechender Suchfunktionen
ein Qualitätsmerkmal von Suchmaschinen, andererseits muss deren Funktionstüchtigkeit
überprüft werden. Zu den Abfragemöglichkeiten sind auch Verfahren
der Benutzerunterstützung, wie sie im nächsten Kapitel behandelt werden,
zu rechnen. Auch diese bestimmen mit über die Qualität der Suchmaschinen.
Wie in Kapitel 2.6 dargestellt wurde, sind viele Nutzer nicht in der Lage, ihr
Informationsbedürfnis adäquat in eine Suchanfrage umzusetzen. Gerade
sie benötigen Hilfen, die es ihnen ermöglichen, ihre ursprüngliche
Suchanfrage in weiteren Schritten zu modifizieren.
In der Regel beschränkt sich die Prüfung, ob eine Suchmaschine in
der Lage ist, relevante Dokumente auszugeben, allerdings auf einen Rechercheschritt.
Eine Ausnahme bildet die oben beschriebene Bewertung von Dokumenten, die zwar
selbst nicht als relevant eingestuft werden, jedoch auf ein relevantes Dokument
verweisen.
Diese grundsätzliche Beschränkung schließt die von manchen Suchmaschinen
angebotenen Möglichkeiten, die oft unklar formulierten Suchanfragen zu
verbessern, aus der Bewertung aus. Bislang liegen keine Untersuchungen vor,
welche Suchmaschine die beste Performance liefert, wenn nicht nur ein Schritt,
sondern zwei oder mehr in die Auswertung eingehen.
Es konnte gezeigt werden, dass neben der durch die Retrievaltests gelieferten
Precision weitere Faktoren die Qualität von Suchmaschinen bestimmen. Diese
sind bisher in keinem Modell umfassend ermittelt worden; im Rahmen dieser Arbeit
soll speziell der Ansatz der stärker auf den Nutzer fokussierten Ansätze
herausgezogen werden und es sollen im folgenden Kapitel erst nutzerunterstützende
Verfahren dargestellt werden, bevor in den weiteren Kapiteln weitere Ansätze
ausgearbeitet werden, wie den Nutzern noch besser bei der Fokussierung ihrer
Recherche geholfen werden kann.