Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 9.3 Kritik an Retrievaltests
< 9.2 Aufbau und Ergebnisse ausgewählter Retrievaltests  |  Inhaltsverzeichnis  |  10 Verfahren der intuitiven Benutzerführung >
9.3 Kritik an Retrievaltests

Kritik an Retrievaltests

Neben der bereits formulierten Kritik an einzelnen Tests (die sich anhand weiterer Beispiele noch fortsetzen ließe) wurde bereits erwähnt, dass sich die Tests damit nur in ihrer Methodik kritisieren lassen, jedoch noch eine umfassendere Frage zu stellen ist, nämlich die nach der Sinnhaftigkeit von Retrievaltests für eine umfassende Bewertung von Retrievalsystemen, speziell Suchmaschinen.
Die zwei wichtigsten Kritikpunkte an Retrievaltests sind, dass sie erstens den Nutzerbedürfnissen und dem Nutzerverhalten nicht gerecht werden und zweitens nicht alle für die Suchmaschinen qualitätsbestimmenden Faktoren messen.
Spink (2002) beschreibt einen über die klassischen Retrievaltests hinausgehenden Bewertungsansatz, der sich stark auf die Beurteilung der Nutzer hinsichtlich ihrer eigenen Fortschritte bei der Lösung ihrer Informationsbedürfnisse konzentriert. Belegt wird die Bedeutung dieses Bewertungsansatzes anhand einer Untersuchung der Metasuchmaschine Inquirus. 22 Nutzer werden in einer umfassenden quantitativen und qualitativen Untersuchung befragt und müssen in einer Laborsituation Suchen durchführen. Ein besonderes Augenmerk wird auf die Befragung der Nutzer vor und nach der Laboruntersuchung gelegt. Dabei zeigt sich, dass die Relevanzbewertung der Dokumente durch die Nutzer und die daraus berechneten Precisionwerte nicht mit der von den Nutzern empfundenen Nützlichkeit des Suchwerkzeugs korrelieren. Mit anderen Worten: Für die Nutzer sind Precisionwerte unbedeutend, ihr Informationsbedürfnis kann auch durch das Retrieval nur eines oder weniger Dokumente befriedigt werden. Auch zurückgegebene irrelevante Dokumente spielen nur eine untergeordnete Rolle.
Ein aus der Untersuchung abgeleiteter Schluss ist, dass mit den traditionell verwendeten Maßen die Leistung von Information-Retrieval-Systemen nur eingeschränkt beurteilt werden kann. Untersuchungen sollten zusätzlich die Interaktionen der Nutzer mit dem System berücksichtigen, um die Nützlichkeit des Systems für die Nutzer ermitteln zu können. Traditionelle Bewertungsmaße seien zu sehr auf diejenigen ausgerichtet, die Information-Retrieval-Systeme erstellen bzw. betrieben. Die Effektivität dieser Systeme ließe sich am besten durch die (von diesen selbst bewerteten) Fortschritte der Nutzer bei der Lösung ihres Informationsproblems beurteilen (Spink 2002, 419).
Bei der Bewertung der Systeme spielt neben der Effektivität auch die Usability eine wichtige Rolle. Diese wird in Retrievaltests allerdings nicht gemessen. Weiterhin kann die Interaktion zwischen Nutzer und System nicht berücksichtigt werden; prinzipiell werden Systeme bevorzugt, die in einem Schritt brauchbare Ergebnisse liefern. Die vielleicht in diesem Schritt gegebenen Hinweise auf Möglichkeiten zur Verfeinerung der Recherche oder die direkte Hinleitung zu einer Verbesserung des Ergebnisses werden nicht honoriert. Dass solche Ansätze aber durchaus sinnvoll sind – wenn nicht gar dringend benötigt werden – wird im nächsten Kapitel gezeigt werden.
Neben der Precisionanalyse werden von unterschiedlicher Seite weitere Faktoren genannt, um die Qualität von Suchmaschinen zu messen.
Vaughan (2004) schlägt drei die klassischen Maße Recall und Precision ergänzenden Maße vor. Dies sind:
• Qualität des Rankings (quality of result ranking): Hierbei wird die Qualität des von der Suchmaschine durchgeführten Rankings dem Ranking durch menschliche Gutachter gegenübergestellt und die Übereinstimmung zwischen den beiden gemessen.
• Fähigkeit, die wichtigsten Dokumente auszugeben (ability to retrieve top ranked pages): Hierbei werden von unterschiedlichen Suchmaschinen jeweils die top gerankten Dokumente bis zu einem bestimmten Cut-off-Wert (z.B. zehn) zusammengeführt und menschlichen Gutachtern zur Bewertung vorgelegt. Dann werden die von den Menschen am besten bewerteten Dokumente ausgefiltert, wobei wieder ein Cut-Off festgelegt wird (bspw. 75 Prozent der Dokumente sollen in die Wertung eingehen). Letztlich wird für jede Suchmaschine berechnet, wie hoch der Anteil dieser Dokumente im Ergebnis ist. Es handelt sich also um eine Art von modifiziertem Recall.
• Stabilität der Resultate (stability measurements): Hier werden drei Maße verwendet. Erstens wird die Stabilität der Anzahl der gefundenen Dokumente gemessen, zweitens die Anzahl der Dokumente innerhalb der Top 20, die im Verlauf einer relativ kurzen Zeitspanne (z.B. innerhalb einer Woche) gleich bleiben, und drittens die Anzahl der Dokumente innerhalb der Top 20, die innerhalb einer relativ kurzen Zeitspanne (wiederum z.B. eine Woche) in der gleichen Reihenfolge in der Trefferliste auftauchen.
Während die ersten beiden vorgeschlagenen Maße noch als ergänzende Retrievalmaße bezeichnet werden können, die die bestehende Qualitätsbestimmung durch die Precision ergänzen bzw. die Unmöglichkeit der Bestimmung des Recalls ausgleichen, geht das dritte vorgeschlagene Qualitätsmaß einen Schritt weiter. Die Stabilität des Rankings spielt in anderen Information-Retrieval-Systemen keine Rolle, da sie dort als generell gegeben angesehen werden kann.
Allerdings können auch diese weiteren Faktoren die Qualität von Suchmaschinen nicht vollständig messen. Auch in der vorliegenden Arbeit kann kein neues Qualitätsmodell für Suchmaschinen entwickelt werden, allerdings soll hier vor allem auf zwei wichtige Punkte hingewiesen werden, die in ein solches Qualitätsmodell einließen müssten:
• Index-Qualität: Hier wird nicht die Retrieval-Performance selbst gemessen, sondern ihre Grundlage in Form des zugrunde liegenden Datenbestands. Faktoren sind die Größe des Datenbestands, die Indexierungstiefe (werden auch Dokumente, die auf einer tieferen Hierarchieebene liegen, indexiert?), die gleichmäßige Indexierung von Dokumenten aller Sprachen, die Aktualität des Datenbestands (können aktuelle Dokumente überhaupt gefunden werden oder sind diese im Datenbestand schlicht noch nicht vorhanden?) und das Vorhandensein unterschiedlicher Datenbestände (lassen sich neben den klassischen Web-Dokumenten auch Newsgroup-Postings, Videodateien usw. finden?).
• Abfragemöglichkeiten: Vielfach lassen sich Dokumente leicht finden, wenn entsprechende Abfragemöglichkeiten vorhanden sind, um die Suche gezielt einzuschränken. Einerseits ist also das Vorhandensein entsprechender Suchfunktionen ein Qualitätsmerkmal von Suchmaschinen, andererseits muss deren Funktionstüchtigkeit überprüft werden. Zu den Abfragemöglichkeiten sind auch Verfahren der Benutzerunterstützung, wie sie im nächsten Kapitel behandelt werden, zu rechnen. Auch diese bestimmen mit über die Qualität der Suchmaschinen. Wie in Kapitel 2.6 dargestellt wurde, sind viele Nutzer nicht in der Lage, ihr Informationsbedürfnis adäquat in eine Suchanfrage umzusetzen. Gerade sie benötigen Hilfen, die es ihnen ermöglichen, ihre ursprüngliche Suchanfrage in weiteren Schritten zu modifizieren.
In der Regel beschränkt sich die Prüfung, ob eine Suchmaschine in der Lage ist, relevante Dokumente auszugeben, allerdings auf einen Rechercheschritt. Eine Ausnahme bildet die oben beschriebene Bewertung von Dokumenten, die zwar selbst nicht als relevant eingestuft werden, jedoch auf ein relevantes Dokument verweisen.
Diese grundsätzliche Beschränkung schließt die von manchen Suchmaschinen angebotenen Möglichkeiten, die oft unklar formulierten Suchanfragen zu verbessern, aus der Bewertung aus. Bislang liegen keine Untersuchungen vor, welche Suchmaschine die beste Performance liefert, wenn nicht nur ein Schritt, sondern zwei oder mehr in die Auswertung eingehen.
Es konnte gezeigt werden, dass neben der durch die Retrievaltests gelieferten Precision weitere Faktoren die Qualität von Suchmaschinen bestimmen. Diese sind bisher in keinem Modell umfassend ermittelt worden; im Rahmen dieser Arbeit soll speziell der Ansatz der stärker auf den Nutzer fokussierten Ansätze herausgezogen werden und es sollen im folgenden Kapitel erst nutzerunterstützende Verfahren dargestellt werden, bevor in den weiteren Kapiteln weitere Ansätze ausgearbeitet werden, wie den Nutzern noch besser bei der Fokussierung ihrer Recherche geholfen werden kann.

< 9.2 Aufbau und Ergebnisse ausgewählter Retrievaltests  |  Inhaltsverzeichnis  |  10 Verfahren der intuitiven Benutzerführung >