Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 9.1 Aufbau und Nutzen von Retrievaltests
< 9 Retrievaltests  |  Inhaltsverzeichnis  |  9.2 Aufbau und Ergebnisse ausgewählter Retrievaltests >
9.1 Aufbau und Nutzen von Retrievaltests

Aufbau und Nutzen von Retrievaltests

In Retrievaltests werden Anfragen an Suchsysteme geschickt und die zurückgegebenen Treffer nach ihrer Relevanz bewertet. Wie in Kapitel 6.2 gezeigt wurde, sind jedoch mit dem Begriff der Relevanz größere Probleme verbunden. Hier liegt das Kernproblem der Retrievaltests: wann ist ein Treffer relevant und durch wen wird die Relevanz bewertet?
Für die Evaluierung von Retrievalsystemen haben sich gewisse Standards herausgebildet (vgl. Tague-Sutcliffe 1992), die für die Evaluierung von Suchmaschinen in der Regel weitgehend übernommen und wo nötig ergänzt werden.
Die Bewertung des Retrieval-Ergebnisses erfolgt in den meisten Tests durch die Maße Precision und Recall.
Recall misst den Anteil der gefundenen relevanten Dokumente im Verhältnis zur Zahl der insgesamt im Datenbestand vorhandenen relevanten Dokumente. Insbesondere bei größeren Datenbeständen ergibt sich allerdings das Problem, dass die Zahl der insgesamt vorhandenen relevanten Dokumente nicht exakt ermittelt werden kann und daher geschätzt werden muss. Durch die enormen Datenbestände der Suchmaschinen ist hier die auch nur annähernde Ermittlung des Recalls nicht möglich. In den typischen Untersuchungen wird daher entweder auf dieses Maß verzichtet und es werden allein die Precision-Werte ermittelt oder es wird die Pooling-Methode angewendet. Beim Pooling wird eine Suchaufgabe von verschiedenen Nutzern (mit unterschiedlich formulierten Anfragen) an das gleiche System oder an verschiedene zu untersuchende Systeme gestellt. Dabei wird angenommen, dass bei einer solchen Methode jedes relevante Dokument zumindest einmal gefunden wird und so in die Menge der relevanten Dokumente eingehen kann. Ein solches Verfahren wird beispielsweise bei TREC angewendet. Weiterhin kann der relative Recall gemessen werden: Hier wird die Schätzung der im System vorhandenen relevanten Dokumente bzw. die Angabe der Zahl der Dokumente, die der Nutzer gerne eingesehen hätte, diesem überlassen. Die Problematik wird dabei allerdings nicht gelöst, sondern nur über einen Umweg verschoben (Chu 2003, 193).
Die Precision misst den Anteil der gefundenen relevanten Dokumente im Verhältnis zu den insgesamt ausgegebenen Dokumenten. Abgesehen von der grundsätzlichen Problematik der Relevanzbewertung lässt sich dieser Wert anhand der Überprüfung der Dokumente exakt bestimmen. Oft wird nicht jedes ausgegebene Dokument bewertet, sondern nach einer gewissen Anzahl von Dokumenten abgebrochen (Cut-off-Wert). Die Messung der Precision kann als Durchschnittswert aller berücksichtigten Rankplätze oder für jeden Rangplatz einzeln berechnet werden. Im letztgenannten Fall kann gut gezeigt werden, wie sich die Precisionwerte innerhalb der Trefferliste verteilen.
Weitere Messwerte, die jedoch seltener in Retrievaltest angewendet werden, sind Fallout und Generality. Fallout ist der Anteil der ausgegebenen nicht-relevanten Dokumente im Verhältnis zur Gesamtmenge der nicht-relevanten Dokumente im System und misst damit die Unfähigkeit des untersuchten Systems, nicht-relevante Dokumente auszuschließen. Ebenso wie beim Recall besteht das Problem der Nicht-Messbarkeit der Gesamtzahl der nicht-relevanten Dokumente.
Generality bezeichnet den Anteil der Dokumente im Datenbestand, die für ein bestimmtes Thema relevant sind. Je höher der Generality-Werte eines Datenbestands für ein bestimmtes Thema ist, desto „einfacher" ist es für das System, relevante Dokumente zurückzugeben (Lancaster u. Warner 1993, 169f.). Allerdings besteht auch hier das Problem der Bestimmung der Gesamtzahl der für das jeweilige Thema relevanten Dokumente. Für die Evaluierung von Suchmaschinen sollte der Generality-Wert jedoch wenigstens als Anhaltspunkt genutzt werden, da gerade in diesem Bereich die Anzahl der Anfragen (insbesondere bei allgemein gehaltenen Themen), welche zu sehr großen Treffermengen führen, besonders groß ist.
Neben den beschriebenen existieren noch weitere Messwerte, die an dieser Stelle nicht diskutiert werden sollen. Eine Übersicht bietet Korhage (1997, 195ff.).
Neben den Messwerten ist der grundlegenden Methodik eine besondere Bedeutung beizumessen. Tague-Sutcliffe (1992) bietet eine Zusammenstellung der methodischen Entscheidungen, die bei der Konzeption eines Retrievaltests getroffen werden müssen:
1. Testen oder nicht testen? Ein Test sollte nur durchgeführt werden, wenn von ihm neue Erkenntnisse zu erwarten sind.
2. Welche Art von Test? Hier wird die Testmethode festgelegt.
3. Wie sollen die Variablen operationalisiert werden?
4. Welche Datenbank soll genutzt werden? Hier erfolgt die Auswahl der zu untersuchenden Informationssysteme, im Kontext dieser Arbeit der zu untersuchenden Suchmaschinen.
5. Finden der Suchanfragen. Die Auswahl der Suchanfragen entscheidet darüber, ob in dem Test tatsächliche Informationsbedüfnisse abgebildet werden oder das Ergebnis künstlich verzerrt wird.
6. Durchführung der Suchanfragen.
7. Wie erfolgt die Testanordnung?
8. Wie werden die Daten erhoben?
9. Wie werden die Daten ausgewertet?
10. Wie werden die Ergebnisse präsentiert?
Diese Aufstellung macht deutlich, dass bei der Konzeption eines Retrievaltests verschiedene Entscheidungen zu treffen sind, die die Ergebnisse und die Vergleichbarkeit des Tests mit anderen Untersuchungen beeinflussen können. Jeder der Punkte sollte gut durchdacht werden, um die für den Untersuchungszweck optimale Testdurchführung zu gewährleisten.
Neben diesen für alle Retrievaltests grundsätzlichen Fragen sollten auch die Eigenarten von Web-Suchmaschinen im Gegensatz zu anderen Information-Retrieval-Systemen beachtet werden. Gordon u. Pathak (1999) nennen sieben solcher Evaluierungskriterien, die von Hawking et al. (2001) auf fünf reduziert werden (Übersetzung nach Griesbaum et al. 2002, 204):
1. Reale Informationsbedürfnisse von Nutzern sollen abgebildet werden.
2. Bei der Einbindung von Informationsvermittlern soll das originäre Informationsbedürfnis sorgfältig mitgeteilt werden.
3. Es soll eine große Anzahl von Suchmaschinen genutzt werden.
4. Die wichtigsten Suchmaschinen sollen involviert sein.
5. Die Untersuchung soll gut und sorgfältig aufgebaut und durchgeführt werden.
Mit den von Tague-Sutcliffe formulierten Leitfragen und den Spezifika für die Durchführung von Suchmaschinen-Tests von Gordon u. Pathak in der Form von Hawking et al. steht nun ein Instrumentarium zur Verfügung, um die Güte ausgewählter Retrievaltests zu beurteilen. Allerdings soll bereits an dieser Stelle vorangeschickt werden, dass hiermit die Tests nur immanent, d.h. in der gewählten Methodik, verglichen werden können. Auf die grundlegende Problematik der alleinigen Bewertung von Suchmaschinen mittels Retrievaltests wird weiter unten noch ausführlich eingegangen werden.

< 9 Retrievaltests  |  Inhaltsverzeichnis  |  9.2 Aufbau und Ergebnisse ausgewählter Retrievaltests >