
In Retrievaltests werden Anfragen an Suchsysteme geschickt und die zurückgegebenen
Treffer nach ihrer Relevanz bewertet. Wie in Kapitel 6.2 gezeigt wurde, sind
jedoch mit dem Begriff der Relevanz größere Probleme verbunden. Hier
liegt das Kernproblem der Retrievaltests: wann ist ein Treffer relevant und
durch wen wird die Relevanz bewertet?
Für die Evaluierung von Retrievalsystemen haben sich gewisse Standards
herausgebildet (vgl. Tague-Sutcliffe 1992), die für die Evaluierung von
Suchmaschinen in der Regel weitgehend übernommen und wo nötig ergänzt
werden.
Die Bewertung des Retrieval-Ergebnisses erfolgt in den meisten Tests durch die
Maße Precision und Recall.
Recall misst den Anteil der gefundenen relevanten Dokumente im Verhältnis
zur Zahl der insgesamt im Datenbestand vorhandenen relevanten Dokumente. Insbesondere
bei größeren Datenbeständen ergibt sich allerdings das Problem,
dass die Zahl der insgesamt vorhandenen relevanten Dokumente nicht exakt ermittelt
werden kann und daher geschätzt werden muss. Durch die enormen Datenbestände
der Suchmaschinen ist hier die auch nur annähernde Ermittlung des Recalls
nicht möglich. In den typischen Untersuchungen wird daher entweder auf
dieses Maß verzichtet und es werden allein die Precision-Werte ermittelt
oder es wird die Pooling-Methode angewendet. Beim Pooling wird eine Suchaufgabe
von verschiedenen Nutzern (mit unterschiedlich formulierten Anfragen) an das
gleiche System oder an verschiedene zu untersuchende Systeme gestellt. Dabei
wird angenommen, dass bei einer solchen Methode jedes relevante Dokument zumindest
einmal gefunden wird und so in die Menge der relevanten Dokumente eingehen kann.
Ein solches Verfahren wird beispielsweise bei TREC angewendet. Weiterhin kann
der relative Recall gemessen werden: Hier wird die Schätzung der im System
vorhandenen relevanten Dokumente bzw. die Angabe der Zahl der Dokumente, die
der Nutzer gerne eingesehen hätte, diesem überlassen. Die Problematik
wird dabei allerdings nicht gelöst, sondern nur über einen Umweg verschoben
(Chu 2003, 193).
Die Precision misst den Anteil der gefundenen relevanten Dokumente im Verhältnis
zu den insgesamt ausgegebenen Dokumenten. Abgesehen von der grundsätzlichen
Problematik der Relevanzbewertung lässt sich dieser Wert anhand der Überprüfung
der Dokumente exakt bestimmen. Oft wird nicht jedes ausgegebene Dokument bewertet,
sondern nach einer gewissen Anzahl von Dokumenten abgebrochen (Cut-off-Wert).
Die Messung der Precision kann als Durchschnittswert aller berücksichtigten
Rankplätze oder für jeden Rangplatz einzeln berechnet werden. Im letztgenannten
Fall kann gut gezeigt werden, wie sich die Precisionwerte innerhalb der Trefferliste
verteilen.
Weitere Messwerte, die jedoch seltener in Retrievaltest angewendet werden, sind
Fallout und Generality. Fallout ist der Anteil der ausgegebenen nicht-relevanten
Dokumente im Verhältnis zur Gesamtmenge der nicht-relevanten Dokumente
im System und misst damit die Unfähigkeit des untersuchten Systems, nicht-relevante
Dokumente auszuschließen. Ebenso wie beim Recall besteht das Problem der
Nicht-Messbarkeit der Gesamtzahl der nicht-relevanten Dokumente.
Generality bezeichnet den Anteil der Dokumente im Datenbestand, die für
ein bestimmtes Thema relevant sind. Je höher der Generality-Werte eines
Datenbestands für ein bestimmtes Thema ist, desto „einfacher"
ist es für das System, relevante Dokumente zurückzugeben (Lancaster
u. Warner 1993, 169f.). Allerdings besteht auch hier das Problem der Bestimmung
der Gesamtzahl der für das jeweilige Thema relevanten Dokumente. Für
die Evaluierung von Suchmaschinen sollte der Generality-Wert jedoch wenigstens
als Anhaltspunkt genutzt werden, da gerade in diesem Bereich die Anzahl der
Anfragen (insbesondere bei allgemein gehaltenen Themen), welche zu sehr großen
Treffermengen führen, besonders groß ist.
Neben den beschriebenen existieren noch weitere Messwerte, die an dieser Stelle
nicht diskutiert werden sollen. Eine Übersicht bietet Korhage (1997, 195ff.).
Neben den Messwerten ist der grundlegenden Methodik eine besondere Bedeutung
beizumessen. Tague-Sutcliffe (1992) bietet eine Zusammenstellung der methodischen
Entscheidungen, die bei der Konzeption eines Retrievaltests getroffen werden
müssen:
1. Testen oder nicht testen? Ein Test sollte nur durchgeführt werden, wenn
von ihm neue Erkenntnisse zu erwarten sind.
2. Welche Art von Test? Hier wird die Testmethode festgelegt.
3. Wie sollen die Variablen operationalisiert werden?
4. Welche Datenbank soll genutzt werden? Hier erfolgt die Auswahl der zu untersuchenden
Informationssysteme, im Kontext dieser Arbeit der zu untersuchenden Suchmaschinen.
5. Finden der Suchanfragen. Die Auswahl der Suchanfragen entscheidet darüber,
ob in dem Test tatsächliche Informationsbedüfnisse abgebildet werden
oder das Ergebnis künstlich verzerrt wird.
6. Durchführung der Suchanfragen.
7. Wie erfolgt die Testanordnung?
8. Wie werden die Daten erhoben?
9. Wie werden die Daten ausgewertet?
10. Wie werden die Ergebnisse präsentiert?
Diese Aufstellung macht deutlich, dass bei der Konzeption eines Retrievaltests
verschiedene Entscheidungen zu treffen sind, die die Ergebnisse und die Vergleichbarkeit
des Tests mit anderen Untersuchungen beeinflussen können. Jeder der Punkte
sollte gut durchdacht werden, um die für den Untersuchungszweck optimale
Testdurchführung zu gewährleisten.
Neben diesen für alle Retrievaltests grundsätzlichen Fragen sollten
auch die Eigenarten von Web-Suchmaschinen im Gegensatz zu anderen Information-Retrieval-Systemen
beachtet werden. Gordon u. Pathak (1999) nennen sieben solcher Evaluierungskriterien,
die von Hawking et al. (2001) auf fünf reduziert werden (Übersetzung
nach Griesbaum et al. 2002, 204):
1. Reale Informationsbedürfnisse von Nutzern sollen abgebildet werden.
2. Bei der Einbindung von Informationsvermittlern soll das originäre Informationsbedürfnis
sorgfältig mitgeteilt werden.
3. Es soll eine große Anzahl von Suchmaschinen genutzt werden.
4. Die wichtigsten Suchmaschinen sollen involviert sein.
5. Die Untersuchung soll gut und sorgfältig aufgebaut und durchgeführt
werden.
Mit den von Tague-Sutcliffe formulierten Leitfragen und den Spezifika für
die Durchführung von Suchmaschinen-Tests von Gordon u. Pathak in der Form
von Hawking et al. steht nun ein Instrumentarium zur Verfügung, um die
Güte ausgewählter Retrievaltests zu beurteilen. Allerdings soll bereits
an dieser Stelle vorangeschickt werden, dass hiermit die Tests nur immanent,
d.h. in der gewählten Methodik, verglichen werden können. Auf die
grundlegende Problematik der alleinigen Bewertung von Suchmaschinen mittels
Retrievaltests wird weiter unten noch ausführlich eingegangen werden.