Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 9.2 Aufbau und Ergebnisse ausgewählter Retrievaltests
< 9.1 Aufbau und Nutzen von Retrievaltests  |  Inhaltsverzeichnis  |  9.3 Kritik an Retrievaltests >
9.2 Aufbau und Ergebnisse ausgewählter Retrievaltests

Aufbau und Ergebnisse ausgewählter Retrievaltests

Die Anzahl der Suchmaschinen-Tests sowohl wissenschaftlicher als auch populärer Natur ist in den letzten Jahren ins Unermessliche gewachsen (u.a. Singhal u. Kaszkiel 2001, Wolff 2000; Ford, Miller, Moss 2002; Leighton u. Srivastava 1999, Veritest 2000, Veritest 2003; Bager 2004). Daher kann hier kein umfassender Überblick gegeben werden. Stattdessen sollen einige Tests, die erstens methodisch besprechungswürdig sind, sich zweitens auf den deutschsprachigen Raum beziehen und drittens eine gewisse Popularität erlangt haben, besprochen werden.
Griesbaum et al. (2002) führen einen Retrievaltest an „deutschen" Suchmaschinen durch. Dabei werden diejenigen Suchmaschinen, die im deutschen Sprachraum am weitesten verbreitet sind, mit deutschsprachigen Suchanfragen getestet.
Die ausgewählten Suchmaschinen sind AltaVista.de, Fireball.de, Google.de und Lycos.de. Auffällig hierbei ist, dass einzig Fireball.de eine explizit deutsche Suchmaschine ist (die sich weitgehend auf die Indexierung deutschsprachiger Inhalte beschränkt), während die anderen untersuchten Suchmaschinen international orientiert sind und schlicht eine deutsche Benutzeroberfläche anbieten.
Die gestellten Suchanfragen „sind thematisch eher dem (sozial)wissenschaftlichen, politischen Umfeld zuzuordnen." (Griesbaum et al., 219) Anfragen nach Produkten, freizeit- und erotik-orientierte Anfragen sind explizit ausgenommen. Damit ergibt sich die Einschränkung, dass der Test wohl nicht das tatsächliche Nutzerverhalten abbildet.
Die gefundenen Treffer werden von Juroren ohne Kenntnis ihrer Herkunft nach Relevanz bewertet. Dabei werden auch Treffer als relevant bewertet, die selbst nicht als relevant eingestuft werden, jedoch auf ein relevantes Dokument verweisen.
Das Ergebnis des Tests fällt klar zu Gunsten von Google aus. Google ist die einzige Suchmaschine, die im Vergleich zu den anderen signifikant besser abschneidet. Gemessen wird sowohl die Anzahl der relevanten Treffer in Relation zur Gesamt-Trefferzahl, die Precision auf den ersten 20 Trefferplätzen (jeweils kumuliert), die Top20 Mean Average Precision und die Anzahl der insgesamt mit mindestens einem relevanten Treffer beantworteten Suchanfragen. Einzig in dieser letzten Kategorie schneidet AltaVista ein wenig besser ab als Google.
Bei den Ergebnissen der Precision fällt auf, dass selbst der Testsieger Google nur eine Mean Average Precision von 0,551 erreicht - dies bedeutet schlicht, dass etwa 45 Prozent der in den Top 20 ausgegebenen Treffer nicht relevant sind und auch auf kein relevantes Dokument verweisen. Betrachtet man diese Werte nicht in Relation zu den anderen, schlechter abschneidenden Suchmaschinen (Lycos: 0,488, Fireball: 0,391, AltaVista 0,396), sondern nur in Hinblick auf den Anteil der relevanten Treffer, so ist das Ergebnis insgesamt als schlecht zu bezeichnen. Auch wenn man die Auswertung auf die ersten drei ausgegebenen Treffer einschränkt, so ergibt sich keine Mean Average Precision, die über 0.6 liegt.
Die Ergebnisse von Griesbaum et al. (2002) deuten aufgrund der nicht signifikanten Unterschiede zwischen den drei Suchmaschinen AltaVista.de, Fireball.de und Lycos.de sowie dem relativ geringen Abstand zwischen Google und den genannten drei anderen auf ein generelles Problem des Relevance Rankings bei Suchmaschinen hin.
In einer Weiterführung des Tests mit einer ähnlichen Methodik (Griesbaum 2004) erreicht wiederum Google das beste Ergebnis, wobei der Abstand zwischen den getesteten Suchmaschinen geringer ausfällt als in der ersten Untersuchung. Die Mean Average Precision liegt beim Testsieger Google bei 0,65 (Lycos: 0,60; AltaVista: 0,56). Diese Werte liegen zwar über denen der Untersuchung aus dem Jahr 2002, bestätigen jedoch insgesamt den Befund der generellen Problematik beim Relevance Ranking.
Problematisch an den Untersuchungen ist die Zählung der indirekt relevanten Treffer. Zwar werden diese gesondert ausgewiesen, gehen aber in die Berechnung der Mean Average Precision mit ein. Dies bedeutet, dass die sowieso schon schlechten Werte bei einem Ausschluss der indirekten Treffer noch darunter liegen würden. Dies bestätigt wiederum die These, dass der Test in erster Linie eine allgemein schwache Performance der Suchmaschinen ergibt.
Der Retrievaltest von Machill, Neuberger, Schweiger und Wirth (2003) vergleicht die zehn in Deutschland meistgenutzten Suchmaschinen anhand von Anfragen aus zwei Themenfeldern. Dies sind „Rückenschmerzen" und „Arbeitslosigkeit". Zu jedem Themenfeld werden 13 Suchanfragen generiert, die nach drei Kompetenzniveaus in Anfragen von Anfängern, Fortgeschrittenen und Experten unterschieden werden. Problematisch ist, dass mit insgesamt nur 26 Suchanfragen die beispielsweise in TREC definierte und weitgehend akzeptiere Anforderung und an die Menge der in Retrievaltests zu verwendenden Suchanfragen (nämlich mindestens 50) nicht erfüllt wird.
Die Anfänger-Anfragen bestehen hauptsächlich aus Ein-Wort-Anfragen, grundsätzlich handelt es sich um Anfragen ohne Operatoren. Die Fortgeschrittenen stellen mit einer Ausnahme durchgehend Zwei-Wort-Anfragen, die Begriffe sind durch den Operator UND verknüpft. Die Experten schließlich verwenden mit einer Ausnahme jeweils drei Begriffe, diese sind entweder mit Operatoren verknüpft oder es wird die Phrasensuche verwendet.
Beim Kompetenzniveau der Experten fällt zuerst eine fehlerhaft gestellte Suchanfrage auf (für die Suche nach dem lateinischen Begriff für „Hexenschuss" und dessen Definition wird das Suchargument „Hexenschuss ODER Definition ODER lat." gewählt). Bei einer weiteren Anfrage hätten zumindest Phrasensuche und Operator verknüpft werden sollen, anstatt die Begriffe Hexenschuss, erste und Hilfe schlicht mit UND zu verbinden. Die Unterscheidung zwischen Anfängern und Experten durch die Verwendung des UND-Operators ist als sinnlos zu betrachten, da die untersuchten Suchmaschinen die UND-Verknüpfung als Standardeinstellung verwenden. In zwei Fällen kam es dadurch zu einer Doppelung der Anfrage, da diese einmal (von den Anfängern) ohne und einmal (von den Fortgeschrittenen) mit UND-Verknüpfung gestellt wurde.
Festzuhalten ist also, dass die Unterscheidung der Suchanfragen nach Kompetenzniveaus in dieser Form nicht sinnvoll ist und die nach den Kompetenzniveaus unterteilten Ergebnisse nicht als gültig zu betrachten sind. Für das Gesamtergebnis ist die oben genannte Einschränkung in Bezug auf die Zahl der Suchergebnisse zu berücksichtigen.
Ausgewertet wurden die ersten 20 Treffer; auch Dokumente, die einen Link von der gefundenen Seite entfernt waren, konnten unter der Bedingung, dass der Linktext das gewünschte Stichwort oder ein Synonym davon enthielt, als relevant gewertet werden.
Die ermittelte Top-20-Precision lag je nach Suchmaschine zwischen 24 und 42 Prozent. Auch hier fallen die ausgesprochen niedrigen Werte auf.
Stock und Stock (2000a) führen einen Known-Item-Retrievaltest durch. 20 Webseiten werden anhand von Suchbegriffen, die auf den jeweiligen Seiten an prominenter Stelle stehen, untersucht. Gemessen wird das Vorkommen der entsprechenden Dokumente innerhalb der Top 20 der Trefferlisten. Methodisch problematisch ist hier der Cut-Off-Wert von 20; auch wenn das Dokument im Datenbestand einer Suchmaschine vorhanden ist, muss es nicht notwendigerweise auch für die gewählte Anfrage unter den ersten Treffern auftauchen. Dies zeigt sich insbesondere bei Anfragen, die besonders viele Treffer generieren; dies wird auch von den Autoren erkannt (Stock u. Stock 2000a, 28). Im Test erreicht Google mit 65 Prozent die größte Availability, gefolgt von AltaVista (60 Prozent) und Northern Light (55 Prozent). Alle weiteren untersuchten Suchmaschinen erreichen nur eine Availability von maximal 50 Prozent, die meisten liegen weit darunter.
Die ersten beiden besprochenen Tests konzentrieren sich auf die Precision als zentralen Maßstab der Qualität der untersuchten Suchmaschinen, während der Test von Stock u. Stock das Maß der Availability verwendet. Die weiteren, oben besprochenen Messwerte für die Performance von Information-Retrieval-Systemen bleiben außen vor. Auffällig ist die nur geringe Anpassung der Testmethodik an die Gegebenheiten des Web bzw. die besondere Problematik der Suchmaschinen im Gegensatz zu klassischen Information-Retrieval-Systemen.
Leider liegen keine neueren wissenschaftlichen Retrievaltests vor, die der mittlerweile veränderten Suchmaschinen-Landschaft (vgl. Kap. 2.1) Rechnung tragen. So kann nur auf Tests in populären Magazinen (Bager 2004) und eigene Beobachtungen zurückgegriffen werden. Danach ist davon auszugehen, dass sich die Precision der Top-20-Ergebnisse der mittlerweile bedeutendsten Suchmaschinen Google, MSN und Yahoo insbesondere bei populären Suchanfragen stark angeglichen hat.

< 9.1 Aufbau und Nutzen von Retrievaltests  |  Inhaltsverzeichnis  |  9.3 Kritik an Retrievaltests >