
Die Anzahl der Suchmaschinen-Tests sowohl wissenschaftlicher als auch populärer
Natur ist in den letzten Jahren ins Unermessliche gewachsen (u.a. Singhal u.
Kaszkiel 2001, Wolff 2000; Ford, Miller, Moss 2002; Leighton u. Srivastava 1999,
Veritest 2000, Veritest 2003; Bager 2004). Daher kann hier kein umfassender
Überblick gegeben werden. Stattdessen sollen einige Tests, die erstens
methodisch besprechungswürdig sind, sich zweitens auf den deutschsprachigen
Raum beziehen und drittens eine gewisse Popularität erlangt haben, besprochen
werden.
Griesbaum et al. (2002) führen einen Retrievaltest an „deutschen"
Suchmaschinen durch. Dabei werden diejenigen Suchmaschinen, die im deutschen
Sprachraum am weitesten verbreitet sind, mit deutschsprachigen Suchanfragen
getestet.
Die ausgewählten Suchmaschinen sind AltaVista.de, Fireball.de, Google.de
und Lycos.de. Auffällig hierbei ist, dass einzig Fireball.de eine explizit
deutsche Suchmaschine ist (die sich weitgehend auf die Indexierung deutschsprachiger
Inhalte beschränkt), während die anderen untersuchten Suchmaschinen
international orientiert sind und schlicht eine deutsche Benutzeroberfläche
anbieten.
Die gestellten Suchanfragen „sind thematisch eher dem (sozial)wissenschaftlichen,
politischen Umfeld zuzuordnen." (Griesbaum et al., 219) Anfragen nach Produkten,
freizeit- und erotik-orientierte Anfragen sind explizit ausgenommen. Damit ergibt
sich die Einschränkung, dass der Test wohl nicht das tatsächliche
Nutzerverhalten abbildet.
Die gefundenen Treffer werden von Juroren ohne Kenntnis ihrer Herkunft nach
Relevanz bewertet. Dabei werden auch Treffer als relevant bewertet, die selbst
nicht als relevant eingestuft werden, jedoch auf ein relevantes Dokument verweisen.
Das Ergebnis des Tests fällt klar zu Gunsten von Google aus. Google ist
die einzige Suchmaschine, die im Vergleich zu den anderen signifikant besser
abschneidet. Gemessen wird sowohl die Anzahl der relevanten Treffer in Relation
zur Gesamt-Trefferzahl, die Precision auf den ersten 20 Trefferplätzen
(jeweils kumuliert), die Top20 Mean Average Precision und die Anzahl der insgesamt
mit mindestens einem relevanten Treffer beantworteten Suchanfragen. Einzig in
dieser letzten Kategorie schneidet AltaVista ein wenig besser ab als Google.
Bei den Ergebnissen der Precision fällt auf, dass selbst der Testsieger
Google nur eine Mean Average Precision von 0,551 erreicht - dies bedeutet schlicht,
dass etwa 45 Prozent der in den Top 20 ausgegebenen Treffer nicht relevant sind
und auch auf kein relevantes Dokument verweisen. Betrachtet man diese Werte
nicht in Relation zu den anderen, schlechter abschneidenden Suchmaschinen (Lycos:
0,488, Fireball: 0,391, AltaVista 0,396), sondern nur in Hinblick auf den Anteil
der relevanten Treffer, so ist das Ergebnis insgesamt als schlecht zu bezeichnen.
Auch wenn man die Auswertung auf die ersten drei ausgegebenen Treffer einschränkt,
so ergibt sich keine Mean Average Precision, die über 0.6 liegt.
Die Ergebnisse von Griesbaum et al. (2002) deuten aufgrund der nicht signifikanten
Unterschiede zwischen den drei Suchmaschinen AltaVista.de, Fireball.de und Lycos.de
sowie dem relativ geringen Abstand zwischen Google und den genannten drei anderen
auf ein generelles Problem des Relevance Rankings bei Suchmaschinen hin.
In einer Weiterführung des Tests mit einer ähnlichen Methodik (Griesbaum
2004) erreicht wiederum Google das beste Ergebnis, wobei der Abstand zwischen
den getesteten Suchmaschinen geringer ausfällt als in der ersten Untersuchung.
Die Mean Average Precision liegt beim Testsieger Google bei 0,65 (Lycos: 0,60;
AltaVista: 0,56). Diese Werte liegen zwar über denen der Untersuchung aus
dem Jahr 2002, bestätigen jedoch insgesamt den Befund der generellen Problematik
beim Relevance Ranking.
Problematisch an den Untersuchungen ist die Zählung der indirekt relevanten
Treffer. Zwar werden diese gesondert ausgewiesen, gehen aber in die Berechnung
der Mean Average Precision mit ein. Dies bedeutet, dass die sowieso schon schlechten
Werte bei einem Ausschluss der indirekten Treffer noch darunter liegen würden.
Dies bestätigt wiederum die These, dass der Test in erster Linie eine allgemein
schwache Performance der Suchmaschinen ergibt.
Der Retrievaltest von Machill, Neuberger, Schweiger und Wirth (2003) vergleicht
die zehn in Deutschland meistgenutzten Suchmaschinen anhand von Anfragen aus
zwei Themenfeldern. Dies sind „Rückenschmerzen" und „Arbeitslosigkeit".
Zu jedem Themenfeld werden 13 Suchanfragen generiert, die nach drei Kompetenzniveaus
in Anfragen von Anfängern, Fortgeschrittenen und Experten unterschieden
werden. Problematisch ist, dass mit insgesamt nur 26 Suchanfragen die beispielsweise
in TREC definierte und weitgehend akzeptiere Anforderung und an die Menge der
in Retrievaltests zu verwendenden Suchanfragen (nämlich mindestens 50)
nicht erfüllt wird.
Die Anfänger-Anfragen bestehen hauptsächlich aus Ein-Wort-Anfragen,
grundsätzlich handelt es sich um Anfragen ohne Operatoren. Die Fortgeschrittenen
stellen mit einer Ausnahme durchgehend Zwei-Wort-Anfragen, die Begriffe sind
durch den Operator UND verknüpft. Die Experten schließlich verwenden
mit einer Ausnahme jeweils drei Begriffe, diese sind entweder mit Operatoren
verknüpft oder es wird die Phrasensuche verwendet.
Beim Kompetenzniveau der Experten fällt zuerst eine fehlerhaft gestellte
Suchanfrage auf (für die Suche nach dem lateinischen Begriff für „Hexenschuss"
und dessen Definition wird das Suchargument „Hexenschuss ODER Definition
ODER lat." gewählt). Bei einer weiteren Anfrage hätten zumindest
Phrasensuche und Operator verknüpft werden sollen, anstatt die Begriffe
Hexenschuss, erste und Hilfe schlicht mit UND zu verbinden. Die Unterscheidung
zwischen Anfängern und Experten durch die Verwendung des UND-Operators
ist als sinnlos zu betrachten, da die untersuchten Suchmaschinen die UND-Verknüpfung
als Standardeinstellung verwenden. In zwei Fällen kam es dadurch zu einer
Doppelung der Anfrage, da diese einmal (von den Anfängern) ohne und einmal
(von den Fortgeschrittenen) mit UND-Verknüpfung gestellt wurde.
Festzuhalten ist also, dass die Unterscheidung der Suchanfragen nach Kompetenzniveaus
in dieser Form nicht sinnvoll ist und die nach den Kompetenzniveaus unterteilten
Ergebnisse nicht als gültig zu betrachten sind. Für das Gesamtergebnis
ist die oben genannte Einschränkung in Bezug auf die Zahl der Suchergebnisse
zu berücksichtigen.
Ausgewertet wurden die ersten 20 Treffer; auch Dokumente, die einen Link von
der gefundenen Seite entfernt waren, konnten unter der Bedingung, dass der Linktext
das gewünschte Stichwort oder ein Synonym davon enthielt, als relevant
gewertet werden.
Die ermittelte Top-20-Precision lag je nach Suchmaschine zwischen 24 und 42
Prozent. Auch hier fallen die ausgesprochen niedrigen Werte auf.
Stock und Stock (2000a) führen einen Known-Item-Retrievaltest durch. 20
Webseiten werden anhand von Suchbegriffen, die auf den jeweiligen Seiten an
prominenter Stelle stehen, untersucht. Gemessen wird das Vorkommen der entsprechenden
Dokumente innerhalb der Top 20 der Trefferlisten. Methodisch problematisch ist
hier der Cut-Off-Wert von 20; auch wenn das Dokument im Datenbestand einer Suchmaschine
vorhanden ist, muss es nicht notwendigerweise auch für die gewählte
Anfrage unter den ersten Treffern auftauchen. Dies zeigt sich insbesondere bei
Anfragen, die besonders viele Treffer generieren; dies wird auch von den Autoren
erkannt (Stock u. Stock 2000a, 28). Im Test erreicht Google mit 65 Prozent die
größte Availability, gefolgt von AltaVista (60 Prozent) und Northern
Light (55 Prozent). Alle weiteren untersuchten Suchmaschinen erreichen nur eine
Availability von maximal 50 Prozent, die meisten liegen weit darunter.
Die ersten beiden besprochenen Tests konzentrieren sich auf die Precision als
zentralen Maßstab der Qualität der untersuchten Suchmaschinen, während
der Test von Stock u. Stock das Maß der Availability verwendet. Die weiteren,
oben besprochenen Messwerte für die Performance von Information-Retrieval-Systemen
bleiben außen vor. Auffällig ist die nur geringe Anpassung der Testmethodik
an die Gegebenheiten des Web bzw. die besondere Problematik der Suchmaschinen
im Gegensatz zu klassischen Information-Retrieval-Systemen.
Leider liegen keine neueren wissenschaftlichen Retrievaltests vor, die der mittlerweile
veränderten Suchmaschinen-Landschaft (vgl. Kap. 2.1) Rechnung tragen. So
kann nur auf Tests in populären Magazinen (Bager 2004) und eigene Beobachtungen
zurückgegriffen werden. Danach ist davon auszugehen, dass sich die Precision
der Top-20-Ergebnisse der mittlerweile bedeutendsten Suchmaschinen Google, MSN
und Yahoo insbesondere bei populären Suchanfragen stark angeglichen hat.