Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 11.2 Funktionsfähigkeit der Datumsbeschränkung in Suchmaschinen
< 11.1 Bedeutung der Beschränkung nach der Aktualität der Dokumente  |  Inhaltsverzeichnis  |  11.3 Möglichkeiten der Ermittlung von Datumsangaben in Web-Dokumenten >
11.2 Funktionsfähigkeit der Datumsbeschränkung in Suchmaschinen

Funktionsfähigkeit der Datumsbeschränkung in Suchmaschinen

Die Problematik der Datumsermittlung durch Suchmaschinen und die Probleme, die dadurch bei der Recherche auftauchen, sollen anhand einer Untersuchung, die die Funktionsfähigkeit der Datumsbeschränkung in verschiedenen Suchmaschinen untersucht, beschrieben werden. Die hier präsentierten Ergebnisse basieren auf Lewandowski (2004b); der Text stellt eine überarbeitete Fassung dieses Aufsatzes dar.
Für die Untersuchung wurden 50 Suchanfragen ausgewählt und an vier verschiedene Suchmaschinen gestellt; einmal ohne Datumsbeschränkung, einmal mit der Einschränkung auf Dokumente, die innerhalb der letzten sechs Monate erstellt wurden. Der Test wurde am 3. April 2004 durchgeführt.
Für die ersten 20 ausgegebenen Treffer sollten Aktualitätsquoten berechnet werden, die den Anteil derjenigen Dokumente, die aus dem letzten halben Jahr stammen, wiedergeben. Damit sollte festgestellt werden, ob sich die Datumseinschränkung für einen Rechercheur „lohnt", d.h. ob es gelingt, mit dieser Einschränkung tatsächlich nur aktuelle Dokumente zu finden und entsprechend inaktuelle Dokumente auszuschließen. Letztlich sollte bestimmt werden, welche Suchmaschine am Geeignetsten für datumsbeschränkte Suchanfragen ist.
In der Untersuchung sollten alle gefundenen Seiten auf ein Aktualisierungsdatum hin untersucht werden. War ein solches vorhanden, wurde es notiert und ging in die Auswertung mit ein. Wenn kein Aktualisierungsdatum vorhanden war oder dieses nicht eindeutig war, ging der entsprechende Treffer nicht in die Auswertung mit ein.

Methodik

Aktualisierungsdatum. Im Folgenden soll unter dem Datum eines Dokuments der Aktualisierungszeitpunkt inhaltlicher Elemente des Dokuments (also in der Regel des Texts) verstanden werden; andere Aktualisierungen wie beispielsweise die Anpassung des Layouts oder die Aktualisierung des Copyright-Vermerks sollen nicht als Aktualisierung gewertet werden.
Auswahl der Suchmaschinen. Für diese Untersuchung wurden die Suchmaschinen Google, Yahoo und Teoma ausgewählt. Dies waren zum Untersuchungszeitpunkt diejenigen Suchmaschinen, die die weltweit größten und am meisten benutzten Indizes anboten (vgl. auch Sullivan 2003).Unberücksichtigt blieben Suchmaschinen, die sich speziell auf einen Sprachraum oder ein Thema beschränken. Zum Zeitpunkt der Datenerhebung (April 2004) existierte MSN noch nicht als eigene Suchmaschine, sondern basierte auf zugekauften Treffern. Sie wurde deshalb in der Untersuchung nicht berücksichtigt.
Auswahl der Suchanfragen. Die Auswahl der Testfragen sollte zufällig erfolgen. Die Suchanfragen für diese Untersuchung wurden über die "Live-Suche" von Fireball ausgewählt, in der Suchanfragen angezeigt werden, die jeweils aktuell an Fireball gestellt werden. Diese Vorgehensweise gewährleistet die zufällige Auswahl der Suchanfragen und die Orientierung am tatsächlichen Suchverhalten der Nutzer. Aufgrund der Zielsetzung von Fireball, das deutschsprachige Web zu erschließen und entsprechende Suchanfragen zu beantworten, waren diese größtenteils deutschsprachig.
Die Anfragen wurden am 15.3.2004 ermittelt; ausgeschlossen wurden Anfragen in der Bildersuche und im internationalen Index. Beide werden in der Live-Suche gesondert angegeben, so dass die Auswahl der Anfragen an den deutschsprachigen Index als zuverlässig anzusehen ist. Weiterhin ausgeschlossen wurden Suchanfragen, die auf ein pornographisches Interesse hindeuteten. Schließlich wurden die gefundenen Suchanfragen von Dubletten gereinigt.
Mittels dieser Methode wurden insgesamt 50 Anfragen ausgewählt, die für die weitere Untersuchung genutzt wurden. Für eventuell auftauchende Problemfälle wie z.B. einem Ergebnis von null Treffern für eine Suchanfrage wurden weitere Suchanfragen vorbereitet, die als Ersatz verwendet werden konnten.
Testaufbau. Für die Untersuchung wurden die 50 ausgewählten Suchanfragen an die unterschiedlichen Suchmaschinen gerichtet. Ausgewertet wurden die ersten 20 Plätze der Trefferlisten jeweils in der Standardsuche und in der Suche nach Dokumenten der letzten sechs Monate.
Die Standardeinstellungen der Suchmaschinen wurden beibehalten, so dass Dokumente in einer beliebigen Sprache gefunden wurden. Bei Yahoo wurde jeweils die „weltweite Suche“ manuell ausgewählt.
Für die Auswertung wurden die jeweils 20 höchstplatzierten Treffer aus den Trefferlisten entnommen. Wurden 20 oder weniger Treffer ausgegeben, so wurde die Trefferliste vollständig ausgewertet.
Bei der Auswertung der Treffer wurde keinerlei Überprüfung der Relevanz der Treffer vorgenommen. Das einzige Kriterium der Auswertung war das Vorkommen einer Datumsangabe im Dokument. Berücksichtigt wurden alle ausgegebenen Dateitypen. Bei der Durchführung des Tests wurden allerdings nur Ergebnisse in den Formaten HTML und PDF gefunden.
Wenn in den Trefferlisten tote Links auftauchten, so wurden diese ignoriert. Die Trefferliste wurde stets so weit ausgewertet, bis der Schwellenwert von 20 abrufbaren Dokumenten erreicht wurde. Bezahlte Treffer ("sponsored listings" etc.), die über, unter oder neben den Trefferlisten angezeigt wurden, wurden in der Auswertung ignoriert.
Auffälligkeiten bei einzelnen Suchmaschinen. Schon bei einem ersten Stichprobentest im Vorfeld der Untersuchung fiel auf, dass bei Google die Datumsbeschränkung in der erweiterten Suche vollkommen wirkungslos war. Das heißt: gleichgültig, ob das Datum eingeschränkt wurde oder nicht, blieben die Ergebnisse und deren Anordnung gleich. Es handelte sich dabei nicht um einen temporären „Bug“; dieser Fehler bestand seit mindestens November 2003 und konnte bis mindestens Mai 2004 beobachtet werden.
Für die Untersuchung bestand trotzdem eine Möglichkeit, die Suche doch noch erfolgreich über das Datum einzuschränken; dazu musste die Datumsangabe jedoch in Form eines Befehls eingegeben werden. Allerdings verwendet Google intern julianische Datumsangaben (Calishain u. Dornfest 2003, 35). Alle Suchanfragen müssen also erst in dieses Format übersetzt werden. Da dies manuell nicht zu leisten ist, gibt es Interfaces wie beispielsweise das „Google Ultimate Interface“ , die eine einfache Suche nach dem Datum ermöglichen. Dieses Interface wurde für die im Test verwendeten Anfragen benutzt .
Auswertung der Datumsangaben. Die den Test durchführenden Personen wurden gebeten, auf den gefundenen Webseiten nach Datumsangaben zu suchen. Wenn ein Aktualisierungsdatum identifiziert werden konnte, sollte dies auf einem Erhebungsbogen notiert werden. Folgende Regeln wurden angewendet:
Wenn das Dokument ein explizites Änderungsdatum im Text enthielt, wurde dieses gewertet. Ein solches Änderungsdatum konnte beispielsweise durch einen Hinweis am Seitenanfang oder -ende wie "last modified: ...." ausgedrückt werden. Auch bestimmte Texttypen wie Nachrichtenmeldungen, die in der Regel datiert sind, konnten entsprechend ausgewertet werden.
Allerdings enthalten einige Seiten automatisch generierte Datumsangaben, die keine echte Aktualisierung anzeigen. Ausgeschieden wurden solche Seiten, die neben dem aktuellen Datum auch die aktuelle Uhrzeit enthielten. Weiterhin ausgeschieden wurden Seiten mit einer Datumsangabe, die aufgrund des Inhalts eindeutig als automatisch generiert identifiziert werden konnten. Seiten mit automatischer Datumsangabe wurden gesondert gezählt.
Enthielt das untersuchte Dokument einen Copyright-Hinweise, so bestand dieser in nahezu allen Fällen lediglich aus einer Jahreszahl. In vielen Fällen wird dieser Hinweis automatisch generiert und für alle Dokumente einer Site auf das aktuelle Jahr gesetzt. Copyright-Hinweise mit der Jahresangabe 2004 oder 2003 wurden daher nicht in die Auswertung mit einbezogen; lautete der entsprechende Hinweis jedoch 2002 oder älter, so wurde dies als Zeichen für die Inaktualität der Seite gewertet und ging in die Wertung mit ein.
Teils wurden auf den Seiten auch Datumsangaben gefunden, die in der Zukunft lagen. Solche Angaben wurden ignoriert.
Die Testdurchführenden wurden darum gebeten, die in den europäischen und US-amerikanischen Datumsangaben bestehenden Unterschiede (Reihenfolge von Tag und Monat) zu beachten.
Mit dieser Methode konnte festgestellt werden, dass zwischen 28 und 33 Prozent der untersuchten Seiten eine Datumsangabe beinhalten (vgl. Tabellen 11.1 und 11.2). Die Unterschiede zwischen der Betrachtung derjenigen Seiten, die bei der uneingeschränkten Suche gefunden wurden, und derjenigen, die bei der eingeschränkten Suche gefunden wurden, sind nicht signifikant. In einer älteren Studie, die auch untersuchte, welcher Anteil der Web-Dokumente ein Aktualisierungsdatum enthält, lag dieser Wert bei 43,6 Prozent bei einer Basis von 105 untersuchten Seiten (Tan, Foo, Hui 2001, 10). Dabei wurde festgestellt, dass sich ein Aktualisierungsdatum eher auf der Hauptseite einer Website findet als auf den Unterseiten.
Mit etwa 30 Prozent der gefundenen Seiten, die eine Datumsangabe enthalten, wurde eine Anzahl von Dokumenten gefunden, die eine Auswertung der Leistungsfähigkeit der Suchmaschinen auf dieser Basis möglich macht. Eine statistische Überprüfung ergibt, dass die Unterschiede zwischen den einzelnen Suchmaschinen hinsichtlich des Anteils der prüfbaren Seiten nicht signifikant sind.

Tabelle 11.1. Anteil der Seiten mit Datumsangaben im gesamten Index

Suchmaschine Anzahl untersuchte Treffer für die 50 Beispielanfragen* Anzahl der Seiten mit Datumsangabe Anteil der Seiten mit Datumsangabe in Prozent
Teoma 933 313 33,55
Google 978 308 31,49
Yahoo 979 296 30,23

* Da je Suchanfrage die ersten 20 Treffer ausgewertet wurden, konnten bei den 50 Anfragen insgesamt maximal 1.000 Treffer erreicht werden. Bei einigen Suchanfragen wurden jedoch weniger als 20 Treffer gefunden, so dass sich die Zahl entsprechend reduziert und je nach Suchmaschine variiert.

Tabelle 11.2. Anteil der Seiten mit Datumsangaben; nur Dokumente, die von den Suchmaschinen innerhalb der letzten sechs Monate datiert wurden.

Suchmaschine Anzahl untersuchte Treffer für die 50 Beispielanfragen* Anzahl der Seiten mit Datumsangabe Anteil der Seiten mit Datumsangabe in Prozent
Teoma 933 308 33,01
Google 971 279 28,73
Yahoo 972 284 29,22

* Da je Suchanfrage die ersten 20 Treffer ausgewertet wurden, konnten bei den 50 Anfragen insgesamt maximal 1.000 Treffer erreicht werden. Bei einigen Suchanfragen wurden jedoch weniger als 20 Treffer gefunden, so dass sich die Zahl entsprechend reduziert und je nach Suchmaschine variiert.

Ergebnisse

Aktualität der Dokumente. Es wurde gemessen, wie viele der Dokumente aus den Top 20 der Trefferlisten tatsächlich aus den letzten sechs Monaten stammen. Der Anteil dieser Dokumente am Gesamt der untersuchten Dokumente wird im Weiteren als Aktualitätsquote bezeichnet. Diese Quote wurde sowohl für die Suche mit als auch die Suche ohne Datumsbeschränkung errechnet.

Tabelle 11.3. Aktualitätsquoten der untersuchten Suchmaschinen

Suchmaschine Aktualitätsquote Standardsuche Aktualitätsquote bei Suche mit Datumsbeschränkung Steigerung in Prozent
Teoma 37,06 37,34 0,76
Google 48,70 59,50 22,18
Yahoo 40,54 54,23 33,77

Teoma findet bei der Suche mit Datumsbeschränkung keinen höheren Anteil an aktuellen Dokumenten als bei der Suche ohne Datumsbeschränkung. Auch bietet Teoma den geringsten Anteil an aktuellen Dokumenten. Yahoo liegt bei der uneingeschränkten Suche bei einer Aktualitätsquote von 40,5 Prozent, Google bei 48,7 Prozent. Bei Google stammt also schon in der uneingeschränkten Suche beinahe jedes zweite Dokument aus dem letzten halben Jahr.
Beschränkt man die Suche auf Dokumente des letzten halben Jahres, so kann Yahoo die Aktualitätsquote auf 54,2 Prozent steigern, Google sogar auf 59,5 Prozent. Dies bedeutet allerdings auch, dass selbst bei der hier am besten bewerteten Suchmaschine Google noch 40 Prozent der gefundenen Dokumente falsch zugeordnet wurden, d.h. nicht innerhalb des eingestellten Zeitraums zu datieren sind.
Betrachtet man die Steigerung der Aktualitätsquote, so zeigt sich, dass Yahoo hier den höchsten Wert vorweisen kann. Während Google mit 59,50 Prozent aktueller Dokumente zwar absolut besser abschneidet, kann Yahoo eine Steigerung von 33,77 Prozent verzeichnen. Google scheint hingegen generell Dokumente, die in kürzeren Abständen aktualisiert werden, zu bevorzugen.
Betrachtet man statt der insgesamt gefundenen Dokumente die Ergebnisse der einzelnen Suchanfragen, zeigt sich bei den einzelnen Suchmaschinen eine unterschiedliche Verteilung (siehe Abbildungen 11.1 bis 11.3). Die Aktualitätsquote schwankt bei allen Suchmaschinen zwischen den einzelnen Suchanfragen erheblich. Keine Suchmaschine bewegt sich durchweg bei einer mittleren oder hohen Aktualitätsquote. Google und Teoma gelingt es allerdings häufiger als Yahoo, eine Aktualitätsquote von 100 Prozent zu erreichen. Dafür fällt aber bei beiden Suchmaschinen auch auf, dass sie deutlich öfter als Yahoo eine Quote von weniger als zehn Prozent erreichen. Die Verteilung bei Yahoo ist am ehesten gleichmäßig.

Abb. 11.1. Verteilung der Aktualitätsquoten nach Suchanfragen bei Google

Abb. 11.2. Verteilung der Aktualitätsquote nach Suchanfragen bei Teoma

Abb. 11.3. Verteilung der Aktualitätsquote nach Suchanfragen bei Yahoo

Fehlerquote. Für den Suchenden stellt sich nicht nur die Frage, welcher Anteil der gefundenen Dokumente richtig zugeordnet werden konnte, sondern auch die Frage nach den offensichtlich falsch zugeordneten Dokumenten. Bisher wurde als Grundlage für den Sucherfolg der Suchmaschinen nur die Quote der aktuellen Dokumente am Gesamt aller gefundenen Dokumente gewertet. Das Gegenstück zur Aktualitätsquote ist die Fehlerquote – sie misst den Anteil der falsch zugeordneten Dokumente.
Bei Ansicht der Fehlerquoten (Tabelle 11.4) zeigt sich, dass die Suchmaschine Teoma deutlich mehr Dokumente falsch einschätzt als sie richtig zuordnen kann. Die Fehlerquote liegt bei 62,66 Prozent. Besser schneidet Yahoo ab; hier liegt die Fehlerquote allerdings auch noch bei 45,77 Prozent. Selbst beim Testsieger Google mit der geringsten Fehlerquote werden noch 40,5 Prozent der Dokumente falsch zugeordnet. Die statistische Überprüfung ergibt, dass die Unterschiede signifikant sind.

Tabelle 11.4. Fehlerquoten bei der Datumsbegrenzung

Suchmaschine richtig eingeschätzt falsch eingeschätzt Fehlerquote in Prozent
Teoma 115 193 62,66
Google 166 113 40,50
Yahoo 154 130 45,77

Die hohen Fehlerquoten aller Suchmaschinen bestätigen die Vermutung, dass die Suchmaschinen das tatsächliche Datum eines Dokuments nur schwer ermitteln können.
Für den Nutzer stellt sich aufgrund der insgesamt unbefriedigenden Ergebnisse aller Suchmaschinen die Frage, ob er die Datumsbeschränkung benutzen soll oder nicht. Tabelle 11.5 zeigt, in wie vielen Fällen es sich lohnt, die Suche entsprechend einzuschränken oder nicht. Nicht mit in die Auswertung gingen hier diejenigen Suchanfragen ein, bei denen sowohl ohne als auch mit Beschränkung eine Quote von 100 Prozent erreicht wurde.
Yahoo schneidet in dieser Auswertung am besten ab. Allerdings verbessert sich auch bei dieser Suchmaschine das Ergebnis in nur etwas mehr als zwei Dritteln der Anfragen. Interessant ist der bei allen untersuchten Suchmaschinen relativ hohe Anteil von Anfragen, bei denen sich das Ergebnis bei der Datumsbeschränkung verschlechtert sowie der Anteil der Anfragen, bei denen die Datumsbeschränkung nichts verändert.

Tabelle 11.5. Verbesserung bzw. Verschlechterung der Aktualitätsquote durch die Datumsbeschränkung

Suchmaschine schlechter gleich besser
Teoma 14 17 16
Google 8 12 25
Yahoo 7 10 30

Sieger je Anfrage. Abbildung 11.4 zeigt, welche Suchmaschine wie viele Suchanfragen im Vergleich am besten beantworten konnte, unabhängig davon, welche Aktualitätsquote erreicht wurde. Als am besten gilt hier diejenige Suchmaschine, die in der datumsbeschränkten Suche die beste Aktualitätsquote erreicht. Es wurden jeweils Ränge vergeben; wenn zwei Suchmaschinen die gleiche Aktualitätsquote erreichten, erhielten sie den gleichen Rangplatz und der dritten Suchmaschine wurde der nächst niedrige Rangplatz zugewiesen. Wenn die Aktualitätsquote bei einer Suchmaschine bei Null lag, wurde auf jeden Fall der dritte Platz zugewiesen.
Es zeigt sich, dass Yahoo bei insgesamt 24 Suchanfragen den ersten Platz belegt, Google folgt mit 18 ersten Platzierungen. Zwar konnte ja bereits festgestellt werden, dass Google insgesamt die höchste Aktualitätsquote erreicht, dies trifft jedoch nicht auf alle Suchanfragen zu. Aus der Verteilung der Sieger nach Suchanfragen lässt sich keine eindeutige Empfehlung aussprechen. Auch der Gewinner Yahoo belegt nur in knapp der Hälfte der Suchanfragen den ersten Platz. Es scheint also stark von der Suchanfrage abzuhängen, welche Suchmaschine die beste Wahl in Bezug auf aktuelle Dokumente ist. Selbst Teoma, also die Suchmaschine, die insgesamt am schlechtesten abschneidet, liefert in 30 Prozent der Suchanfragen (mit) das beste Ergebnis.

Abb. 11.4. Rangplätze in Bezug auf die Datumsbeschränkung der 50 Suchanfragen

 

< 11.1 Bedeutung der Beschränkung nach der Aktualität der Dokumente  |  Inhaltsverzeichnis  |  11.3 Möglichkeiten der Ermittlung von Datumsangaben in Web-Dokumenten >