3.4 Aktualität der Suchmaschinen
Aktualität der Suchmaschinen
Eine wesentliche Herausforderung für die Suchmaschinen ist es, ihre Indizes
nicht nur umfangreich zu gestalten, sondern auch aktuell zu halten. Gerade durch
die enormen Indexgrößen wird dies zu einem Problem, dessen Lösung
neben enormer Rechenleistung intelligente Ansätze des Crawlings benötigt,
so dass Seiten, die eine hohe Veränderungsfrequenz haben, öfter indiziert
werden als statische Seiten oder solche, die nur eine seltene Aktualisierung
erfahren.
Ntoulas, Cho und Olston (2004) unterscheiden zwei Kennzahlen, um festzustellen,
wie stark sich Seiten verändert haben: Veränderungsfrequenz (frequency
of change) und Veränderungsgrad (degree of change) . Dabei stellen sie
fest, dass die von den meisten Suchmaschinen beachtete Veränderungsfrequenz
kein guter Indikator für den Veränderungsgrad ist. Oft finden nur
kleinste Veränderungen statt; zu denken ist hier beispielsweise an eine
automatische Aktualisierung der auf einer Seite enthaltenen Datumsangabe.
Allerdings stellen die Autoren eine signifikante Übereinstimmung zwischen
dem in der Vergangenheit gemessenen und dem für die Zukunft zu erwartenden
Veränderungsgrad fest. Diese Korrelation variiert aber signifikant zwischen
unterschiedlichen Seiten.
Aus den von Ntoulas, Cho und Olston (2004) auf das gesamte Web hochgerechneten
Ergebnissen ergibt sich, dass pro Woche 320 Mio. neue Seiten entstehen (wobei
auch auf eine andere URL verschobene Seiten zu diesen gerechnet werden). Ebenso
fanden sie heraus, dass 20 Prozent der heute vorhandenen Seiten in einem Jahr
nicht mehr vorhanden sein werden. Inhaltlich rechnen sie damit, dass innerhalb
eines Jahres 50 Prozent des Webs neu sein werden. Noch schneller ändert
sich allerdings die Linkstruktur: innerhalb eines Jahres werden 80 Prozent aller
Links neu oder verändert sein. Die Untersuchung von Tan, Foo und Hui (2001)
kommt zu dem Ergebnis, dass innerhalb eines Monats etwa 45 Prozent der von ihnen
untersuchten Webseiten verändert wurden.
Die Untersuchungen von Greg Notess (Notess 2001, Notess 2003b) machen allerdings
deutlich, dass die bestehenden Suchmaschinen nicht in der Lage sind, mit den
Aktualisierungsfrequenzen der Inhalte mitzuhalten. Für die Untersuchungen
werden Seiten ausgewählt, die täglich aktualisiert werden und deren
Aktualisierungsdatum auf der Seite explizit enthalten ist. Zwar haben die meisten
Suchmaschinen einige der Seiten in den letzten Tagen indexiert, bei den meisten
Seiten zeigt sich jedoch eine Verzögerung von etwa 30 Tagen. Manche Seiten
wurden sogar über einen noch längeren Zeitraum nicht besucht.
Die vorgestellten Untersuchungen unterstreichen die Bedeutung eines aktuellen
Index für jede Suchmaschine. Innerhalb kurzer Zeit finden weitreichende
Veränderungen sowohl auf der Ebene der URLs als auch auf der Ebene der
Verlinkung und der Inhaltsebene statt. Die Aktualität des Index ist also
ein bedeutender Faktor für die Qualität einer Suchmaschine. Beobachtungen
der gängigen Suchmaschinen haben gezeigt, dass diese teilweise zwischen
einem häufigen, aber eher oberflächlichen Crawling, bei dem vor allem
die aktualisierten Startseiten der Angebote indexiert werden, und einem sog.
deep crawl, bei in größeren Abständen die Websites möglichst
vollständig erfasst werden, unterscheiden.