Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 3.4 Aktualität der Suchmaschinen
< 3.3 Crawling  |  Inhaltsverzeichnis  |  3.5 Das Invisible Web >
3.4 Aktualität der Suchmaschinen

Aktualität der Suchmaschinen

Eine wesentliche Herausforderung für die Suchmaschinen ist es, ihre Indizes nicht nur umfangreich zu gestalten, sondern auch aktuell zu halten. Gerade durch die enormen Indexgrößen wird dies zu einem Problem, dessen Lösung neben enormer Rechenleistung intelligente Ansätze des Crawlings benötigt, so dass Seiten, die eine hohe Veränderungsfrequenz haben, öfter indiziert werden als statische Seiten oder solche, die nur eine seltene Aktualisierung erfahren.
Ntoulas, Cho und Olston (2004) unterscheiden zwei Kennzahlen, um festzustellen, wie stark sich Seiten verändert haben: Veränderungsfrequenz (frequency of change) und Veränderungsgrad (degree of change) . Dabei stellen sie fest, dass die von den meisten Suchmaschinen beachtete Veränderungsfrequenz kein guter Indikator für den Veränderungsgrad ist. Oft finden nur kleinste Veränderungen statt; zu denken ist hier beispielsweise an eine automatische Aktualisierung der auf einer Seite enthaltenen Datumsangabe.
Allerdings stellen die Autoren eine signifikante Übereinstimmung zwischen dem in der Vergangenheit gemessenen und dem für die Zukunft zu erwartenden Veränderungsgrad fest. Diese Korrelation variiert aber signifikant zwischen unterschiedlichen Seiten.
Aus den von Ntoulas, Cho und Olston (2004) auf das gesamte Web hochgerechneten Ergebnissen ergibt sich, dass pro Woche 320 Mio. neue Seiten entstehen (wobei auch auf eine andere URL verschobene Seiten zu diesen gerechnet werden). Ebenso fanden sie heraus, dass 20 Prozent der heute vorhandenen Seiten in einem Jahr nicht mehr vorhanden sein werden. Inhaltlich rechnen sie damit, dass innerhalb eines Jahres 50 Prozent des Webs neu sein werden. Noch schneller ändert sich allerdings die Linkstruktur: innerhalb eines Jahres werden 80 Prozent aller Links neu oder verändert sein. Die Untersuchung von Tan, Foo und Hui (2001) kommt zu dem Ergebnis, dass innerhalb eines Monats etwa 45 Prozent der von ihnen untersuchten Webseiten verändert wurden.
Die Untersuchungen von Greg Notess (Notess 2001, Notess 2003b) machen allerdings deutlich, dass die bestehenden Suchmaschinen nicht in der Lage sind, mit den Aktualisierungsfrequenzen der Inhalte mitzuhalten. Für die Untersuchungen werden Seiten ausgewählt, die täglich aktualisiert werden und deren Aktualisierungsdatum auf der Seite explizit enthalten ist. Zwar haben die meisten Suchmaschinen einige der Seiten in den letzten Tagen indexiert, bei den meisten Seiten zeigt sich jedoch eine Verzögerung von etwa 30 Tagen. Manche Seiten wurden sogar über einen noch längeren Zeitraum nicht besucht.
Die vorgestellten Untersuchungen unterstreichen die Bedeutung eines aktuellen Index für jede Suchmaschine. Innerhalb kurzer Zeit finden weitreichende Veränderungen sowohl auf der Ebene der URLs als auch auf der Ebene der Verlinkung und der Inhaltsebene statt. Die Aktualität des Index ist also ein bedeutender Faktor für die Qualität einer Suchmaschine. Beobachtungen der gängigen Suchmaschinen haben gezeigt, dass diese teilweise zwischen einem häufigen, aber eher oberflächlichen Crawling, bei dem vor allem die aktualisierten Startseiten der Angebote indexiert werden, und einem sog. deep crawl, bei in größeren Abständen die Websites möglichst vollständig erfasst werden, unterscheiden.

< 3.3 Crawling  |  Inhaltsverzeichnis  |  3.5 Das Invisible Web >