
Nicht nur die Ermittlung von Datumsangaben für eine eingeschränkte
Suche durch den Nutzer ist von Bedeutung, sondern auch die Verwendung von Aktualitätsfaktoren
im Ranking. Durch die Ermittlung von Datumsangaben und Veränderungen der
Dokumente sowie ihres Umfelds können wertvolle Informationen für das
Ranking gewonnen werden, die über die üblichen Verfahren der Textstatistik
und der Linktopologie hinausgehen. Auch die aus der Aktualität abgeleiteten
Faktoren dienen der Verbesserung der Trefferlisten in der Hinsicht, dass qualitativ
hochwertige Treffer bevorzugt angezeigt werden sollen und Spam-Treffer erkannt
und ausgeschlossen werden sollen.
Da die heute eingesetzten Rankingverfahren, die zu einem wesentlichen Teil auf
der Auswertung der Linktopologie im Umfeld der Dokumente basieren, potenziell
ältere Dokumente, die bereits gut verlinkt sind, bevorzugen (s.a. Kap.
8), muss für neue Dokumente eine Ausgleichsfaktor verwendet werden, damit
diese im Ranking überhaupt eine Chance haben. Wie in Abschnitt 11.2 besprochen
wurde, scheinen manche Suchmaschinen (im Fall der Untersuchung war dies Google)
neue Dokumente generell zu bevorzugen. Zum besseren Verständnis soll hier
nochmals der Weg einer neuen Seite von der Erstellung bis zu einem potenziell
hohen Ranking in den Suchmaschinen beschrieben werden.
Abb. 11.5 zeigt diesen Weg schematisch anhand der beiden gegenübergestellten
Rankingansätze der bevorzugten Verwendung von textstatistischen Verfahren
und der bevorzugten Verwendung linktopologischer Verfahren. Die alleinige Verwendung
eines der genannten Verfahren ist nicht (mehr) üblich. Selbstverständlich
sind Rankingpositionen niemals statisch, allerdings ergeben sich mit der Zeit
je nach Ansatz früher oder später relativ stabile Rankingpositionen.
Im Fall der Bevorzugung der textstatistischen Verfahren erreicht das Dokument
schon zum Zeitpunkt seiner Erfassung durch die Suchmaschine eine hohe Rankposition,
da sein Ranking hauptsächlich auf inhaltlichen Aspekten basiert, die ja
schon bei der Veröffentlichung des Dokuments feststehen. Im weiteren Zeitverlauf
wird das Dokument höher bewertet, wenn es Links auf sich ziehen kann. Sein
Ranking verbessert sich mit der zunehmenden Anzahl von Links stetig. Die im
Schaubild dargestellte Aufnahme in ein Web-Verzeichnis (und die damit verbundene
starke Erhöhung der Linkpopularität des Dokuments) bedeutet nochmals
einen Popularitätsschub und damit ein weiter verbessertes Ranking.
Der Weg des gleichen Dokuments verläuft in einer Suchmaschine, die sich
stärker auf die Linktopologie ausrichtet, anders. Hier wird das Dokument
zum gleichen Zeitpunkt in den Index aufgenommen, allerdings erreicht es zuerst
nur eine relativ niedrige Rankingposition. Erst mit der zunehmenden Verlinkung
des Dokuments steigt seine Rangposition. Im Schaubild ist dies als kontinuierlicher
Prozess dargestellt, unter realen Bedingungen wird sich diese Steigerung allerdings
kaum linear darstellen. Mit der Aufnahme des Dokuments in ein Verzeichnis schließlich
erreicht das Dokument seine stabile Rankingposition; im Schaubild erreicht das
Dokument nun in beiden Suchmaschinen die gleiche Position.
Abb. 11.5. Weg eines neuen Dokuments von der Veröffentlichung bis zu einer
stabilen Rankingposition
Es dauert im Fall der linktopologisch orientierten Suchmaschine wesentlich
länger, bis eine hohe Position erreicht werden kann. Bedenkt man dazu noch
die Tendenzen zum preferential attachment (vgl. Kap. 8.6), so ergeben sich bei
einem solchen Ranking gravierende Nachteile für neue Dokumente. Deshalb
ist ein Ausgleichsfaktor nötig, der den neuen Dokumenten gleiche oder zumindest
ähnliche Chancen im Ranking einräumt.
Acharya et al. (2005) beschreiben in ihrer Patentanmeldung unterschiedliche
Aktualitätsfaktoren, die im Ranking verwendet werden können. Dabei
wird davon ausgegangen, dass jedem Dokument ein statischer Aktualitätswert
(ähnlich dem statischen Wert der Linkpopularität) zugewiesen wird.
Die Möglichkeiten der Verwendung der Aktualitätsfaktoren teilen sich
in die folgenden Gruppen:
Datum der Dokumenterstellung (Document Inception Date). Die
Ermittlung dieser Form des Datums wurde im vorangegangenen Abschnitt diskutiert.
Acharya et al. nennen die Möglichkeiten des ersten Auffindens des Dokuments
durch die Suchmaschine in Form einer Anmeldung, in Form des Auffindens im Crawling
oder in Form des Auffindens eines Links, der auf das Dokument verweist. Im Ranking
kann nun, wenn das Datum der Dokumenterstellung korrekt ermittelt wurde, ein
Ausgleichsfaktor zu den verwendeten linktopologischen Verfahren eingesetzt werden.
Ein neues Dokument kann noch nicht viele Links auf sich gezogen haben und wird
deshalb im Ranking potenziell benachteiligt. Hier kann nun den neuen Dokumenten
ein gewisser Bonus eingeräumt werden, damit sie im Ranking gleichberechtigt
oder eventuell sogar bevorzugt werden. Weiterhin kann das Anwachsen der Linkzahl
in einem gewissen Zeitraum zu einem verbesserten Ranking führen.
Inhaltliche Aktualisierungen bzw. Veränderungen (Content Updates/Changes).
Hier sollen Dokumente, die häufig aktualisiert werden, anders bewertet
werden als solche, die nicht oder nur selten aktualisiert werden. Dazu werden
die beiden Werte der Update-Frequenz (update frequency) und der Update-Grad
(update amount) berücksichtigt.
Analyse der Abfragen (query analysis). Hier wird das Nutzerverhalten
ausgewertet, um solche Dokumente zu bevorzugen, die von den Nutzern entweder
häufig angeklickt werden oder, was im Kontext hier von größerer
Bedeutung ist, in einer gewissen Zeitspanne (beispielsweise innerhalb des letzten
Monats) wesentlich häufiger angeklickt wurden als in einem vergleichbaren
vorangegangenen Zeitraum. So kann gemessen werden, welche Dokumente an Popularität
gewinnen bzw. verlieren.
Veränderungen in der Verlinkung (Link-Based Criteria).
Sowohl das Auftauchen von neuen Links als auch das Verschwinden bestehender
Links kann ausgewertet werden, um festzustellen, welche Dokumente wohl aktuellere
Inhalte haben und welche veraltet sind. Im letzteren Fall ist anzunehmen, dass
die Zahl der Links mit der Zeit abnimmt, während die Zahl der Links bei
aktuellen Dokumenten in der Anfangsphase erst einmal zunimmt. Es kann aber nicht
nur die Zahl der Links gemessen werden, sondern diese können wiederum gewichtet
werden, beispielsweise nach der Aktualität der Links selbst oder nach der
Vertrauenswürdigkeit des verlinkenden Dokuments. Bei einem „unnatürlichen“
Anwachsen der Zahl der Links auf ein bestimmtes Dokument bzw. eine bestimmte
Domain kann vermutet werden, dass ein Spamming-Versuch stattfindet.
Ankertext (Anchor Text). Ergeben sich in den von der Suchmaschine
erfassten Anktertexten, die auf ein Dokument oder eine Domain verweisen, wesentliche
Änderungen, so kann davon ausgegangen werden, dass sich die Inhalte des
Zieldokuments bzw. der Zieldomain verändert haben. Beispielsweise kann
die Domain verkauft worden und die Inhalte entsprechend ersetzt worden sein.
Werden von der Suchmaschine statische Werte der Linkpopularität eingesetzt,
ergibt sich oft das Problem, dass Domains bevorzugt gerankt werden, deren Inhalte
mit denen zum Zeitpunkt der Linksetzungen nichts mehr gemein haben. Acharya
et al. schlagen vor, den Zeitpunkt der Änderung der Inhalte zu ermitteln
und entsprechend alle Links, die vor diesem Zeitpunkt gesetzt wurden, bei der
Berechnung der Linkpopularität auszuschließen.
Traffic (traffic). Wird der Traffic, der auf ein Dokument gelenkt
wird, beobachtet, so kann ermittelt werden, ob dieses Dokument mit der Zeit
weniger populär wird. Manche Dokumente werden in unterschiedlichen Jahreszeiten
unterschiedlich häufig nachgefragt. Werden diese Gesetzmäßigkeiten
im Traffic erfasst, können die Dokumente entsprechend gerankt werden.
Nutzerverhalten (User Behavior). Das Nutzerverhalten kann ausgewertet
werden, indem die durchschnittliche Verweildauer eines Nutzers bei einem Dokument
gemessen wird. Nimmt die Verweildauer im Lauf der Zeit deutlich ab, so kann
darauf geschlossen werden, dass das Dokument nun nicht mehr aktuell ist und
deshalb auch nicht mehr bevorzugt gerankt werden sollte.
Informationen über die Domain (Domain-Related Information).
Informationen über die Domain, auf der ein Dokument liegt, können
berücksichtigt werden, um die Verlässlichkeit der Dokumente zu bestimmen.
So können häufige Veränderungen des Domaininhabers oder der Hostingfirma
als Indikator dafür dienen, dass die entsprechende Domain nur vorübergehend
genutzt wird, etwa um ein Angebot aufzubauen, das künstlich Verlinkungsstrukturen
generiert, um anderen Dokumenten zu einer bevorzugten Position im Ranking zu
verhelfen.
Ranking im Lauf der Zeit (Ranking History). Die Daten, wie
ein Dokument für bestimmte Suchanfragen im Lauf der Zeit gerankt wird,
können ausgewertet werden. Dabei kann eine plötzliche signifikante
Verbesserung des Rankings darauf hindeuten, dass das Ranking manipuliert wurde.
Allerdings kann es sich auch schlicht um ein heißes Thema handeln, durch
das das Dokument entsprechend besser verlinkt oder genutzt wird. Acharya et
al. schlagen einen Abgleich beispielsweise mit seriösen News-Quellen vor:
Sie nehmen als wahrscheinlich an, dass echte heiße Themen auch in den
Nachrichten erwähnt werden. Weiterhin soll eine Beschränkung im Maß
der Steigerungsmöglichkeit im Ranking eingeführt werden, um massive
Verbesserungen im Ranking, die in der natürlichen Entwicklung nur selten
vorkommen, zu verhindern.
Durch die Nutzer generierte Daten (User Maintained/Generated
Data). Durch die Auswertung der Bookmarks, des Browser-Caches oder der Cookies
eines Nutzers sollen Trends festgestellt werden. Faktoren dabei können
unter anderem sein, wie oft ein Dokument sich in den Bookmarks von Nutzern findet,
wie oft dieses aus den Bookmarks aufgerufen wird, wie oft ein Dokument aus den
Bookmarks gelöscht wird.
Einzelne Wörter, Wortpaare, Phrasen im Ankertext (Unique Words, Bigrams,
Phrases in Anchor Text). Ankertexte werden oft in Massen einheitlich generiert,
um das Ranking des Zieldokuments für die in den Ankertexten vorkommenden
Begriffe zu verbessern, Häufen sich plötzlich gleiche Ankertexte oder
es können verdächtige Texte herausgefunden werden, so kann das Zieldokument
entsprechend schlechter bewertet werden.
Verlinkungsstruktur (Linkage of Independent Peers). Wenn plötzlich
viele Dokumente auf ein Dokument verweisen (also ein künstlicher Web-Graph
erzeugt wird), so kann daraus geschlossen werden, dass es sich um einen Spamming-Versuch
handelt.
Themen (Document topics). Wenn die Dokumente (zumindest groben)
Themen zugeordnet werden, so lässt sich bei einer Veränderung des
Themas feststellen, dass eine Neubewertung des Dokuments vorgenommen werden
sollte.
Das vorgestellte Verfahren zielt letztlich darauf ab, die durch linktopologische
Verfahren – und speziell solcher Verfahren, die statische Werte der Linkpopularität
verwenden – entstandenen Nachteile auszugleichen. Das Ergebnis des Verfahrens
ist ein Ausgleichsfaktor zum Wert der Linkpopularität. Durch die Kombination
beider Werte kann sicherlich eine Qualitätssteigerung im Ranking erreicht
werden, wie allerdings eingeschätzt werden soll, ob ein neueres oder ein
älteres Dokument wichtiger für die Suchanfrage ist, wird nicht beschrieben.
Allerdings lässt sich das Verfahren auch so implementieren, dass der Nutzer
selbst entscheiden kann, ob er eher neue oder lieber ältere, bereits etablierte
Dokumente angezeigt bekommen möchte (s. auch Kap. 10.1).
Werden Dokumente im Ranking nach ihrer Aktualität bewertet, so stellt sich
die Frage, inwieweit alle Arten von statischen, also sich nicht mehr verändernden
Dokumenten gleich behandelt werden können. In vielen Fällen handelt
es sich bei diesen um unveränderte Dokumente von hoher Qualität, deren
Bedeutung sich auch nicht unbedingt in einer kontinuierlichen Linksetzung niederschlagen
wird. In unterschiedlichen thematischen Kontexten hat Aktualität eine unterschiedliche
Bedeutung: Während Nachrichtenmeldungen klar einem „Verfall“
unterliegen, ist dies bei wissenschaftlichen oder belletristischen Werken weniger
oder gar nicht der Fall. Solche Dokumente müssen von der Suchmaschine erkannt
werden, um entsprechend ihrer Bedeutung berücksichtigt werden zu können.
Eine weitere Auffälligkeit des beschriebenen Verfahrens ist es, dass keine
Möglichkeit beschreibt, wie das exakte Erstellungs- bzw. Änderungsdatum
eines Dokuments ermittelt werden kann. Die dabei entstehenden Schwierigkeiten
werden umgangen, indem Daten stets nur in Relation zueinander gesehen werden.
Sicher kann ein solches Verfahren das Ranking deutlich verbessern und auch dem
Nutzer eine Hilfe sein, der für seine Suche eher aktuelle Dokumente bevorzugt.
Allerdings hilft es nur wenig bei einer exakten Datumsbestimmung bzw. einer
Suche nach Dokumenten, die während eines bestimmten Zeitraums erstellt
oder aktualisiert wurden. Das Verfahren dient eher der internen Dokumentbewertung
der Suchmaschine auf Basis der Web-Dynamik, als dass es dem Nutzer ein Werkzeug
zur Einschränkung seiner Anfragen zur Hand gibt.