Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 11.4 Aktualitätsfaktoren im Ranking
< 11.3 Möglichkeiten der Ermittlung von Datumsangaben in Web-Dokumenten  |  Inhaltsverzeichnis  |  11.5 Spezialisierte Suchmaschinen für Nachrichten >
11.4 Aktualitätsfaktoren im Ranking

Aktualitätsfaktoren im Ranking

Nicht nur die Ermittlung von Datumsangaben für eine eingeschränkte Suche durch den Nutzer ist von Bedeutung, sondern auch die Verwendung von Aktualitätsfaktoren im Ranking. Durch die Ermittlung von Datumsangaben und Veränderungen der Dokumente sowie ihres Umfelds können wertvolle Informationen für das Ranking gewonnen werden, die über die üblichen Verfahren der Textstatistik und der Linktopologie hinausgehen. Auch die aus der Aktualität abgeleiteten Faktoren dienen der Verbesserung der Trefferlisten in der Hinsicht, dass qualitativ hochwertige Treffer bevorzugt angezeigt werden sollen und Spam-Treffer erkannt und ausgeschlossen werden sollen.
Da die heute eingesetzten Rankingverfahren, die zu einem wesentlichen Teil auf der Auswertung der Linktopologie im Umfeld der Dokumente basieren, potenziell ältere Dokumente, die bereits gut verlinkt sind, bevorzugen (s.a. Kap. 8), muss für neue Dokumente eine Ausgleichsfaktor verwendet werden, damit diese im Ranking überhaupt eine Chance haben. Wie in Abschnitt 11.2 besprochen wurde, scheinen manche Suchmaschinen (im Fall der Untersuchung war dies Google) neue Dokumente generell zu bevorzugen. Zum besseren Verständnis soll hier nochmals der Weg einer neuen Seite von der Erstellung bis zu einem potenziell hohen Ranking in den Suchmaschinen beschrieben werden.
Abb. 11.5 zeigt diesen Weg schematisch anhand der beiden gegenübergestellten Rankingansätze der bevorzugten Verwendung von textstatistischen Verfahren und der bevorzugten Verwendung linktopologischer Verfahren. Die alleinige Verwendung eines der genannten Verfahren ist nicht (mehr) üblich. Selbstverständlich sind Rankingpositionen niemals statisch, allerdings ergeben sich mit der Zeit je nach Ansatz früher oder später relativ stabile Rankingpositionen.
Im Fall der Bevorzugung der textstatistischen Verfahren erreicht das Dokument schon zum Zeitpunkt seiner Erfassung durch die Suchmaschine eine hohe Rankposition, da sein Ranking hauptsächlich auf inhaltlichen Aspekten basiert, die ja schon bei der Veröffentlichung des Dokuments feststehen. Im weiteren Zeitverlauf wird das Dokument höher bewertet, wenn es Links auf sich ziehen kann. Sein Ranking verbessert sich mit der zunehmenden Anzahl von Links stetig. Die im Schaubild dargestellte Aufnahme in ein Web-Verzeichnis (und die damit verbundene starke Erhöhung der Linkpopularität des Dokuments) bedeutet nochmals einen Popularitätsschub und damit ein weiter verbessertes Ranking.
Der Weg des gleichen Dokuments verläuft in einer Suchmaschine, die sich stärker auf die Linktopologie ausrichtet, anders. Hier wird das Dokument zum gleichen Zeitpunkt in den Index aufgenommen, allerdings erreicht es zuerst nur eine relativ niedrige Rankingposition. Erst mit der zunehmenden Verlinkung des Dokuments steigt seine Rangposition. Im Schaubild ist dies als kontinuierlicher Prozess dargestellt, unter realen Bedingungen wird sich diese Steigerung allerdings kaum linear darstellen. Mit der Aufnahme des Dokuments in ein Verzeichnis schließlich erreicht das Dokument seine stabile Rankingposition; im Schaubild erreicht das Dokument nun in beiden Suchmaschinen die gleiche Position.

Abb. 11.5. Weg eines neuen Dokuments von der Veröffentlichung bis zu einer stabilen Rankingposition

Es dauert im Fall der linktopologisch orientierten Suchmaschine wesentlich länger, bis eine hohe Position erreicht werden kann. Bedenkt man dazu noch die Tendenzen zum preferential attachment (vgl. Kap. 8.6), so ergeben sich bei einem solchen Ranking gravierende Nachteile für neue Dokumente. Deshalb ist ein Ausgleichsfaktor nötig, der den neuen Dokumenten gleiche oder zumindest ähnliche Chancen im Ranking einräumt.
Acharya et al. (2005) beschreiben in ihrer Patentanmeldung unterschiedliche Aktualitätsfaktoren, die im Ranking verwendet werden können. Dabei wird davon ausgegangen, dass jedem Dokument ein statischer Aktualitätswert (ähnlich dem statischen Wert der Linkpopularität) zugewiesen wird. Die Möglichkeiten der Verwendung der Aktualitätsfaktoren teilen sich in die folgenden Gruppen:
Datum der Dokumenterstellung (Document Inception Date). Die Ermittlung dieser Form des Datums wurde im vorangegangenen Abschnitt diskutiert. Acharya et al. nennen die Möglichkeiten des ersten Auffindens des Dokuments durch die Suchmaschine in Form einer Anmeldung, in Form des Auffindens im Crawling oder in Form des Auffindens eines Links, der auf das Dokument verweist. Im Ranking kann nun, wenn das Datum der Dokumenterstellung korrekt ermittelt wurde, ein Ausgleichsfaktor zu den verwendeten linktopologischen Verfahren eingesetzt werden. Ein neues Dokument kann noch nicht viele Links auf sich gezogen haben und wird deshalb im Ranking potenziell benachteiligt. Hier kann nun den neuen Dokumenten ein gewisser Bonus eingeräumt werden, damit sie im Ranking gleichberechtigt oder eventuell sogar bevorzugt werden. Weiterhin kann das Anwachsen der Linkzahl in einem gewissen Zeitraum zu einem verbesserten Ranking führen.
Inhaltliche Aktualisierungen bzw. Veränderungen (Content Updates/Changes). Hier sollen Dokumente, die häufig aktualisiert werden, anders bewertet werden als solche, die nicht oder nur selten aktualisiert werden. Dazu werden die beiden Werte der Update-Frequenz (update frequency) und der Update-Grad (update amount) berücksichtigt.
Analyse der Abfragen (query analysis). Hier wird das Nutzerverhalten ausgewertet, um solche Dokumente zu bevorzugen, die von den Nutzern entweder häufig angeklickt werden oder, was im Kontext hier von größerer Bedeutung ist, in einer gewissen Zeitspanne (beispielsweise innerhalb des letzten Monats) wesentlich häufiger angeklickt wurden als in einem vergleichbaren vorangegangenen Zeitraum. So kann gemessen werden, welche Dokumente an Popularität gewinnen bzw. verlieren.
Veränderungen in der Verlinkung (Link-Based Criteria). Sowohl das Auftauchen von neuen Links als auch das Verschwinden bestehender Links kann ausgewertet werden, um festzustellen, welche Dokumente wohl aktuellere Inhalte haben und welche veraltet sind. Im letzteren Fall ist anzunehmen, dass die Zahl der Links mit der Zeit abnimmt, während die Zahl der Links bei aktuellen Dokumenten in der Anfangsphase erst einmal zunimmt. Es kann aber nicht nur die Zahl der Links gemessen werden, sondern diese können wiederum gewichtet werden, beispielsweise nach der Aktualität der Links selbst oder nach der Vertrauenswürdigkeit des verlinkenden Dokuments. Bei einem „unnatürlichen“ Anwachsen der Zahl der Links auf ein bestimmtes Dokument bzw. eine bestimmte Domain kann vermutet werden, dass ein Spamming-Versuch stattfindet.
Ankertext (Anchor Text). Ergeben sich in den von der Suchmaschine erfassten Anktertexten, die auf ein Dokument oder eine Domain verweisen, wesentliche Änderungen, so kann davon ausgegangen werden, dass sich die Inhalte des Zieldokuments bzw. der Zieldomain verändert haben. Beispielsweise kann die Domain verkauft worden und die Inhalte entsprechend ersetzt worden sein. Werden von der Suchmaschine statische Werte der Linkpopularität eingesetzt, ergibt sich oft das Problem, dass Domains bevorzugt gerankt werden, deren Inhalte mit denen zum Zeitpunkt der Linksetzungen nichts mehr gemein haben. Acharya et al. schlagen vor, den Zeitpunkt der Änderung der Inhalte zu ermitteln und entsprechend alle Links, die vor diesem Zeitpunkt gesetzt wurden, bei der Berechnung der Linkpopularität auszuschließen.
Traffic (traffic). Wird der Traffic, der auf ein Dokument gelenkt wird, beobachtet, so kann ermittelt werden, ob dieses Dokument mit der Zeit weniger populär wird. Manche Dokumente werden in unterschiedlichen Jahreszeiten unterschiedlich häufig nachgefragt. Werden diese Gesetzmäßigkeiten im Traffic erfasst, können die Dokumente entsprechend gerankt werden.
Nutzerverhalten (User Behavior). Das Nutzerverhalten kann ausgewertet werden, indem die durchschnittliche Verweildauer eines Nutzers bei einem Dokument gemessen wird. Nimmt die Verweildauer im Lauf der Zeit deutlich ab, so kann darauf geschlossen werden, dass das Dokument nun nicht mehr aktuell ist und deshalb auch nicht mehr bevorzugt gerankt werden sollte.
Informationen über die Domain (Domain-Related Information). Informationen über die Domain, auf der ein Dokument liegt, können berücksichtigt werden, um die Verlässlichkeit der Dokumente zu bestimmen. So können häufige Veränderungen des Domaininhabers oder der Hostingfirma als Indikator dafür dienen, dass die entsprechende Domain nur vorübergehend genutzt wird, etwa um ein Angebot aufzubauen, das künstlich Verlinkungsstrukturen generiert, um anderen Dokumenten zu einer bevorzugten Position im Ranking zu verhelfen.
Ranking im Lauf der Zeit (Ranking History). Die Daten, wie ein Dokument für bestimmte Suchanfragen im Lauf der Zeit gerankt wird, können ausgewertet werden. Dabei kann eine plötzliche signifikante Verbesserung des Rankings darauf hindeuten, dass das Ranking manipuliert wurde. Allerdings kann es sich auch schlicht um ein heißes Thema handeln, durch das das Dokument entsprechend besser verlinkt oder genutzt wird. Acharya et al. schlagen einen Abgleich beispielsweise mit seriösen News-Quellen vor: Sie nehmen als wahrscheinlich an, dass echte heiße Themen auch in den Nachrichten erwähnt werden. Weiterhin soll eine Beschränkung im Maß der Steigerungsmöglichkeit im Ranking eingeführt werden, um massive Verbesserungen im Ranking, die in der natürlichen Entwicklung nur selten vorkommen, zu verhindern.
Durch die Nutzer generierte Daten (User Maintained/Generated Data). Durch die Auswertung der Bookmarks, des Browser-Caches oder der Cookies eines Nutzers sollen Trends festgestellt werden. Faktoren dabei können unter anderem sein, wie oft ein Dokument sich in den Bookmarks von Nutzern findet, wie oft dieses aus den Bookmarks aufgerufen wird, wie oft ein Dokument aus den Bookmarks gelöscht wird.
Einzelne Wörter, Wortpaare, Phrasen im Ankertext (Unique Words, Bigrams, Phrases in Anchor Text). Ankertexte werden oft in Massen einheitlich generiert, um das Ranking des Zieldokuments für die in den Ankertexten vorkommenden Begriffe zu verbessern, Häufen sich plötzlich gleiche Ankertexte oder es können verdächtige Texte herausgefunden werden, so kann das Zieldokument entsprechend schlechter bewertet werden.
Verlinkungsstruktur (Linkage of Independent Peers). Wenn plötzlich viele Dokumente auf ein Dokument verweisen (also ein künstlicher Web-Graph erzeugt wird), so kann daraus geschlossen werden, dass es sich um einen Spamming-Versuch handelt.
Themen (Document topics). Wenn die Dokumente (zumindest groben) Themen zugeordnet werden, so lässt sich bei einer Veränderung des Themas feststellen, dass eine Neubewertung des Dokuments vorgenommen werden sollte.
Das vorgestellte Verfahren zielt letztlich darauf ab, die durch linktopologische Verfahren – und speziell solcher Verfahren, die statische Werte der Linkpopularität verwenden – entstandenen Nachteile auszugleichen. Das Ergebnis des Verfahrens ist ein Ausgleichsfaktor zum Wert der Linkpopularität. Durch die Kombination beider Werte kann sicherlich eine Qualitätssteigerung im Ranking erreicht werden, wie allerdings eingeschätzt werden soll, ob ein neueres oder ein älteres Dokument wichtiger für die Suchanfrage ist, wird nicht beschrieben. Allerdings lässt sich das Verfahren auch so implementieren, dass der Nutzer selbst entscheiden kann, ob er eher neue oder lieber ältere, bereits etablierte Dokumente angezeigt bekommen möchte (s. auch Kap. 10.1).
Werden Dokumente im Ranking nach ihrer Aktualität bewertet, so stellt sich die Frage, inwieweit alle Arten von statischen, also sich nicht mehr verändernden Dokumenten gleich behandelt werden können. In vielen Fällen handelt es sich bei diesen um unveränderte Dokumente von hoher Qualität, deren Bedeutung sich auch nicht unbedingt in einer kontinuierlichen Linksetzung niederschlagen wird. In unterschiedlichen thematischen Kontexten hat Aktualität eine unterschiedliche Bedeutung: Während Nachrichtenmeldungen klar einem „Verfall“ unterliegen, ist dies bei wissenschaftlichen oder belletristischen Werken weniger oder gar nicht der Fall. Solche Dokumente müssen von der Suchmaschine erkannt werden, um entsprechend ihrer Bedeutung berücksichtigt werden zu können.
Eine weitere Auffälligkeit des beschriebenen Verfahrens ist es, dass keine Möglichkeit beschreibt, wie das exakte Erstellungs- bzw. Änderungsdatum eines Dokuments ermittelt werden kann. Die dabei entstehenden Schwierigkeiten werden umgangen, indem Daten stets nur in Relation zueinander gesehen werden. Sicher kann ein solches Verfahren das Ranking deutlich verbessern und auch dem Nutzer eine Hilfe sein, der für seine Suche eher aktuelle Dokumente bevorzugt. Allerdings hilft es nur wenig bei einer exakten Datumsbestimmung bzw. einer Suche nach Dokumenten, die während eines bestimmten Zeitraums erstellt oder aktualisiert wurden. Das Verfahren dient eher der internen Dokumentbewertung der Suchmaschine auf Basis der Web-Dynamik, als dass es dem Nutzer ein Werkzeug zur Einschränkung seiner Anfragen zur Hand gibt.

< 11.3 Möglichkeiten der Ermittlung von Datumsangaben in Web-Dokumenten  |  Inhaltsverzeichnis  |  11.5 Spezialisierte Suchmaschinen für Nachrichten >