Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 6.1 Rankingfaktoren
< 6 Ranking  |  Inhaltsverzeichnis  |  6.2 Messbarkeit von Relevanz >
6.1 Rankingfaktoren

Rankingfaktoren

Im Rankingverfahren werden je nach System unterschiedliche Faktoren berücksichtigt. Allerdings sind es weniger die berücksichtigten Faktoren, die die großen Unterschiede zwischen unterschiedlichen Suchmaschinen ausmachen, sondern stärker deren unterschiedliche Gewichtung. So haben sich Standards bei den von den Suchmaschinen berücksichtigten Faktoren herausgebildet, während die Gewichtung der einzelnen Faktoren im Ranking von den Betreibern geheimgehalten wird.
Rankingfaktoren lassen sich prinzipiell in zwei Arten unterteilen: die anfrageabhängigen Faktoren (query dependent factors, auch on-the-page criteria) und die anfrageunabhängigen Faktoren (query independent factors, auch off-the-page criteria). Die anfrageabhängigen Faktoren orientieren sich an den im klassischen Information Retrieval verwendeten Kriterien wie etwa Worthäufigkeiten und Position der Suchbegriffe im Dokument. Anfrageunabhängige Faktoren versuchen, die Qualität bzw. Autorität eines Dokuments unabhängig von einer Suchanfrage zu bestimmen. Dies ist aufgrund der hohen Qualitätsunterschiede von Web-Informationen für Suchmaschinen dringend erforderlich; alle Suchmaschinen setzen eine Kombination beider genannter Verfahren ein. Würden sie nur anfrageabhängige Verfahren einsetzen, könnten sie nicht zwischen dem Original und einer Kopie bzw. Manipulation eines Dokuments unterscheiden (vgl. Brin u. Page 1998). Der alleinige Einsatz von anfrageunabhängigen Verfahren ist nicht möglich, da dies zur Ausgabe der immer gleichen Trefferliste unabhängig von der Suchanfrage führen würde.

Tabelle 6.1. Anfrageabhängige Faktoren im Ranking

Kriterium Erläuterung
Dokumentspezifische Wortgewichtung (WDF) Relative Häufigkeit des Vorkommens eines Worts in einem Dokument.
Wortabstand Bei Anfragen mit mehreren Suchbegriffen wird der Abstand der Suchbegriffe voneinander berücksichtigt.

Position der Suchbegriffe
An markanten Stellen des Dokuments vorkommende Suchbegriffe werden höher bewertet. Zum Beispiel Vorkommen im Titel, in den Überschriften, in der URL.
Reihenfolge der Suchbegriffe in der Anfrage In der Anfrage zuerst stehende Begriffe werden als bedeutender angesehen.
Metatags Vorkommen der Suchbegriffe in den Metatags
Stellung der Suchbegriffe innerhalb des Dokuments Vorkommen der Suchbegriffe am Beginn des Dokuments wird höher gewertet als späteres Auftreten.
Betonung von Begriffen durch HTML-Elemente Hervorgehobene Begriffe (fett, kursiv) werden höher bewertet.
Groß-/Kleinschreibung Dokumente, in denen die Suchbegriffe in exakt der eingegebenen Form vorkommen, werden bevorzugt.
Inverse Dokumenthäufigkeit (IDF) Relative Häufigkeit des Vorkommens eines Wortes in Dokumenten der gesamten Datenbank; seltene Begriffe werden bevorzugt.
Ankertext Vorkommen der Suchbegriffe im Linktext eines Dokuments, welches auf das Zieldokument verweist.
Sprache Dokumente, die in der Sprache des benutzen Länderinterfaces verfasst sind, werden höher bewertet.
Geo-Targeting Seiten, die ihren „Standort" in der Nähe des Benutzers haben, werden bevorzugt.


Tabelle 6.1 zeigt eine Aufstellung anfrageabhängiger Rankingkriterien. Grundlegend wird angenommen, dass Dokumente, in denen die Suchbegriffe häufig vorkommen, für die Anfrage relevanter sind, als solche, in denen die Suchbegriffe nur selten vorkommen. Allerdings wird bei einer solchen Zählung nicht die Länge des jeweiligen Dokuments berücksichtigt, weshalb die dokumentspezifische Wortgewichtung angewendet wird. Hierbei wird die relative Häufigkeit des Vorkommens eines Begriffs innerhalb des Dokuments gemessen.
Bei der Suche mit mehreren Begriffen wird auch der Abstand der Begriffe zueinander gewertet. Dokumente, in denen die Suchbegriffe nahe beieinander stehen, werden solchen Dokumenten vorgezogen, in denen die Suchbegriffe nur weit voneinander entfernt vorkommen.
Durch die Ausnutzung von Strukturinformationen, die in Web-Dokumenten gegeben sind (vgl. Kapitel 4), kann das Vorkommen von Suchbegriffen an exponierter Stelle innerhalb des Dokuments bevorzugt gewertet werden. Bevorzugt wird hier beispielsweise das Auftauchen der Suchbegriffe im Titel des Dokuments, in Überschriften oder der URL des Dokuments.
Auch die Reihenfolge der Suchbegriffe bei deren Eingabe kann eine Rolle spielen. So kann angenommen werden, dass vom Nutzer dem jeweils zuerst stehenden Suchbegriff eine höhere Bedeutung zugemessen wird als den darauf folgenden.
Auch das Vorkommen der Suchbegriffe innerhalb von Metatags kann bevorzugt gewertet werden; in der Praxis hat sich dies allerdings nicht bewährt. In den Metatags können Daten erfasst werden, die das Dokument beschreiben. Solche Metadaten sind generell als sinnvoll für die Beschreibung der Dokumente anzusehen, im Kontext der Web-Suche hat sich allerdings leider herausgestellt, dass diese Form der Inhaltserschließung sehr oft missbraucht wird, indem von den Autoren irreführende Metaangaben eingefügt wurden. Keine der wichtigen Suchmaschinen wertet daher noch Metaangaben aus.
Ein weiteres Rankingkriterium, das sich direkt auf den Inhalt des Dokuments bezieht, ist die Stellung der Suchbegriffe innerhalb des Fließtexts des Dokuments. Hier wird angenommen, dass Begriffe, die am Beginn des Dokuments stehen, wichtiger sind als solche, die erst in späteren Passagen auftauchen. Weiterhin werden oft Begriffe, die besonders hervorgehoben sind (etwa durch Fettdruck oder Kursivierung), höher bewertet als in Standardschrift vorkommende Begriffe. Dies gilt auch für Hervorhebungen durch einen größeren Schriftschnitt.
Manche Suchmaschinen unterscheiden zwischen Groß- und Kleinschreibung innerhalb der Suchanfragen. Dokumente, die die Suchbegriffe in exakt der eingegebenen Form enthalten, werden dann höher bewertet als abweichende Schreibweisen. Insbesondere bei der Suche nach Akronymen ist eine solche Unterscheidung sinnvoll. Akronyme sind oft synonym zu anderen Begriffen und unterscheiden sich von diesen nur durch ihre durchgehende Großschreibung.
Ein weiterer Rankingfaktor ist die inverse Dokumenthäufigkeit (IDF, inverted document frequency). Diese gibt die relative Häufigkeit des Vorkommens eines Worts in Dokumenten des gesamten Datenbestands an (Sparck Jones 1972). Je seltener ein Wort ist, desto höher ist seine IDF. Mittels der IDF können die Suchbegriffe bei Anfragen mit mehreren Suchbegriffen gewichtet werden bzw. Dokumente, die den selteneren der eingegebenen Suchbegriffe enthalten, bevorzugt werden.
Bei Web-Dokumenten kann relativ leicht auch auf Informationen zugegriffen werden, die außerhalb des untersuchten Dokuments stehen. Suchmaschinen werten auch die Texte der auf ein Dokument verweisenden Hyperlinks aus. Diese dienen nicht nur der Beschreibung des Dokuments mit Begriffen, die der Autor selbst nicht verwendet hat, sondern im Ranking werden Begriffe, die in solchen Linktexten vorkommen, auch höher bewertet.
Für den Nutzer von Bedeutung ist natürlich auch die Sprache, in der die Treffer-Dokumente verfasst sind. Einerseits besteht die Möglichkeit, aktiv die Sprache der Treffer einzuschränken, andererseits können Dokumente in der Sprache des Nutzers im Ranking bevorzugt werden. Die vom Nutzer bevorzugte Sprache kann dabei durch die IP-Adresse des Nutzers, durch dessen Spracheinstellungen im Browser oder durch gespeicherte Angaben, die der Nutzer in der Vergangenheit einmal gemacht hat, ermittelt werden.
Auch auf die Position des Nutzers bezieht sich ein Ranking mittels Geo-Targeting. Hierbei werden Dokumente, die aufgrund ihrer Geo-Informationen dem Nutzer „näher stehen" höher bewertet als weiter entfernte Dokumente. Die geographische Position des Nutzers kann dabei (grob) anhand der IP-Adresse oder genauer aufgrund bereits bekannter Daten des Nutzers, die dieser einmal angegeben hat, bestimmt werden. Geographische Informationen über Dokumente lassen sich durch die Extrahierung ortsbezogener Informationen (wie z.B. Postleitzahlen oder Telefonvorwahlen) aus den Dokumenten selbst ermitteln. Eine Ermittlung dieser Angaben aus der IP-Adresse des Servers, auf dem die Dokumente abgelegt sind, ist nicht sinnvoll, da Websites oft auf weit entfernten Servern gehostet werden und deshalb aus dem Standort des Servers kein zuverlässiger Rückschluss auf die geographische Zuordnung der Dokumente gezogen werden kann.
Für klassische Information-Retrieval-Systeme reichen die anfrageabhängigen Faktoren für ein Ranking in der Regel aus; eine Übersicht entsprechender Ranking-Algorithmen findet sich in Harman (1992a). Für die Bewertung von Web-Dokumenten sind jedoch als weitere Kriterien anfrageunabhängige Faktoren nötig; solche werden in Tabelle 6.2 aufgelistet.
Ein erstes Kriterium ist die Stellung des Dokuments innerhalb der Hierarchie einer Site. Jede Verzeichnisebene ist durch einen Schrägstrich (slash) in der URL getrennt, wodurch die jeweilige Ebene leicht zu ermitteln ist. Dokumente, die auf einer höheren Ebene liegen, können bevorzugt bewertet werden.

Tabelle 6.2. Anfrageunabhängige Faktoren im Ranking

Kriterium Erläuterung
Verzeichnisebene Je höher das Dokument innerhalb der Hierarchie seiner Website steht, desto höher wird es bewertet.
Anzahl eingehende Links Je mehr Links auf das Dokument verweisen, als desto bedeutender wird es angesehen.
Linkpopularität Wert für die Autorität / Qualität eines Dokuments wird aufgrund der Verlinkungsstruktur berechnet.
Klickhäufigkeit Dokumente, die von vielen Benutzern angesehen werden, werden höher bewertet.
Aktualität Aktuelle Dokumente werden höher bewertet als ältere.
Dokumentlänge Dokumente ab und bis zu einer gewissen Länge (sinntragend) werden bevorzugt.
Dateiformat Dokumente im Standardformat HTML werden höher bewertet als solche in anderen Formaten (PDF, Word, usw.)
Größe der Site Dokumente von umfangreichen Web-Angeboten werden höher bewertet als solche von kleinen Sites.

Als für die Suchmaschinen besonders wichtiges Kriterium für die Bewertung von Dokumenten haben sich in den letzten Jahren Auswertungen der Linkstruktur gezeigt. Dabei kann einerseits schlicht die Zahl der auf ein Dokument verweisenden Links (eingehende Links) gezählt werden, wobei Dokumente, die viele Links auf sich vereinigen, höher bewertet werden als solche mit weniger Links. Andererseits wurden komplexe Verfahren entwickelt, die die Linkpopularität eines Dokuments messen. Diese werden in Kapitel 8 ausführlich vorgestellt. Eine weitere Möglichkeit, die Popularität von Dokumenten zu bestimmen, ist die Auswertung der Klickhäufigkeit. Diese kann entweder über eine Umleitung der Klicks aus den Trefferlisten über einen Zähler der Suchmaschine oder aber über vom Benutzer installierte Toolbars erfolgen.
Ein weiterer Rankingfaktor kann die Aktualität des Dokuments sein. So bewerten manche Suchmaschinen offensichtlich neuere Dokumente generell höher und bevorzugen diese gegenüber den über längere Zeit unveränderten Dokumenten (Lewandowski 2004b, 310).
Weitere Rankingfaktoren sind das Dateiformat, wobei hier gewöhnlich das Standardformat HTML gegenüber anderen Formaten bevorzugt wird, die Länge des Dokuments (lang genug, um aussagekräftig zu sein, aber nicht zu lang) und die Größe der Site, innerhalb der das Dokument abgelegt ist. Hierbei wird angenommen, dass die Chance, dass ein auf einer umfangreichen Site abgelegtes Dokument relevant ist, höher ist als auf einer kleinen Site.
Alle genannten Faktoren beziehen sich ausschließlich auf ein statisches Ranking. Dies berücksichtigt allein Faktoren, die innerhalb des Dokuments bzw. des Dokumentenkorpus zu suchen sind. Im Gegensatz dazu steht ein personalisiertes Ranking, welches die Gewohnheiten eines einzelnen Nutzers oder einer Nutzergruppe für die Relevanzbewertung mit einbezieht (Lewandowski 2004c, 192f.).
Neben der Berücksichtigung unterschiedlicher Faktoren für das Ranking der Suchergebnisse ist deren Zusammenspiel von großer Bedeutung. Die Faktoren müssen austariert werden, um möglichst für alle Anfragen gute Ergebnisse zu erreichen.

< 6 Ranking  |  Inhaltsverzeichnis  |  6.2 Messbarkeit von Relevanz >