
Im Rankingverfahren werden je nach System unterschiedliche Faktoren berücksichtigt.
Allerdings sind es weniger die berücksichtigten Faktoren, die die großen
Unterschiede zwischen unterschiedlichen Suchmaschinen ausmachen, sondern stärker
deren unterschiedliche Gewichtung. So haben sich Standards bei den von den Suchmaschinen
berücksichtigten Faktoren herausgebildet, während die Gewichtung der
einzelnen Faktoren im Ranking von den Betreibern geheimgehalten wird.
Rankingfaktoren lassen sich prinzipiell in zwei Arten unterteilen: die anfrageabhängigen
Faktoren (query dependent factors, auch on-the-page criteria) und die anfrageunabhängigen
Faktoren (query independent factors, auch off-the-page criteria). Die anfrageabhängigen
Faktoren orientieren sich an den im klassischen Information Retrieval verwendeten
Kriterien wie etwa Worthäufigkeiten und Position der Suchbegriffe im Dokument.
Anfrageunabhängige Faktoren versuchen, die Qualität bzw. Autorität
eines Dokuments unabhängig von einer Suchanfrage zu bestimmen. Dies ist
aufgrund der hohen Qualitätsunterschiede von Web-Informationen für
Suchmaschinen dringend erforderlich; alle Suchmaschinen setzen eine Kombination
beider genannter Verfahren ein. Würden sie nur anfrageabhängige Verfahren
einsetzen, könnten sie nicht zwischen dem Original und einer Kopie bzw.
Manipulation eines Dokuments unterscheiden (vgl. Brin u. Page 1998). Der alleinige
Einsatz von anfrageunabhängigen Verfahren ist nicht möglich, da dies
zur Ausgabe der immer gleichen Trefferliste unabhängig von der Suchanfrage
führen würde.
Tabelle 6.1. Anfrageabhängige Faktoren im Ranking
| Kriterium | Erläuterung |
| Dokumentspezifische Wortgewichtung (WDF) | Relative Häufigkeit des Vorkommens eines Worts in einem Dokument. |
| Wortabstand | Bei Anfragen mit mehreren Suchbegriffen wird der Abstand der Suchbegriffe voneinander berücksichtigt. |
Position der Suchbegriffe |
An markanten Stellen des Dokuments vorkommende Suchbegriffe werden höher bewertet. Zum Beispiel Vorkommen im Titel, in den Überschriften, in der URL. |
| Reihenfolge der Suchbegriffe in der Anfrage | In der Anfrage zuerst stehende Begriffe werden als bedeutender angesehen. |
| Metatags | Vorkommen der Suchbegriffe in den Metatags |
| Stellung der Suchbegriffe innerhalb des Dokuments | Vorkommen der Suchbegriffe am Beginn des Dokuments wird höher gewertet als späteres Auftreten. |
| Betonung von Begriffen durch HTML-Elemente | Hervorgehobene Begriffe (fett, kursiv) werden höher bewertet. |
| Groß-/Kleinschreibung | Dokumente, in denen die Suchbegriffe in exakt der eingegebenen Form vorkommen, werden bevorzugt. |
| Inverse Dokumenthäufigkeit (IDF) | Relative Häufigkeit des Vorkommens eines Wortes in Dokumenten der gesamten Datenbank; seltene Begriffe werden bevorzugt. |
| Ankertext | Vorkommen der Suchbegriffe im Linktext eines Dokuments, welches auf das Zieldokument verweist. |
| Sprache | Dokumente, die in der Sprache des benutzen Länderinterfaces verfasst sind, werden höher bewertet. |
| Geo-Targeting | Seiten, die ihren „Standort" in der Nähe des Benutzers haben, werden bevorzugt. |
Tabelle 6.1 zeigt eine Aufstellung anfrageabhängiger Rankingkriterien.
Grundlegend wird angenommen, dass Dokumente, in denen die Suchbegriffe häufig
vorkommen, für die Anfrage relevanter sind, als solche, in denen die Suchbegriffe
nur selten vorkommen. Allerdings wird bei einer solchen Zählung nicht die
Länge des jeweiligen Dokuments berücksichtigt, weshalb die dokumentspezifische
Wortgewichtung angewendet wird. Hierbei wird die relative Häufigkeit des
Vorkommens eines Begriffs innerhalb des Dokuments gemessen.
Bei der Suche mit mehreren Begriffen wird auch der Abstand der Begriffe zueinander
gewertet. Dokumente, in denen die Suchbegriffe nahe beieinander stehen, werden
solchen Dokumenten vorgezogen, in denen die Suchbegriffe nur weit voneinander
entfernt vorkommen.
Durch die Ausnutzung von Strukturinformationen, die in Web-Dokumenten gegeben
sind (vgl. Kapitel 4), kann das Vorkommen von Suchbegriffen an exponierter Stelle
innerhalb des Dokuments bevorzugt gewertet werden. Bevorzugt wird hier beispielsweise
das Auftauchen der Suchbegriffe im Titel des Dokuments, in Überschriften
oder der URL des Dokuments.
Auch die Reihenfolge der Suchbegriffe bei deren Eingabe kann eine Rolle spielen.
So kann angenommen werden, dass vom Nutzer dem jeweils zuerst stehenden Suchbegriff
eine höhere Bedeutung zugemessen wird als den darauf folgenden.
Auch das Vorkommen der Suchbegriffe innerhalb von Metatags kann bevorzugt gewertet
werden; in der Praxis hat sich dies allerdings nicht bewährt. In den Metatags
können Daten erfasst werden, die das Dokument beschreiben. Solche Metadaten
sind generell als sinnvoll für die Beschreibung der Dokumente anzusehen,
im Kontext der Web-Suche hat sich allerdings leider herausgestellt, dass diese
Form der Inhaltserschließung sehr oft missbraucht wird, indem von den
Autoren irreführende Metaangaben eingefügt wurden. Keine der wichtigen
Suchmaschinen wertet daher noch Metaangaben aus.
Ein weiteres Rankingkriterium, das sich direkt auf den Inhalt des Dokuments
bezieht, ist die Stellung der Suchbegriffe innerhalb des Fließtexts des
Dokuments. Hier wird angenommen, dass Begriffe, die am Beginn des Dokuments
stehen, wichtiger sind als solche, die erst in späteren Passagen auftauchen.
Weiterhin werden oft Begriffe, die besonders hervorgehoben sind (etwa durch
Fettdruck oder Kursivierung), höher bewertet als in Standardschrift vorkommende
Begriffe. Dies gilt auch für Hervorhebungen durch einen größeren
Schriftschnitt.
Manche Suchmaschinen unterscheiden zwischen Groß- und Kleinschreibung
innerhalb der Suchanfragen. Dokumente, die die Suchbegriffe in exakt der eingegebenen
Form enthalten, werden dann höher bewertet als abweichende Schreibweisen.
Insbesondere bei der Suche nach Akronymen ist eine solche Unterscheidung sinnvoll.
Akronyme sind oft synonym zu anderen Begriffen und unterscheiden sich von diesen
nur durch ihre durchgehende Großschreibung.
Ein weiterer Rankingfaktor ist die inverse Dokumenthäufigkeit (IDF, inverted
document frequency). Diese gibt die relative Häufigkeit des Vorkommens
eines Worts in Dokumenten des gesamten Datenbestands an (Sparck Jones 1972).
Je seltener ein Wort ist, desto höher ist seine IDF. Mittels der IDF können
die Suchbegriffe bei Anfragen mit mehreren Suchbegriffen gewichtet werden bzw.
Dokumente, die den selteneren der eingegebenen Suchbegriffe enthalten, bevorzugt
werden.
Bei Web-Dokumenten kann relativ leicht auch auf Informationen zugegriffen werden,
die außerhalb des untersuchten Dokuments stehen. Suchmaschinen werten
auch die Texte der auf ein Dokument verweisenden Hyperlinks aus. Diese dienen
nicht nur der Beschreibung des Dokuments mit Begriffen, die der Autor selbst
nicht verwendet hat, sondern im Ranking werden Begriffe, die in solchen Linktexten
vorkommen, auch höher bewertet.
Für den Nutzer von Bedeutung ist natürlich auch die Sprache, in der
die Treffer-Dokumente verfasst sind. Einerseits besteht die Möglichkeit,
aktiv die Sprache der Treffer einzuschränken, andererseits können
Dokumente in der Sprache des Nutzers im Ranking bevorzugt werden. Die vom Nutzer
bevorzugte Sprache kann dabei durch die IP-Adresse des Nutzers, durch dessen
Spracheinstellungen im Browser oder durch gespeicherte Angaben, die der Nutzer
in der Vergangenheit einmal gemacht hat, ermittelt werden.
Auch auf die Position des Nutzers bezieht sich ein Ranking mittels Geo-Targeting.
Hierbei werden Dokumente, die aufgrund ihrer Geo-Informationen dem Nutzer „näher
stehen" höher bewertet als weiter entfernte Dokumente. Die geographische
Position des Nutzers kann dabei (grob) anhand der IP-Adresse oder genauer aufgrund
bereits bekannter Daten des Nutzers, die dieser einmal angegeben hat, bestimmt
werden. Geographische Informationen über Dokumente lassen sich durch die
Extrahierung ortsbezogener Informationen (wie z.B. Postleitzahlen oder Telefonvorwahlen)
aus den Dokumenten selbst ermitteln. Eine Ermittlung dieser Angaben aus der
IP-Adresse des Servers, auf dem die Dokumente abgelegt sind, ist nicht sinnvoll,
da Websites oft auf weit entfernten Servern gehostet werden und deshalb aus
dem Standort des Servers kein zuverlässiger Rückschluss auf die geographische
Zuordnung der Dokumente gezogen werden kann.
Für klassische Information-Retrieval-Systeme reichen die anfrageabhängigen
Faktoren für ein Ranking in der Regel aus; eine Übersicht entsprechender
Ranking-Algorithmen findet sich in Harman (1992a). Für die Bewertung von
Web-Dokumenten sind jedoch als weitere Kriterien anfrageunabhängige Faktoren
nötig; solche werden in Tabelle 6.2 aufgelistet.
Ein erstes Kriterium ist die Stellung des Dokuments innerhalb der Hierarchie
einer Site. Jede Verzeichnisebene ist durch einen Schrägstrich (slash)
in der URL getrennt, wodurch die jeweilige Ebene leicht zu ermitteln ist. Dokumente,
die auf einer höheren Ebene liegen, können bevorzugt bewertet werden.
Tabelle 6.2. Anfrageunabhängige Faktoren im Ranking
| Kriterium | Erläuterung |
| Verzeichnisebene | Je höher das Dokument innerhalb der Hierarchie seiner Website steht, desto höher wird es bewertet. |
| Anzahl eingehende Links | Je mehr Links auf das Dokument verweisen, als desto bedeutender wird es angesehen. |
| Linkpopularität | Wert für die Autorität / Qualität eines Dokuments wird aufgrund der Verlinkungsstruktur berechnet. |
| Klickhäufigkeit | Dokumente, die von vielen Benutzern angesehen werden, werden höher bewertet. |
| Aktualität | Aktuelle Dokumente werden höher bewertet als ältere. |
| Dokumentlänge | Dokumente ab und bis zu einer gewissen Länge (sinntragend) werden bevorzugt. |
| Dateiformat | Dokumente im Standardformat HTML werden höher bewertet als solche in anderen Formaten (PDF, Word, usw.) |
| Größe der Site | Dokumente von umfangreichen Web-Angeboten werden höher bewertet als solche von kleinen Sites. |
Als für die Suchmaschinen besonders wichtiges Kriterium für die
Bewertung von Dokumenten haben sich in den letzten Jahren Auswertungen der Linkstruktur
gezeigt. Dabei kann einerseits schlicht die Zahl der auf ein Dokument verweisenden
Links (eingehende Links) gezählt werden, wobei Dokumente, die viele Links
auf sich vereinigen, höher bewertet werden als solche mit weniger Links.
Andererseits wurden komplexe Verfahren entwickelt, die die Linkpopularität
eines Dokuments messen. Diese werden in Kapitel 8 ausführlich vorgestellt.
Eine weitere Möglichkeit, die Popularität von Dokumenten zu bestimmen,
ist die Auswertung der Klickhäufigkeit. Diese kann entweder über eine
Umleitung der Klicks aus den Trefferlisten über einen Zähler der Suchmaschine
oder aber über vom Benutzer installierte Toolbars erfolgen.
Ein weiterer Rankingfaktor kann die Aktualität des Dokuments sein. So bewerten
manche Suchmaschinen offensichtlich neuere Dokumente generell höher und
bevorzugen diese gegenüber den über längere Zeit unveränderten
Dokumenten (Lewandowski 2004b, 310).
Weitere Rankingfaktoren sind das Dateiformat, wobei hier gewöhnlich das
Standardformat HTML gegenüber anderen Formaten bevorzugt wird, die Länge
des Dokuments (lang genug, um aussagekräftig zu sein, aber nicht zu lang)
und die Größe der Site, innerhalb der das Dokument abgelegt ist.
Hierbei wird angenommen, dass die Chance, dass ein auf einer umfangreichen Site
abgelegtes Dokument relevant ist, höher ist als auf einer kleinen Site.
Alle genannten Faktoren beziehen sich ausschließlich auf ein statisches
Ranking. Dies berücksichtigt allein Faktoren, die innerhalb des Dokuments
bzw. des Dokumentenkorpus zu suchen sind. Im Gegensatz dazu steht ein personalisiertes
Ranking, welches die Gewohnheiten eines einzelnen Nutzers oder einer Nutzergruppe
für die Relevanzbewertung mit einbezieht (Lewandowski 2004c, 192f.).
Neben der Berücksichtigung unterschiedlicher Faktoren für das Ranking
der Suchergebnisse ist deren Zusammenspiel von großer Bedeutung. Die Faktoren
müssen austariert werden, um möglichst für alle Anfragen gute
Ergebnisse zu erreichen.