
Die Auswertung des Nutzerverhaltens für das Ranking der Suchergebnisse
wurde zuerst von der mittlerweile eingestellten Suchmaschine Direct Hit angewendet.
Diese entstand zu einer Zeit, als linktopologische Verfahren noch nicht gängig
waren und neben den klassischen Faktoren des Information Retrieval keine Verfahren
eingesetzt wurden, um unabhängig vom Inhalt die Qualität einer Webseite
zu bewerten.
Culliss (2000; 2003) beschreibt die Faktoren, die in seinem nutzungsstatistischen
Verfahren ausgewertet werden. Dies sind das Anklicken bestimmter Treffer aus
den Trefferlisten und die Verweildauer auf den gefundenen Seiten. Diese Faktoren
werden zusätzlich zu den üblichen anfrageabhängigen Rankingfaktoren
eingesetzt.
Das Anklicken eines Treffers aus einer Trefferliste ist für Culliss ein
Indikator für die Brauchbarkeit des dahinterstehenden Dokuments. Nutzer
sehen sich Trefferlisten an und wählen diejenigen Dokumente aufgrund der
angezeigten Beschreibung aus, die sie als für ihre Suchanfrage relevant
erachten. Da allerdings die Beschreibungen der Dokumente inadäquat oder
sogar irreführend sein können, wird zusätzlich die Verweildauer
der Nutzer bei den entsprechenden Dokumenten gemessen. Kehrt ein Nutzer schnell
zur Trefferliste zurück, um weitere Dokumente auszuwählen oder seine
Suchanfrage zu modifizieren, so deutet dies darauf hin, dass durch das Dokument
sein Informationsbedürfnis nicht befriedigt wurde. Solche Dokumente werden
deshalb in Zukunft nicht mehr bevorzugt gelistet oder sogar schlechter bewertet.
Umgekehrt verhält es sich, wenn ein Nutzer lange bei einem Dokument verweilt
bzw. nach dem Verlassen der Trefferliste nicht mehr auf diese zurückkehrt.
Hier wird angenommen, dass der Nutzer sein Informationsbedürfnis befriedigen
konnte und nicht mehr weiter suchen muss. Bei zukünftigen Suchen werden
Dokumente, die so in einem früheren Suchprozess als gut gewertet werden,
bevorzugt gelistet. Eine Erweiterung des Verfahrens sieht die Unterteilung der
Ergebnisse nach verschiedenen Nutzergruppen, die aufgrund personenbezogener
Daten festgestellt wurden, vor. Diese Verfahren werden inzwischen als „personalisiertes
Ranking“ bezeichnet und erleben unter dieser Bezeichnung eine Art Comeback,
vor allem durch neuere Suchmaschinen wie Eurekster und A9.com.
Culliss sieht in seinem Verfahren die Vorteile von klassischen algorithmischen
Suchmaschinen (in seiner Terminologie Author-Controlled Search Engines) und
Web-Verzeichnissen (Editor-Controlled Directories) vereint. Wie die algorithmischen
Suchmaschinen bietet sein Verfahren die Möglichkeit, die Dokumente automatisch
zu erfassen, was zu der Möglichkeit der Erschließung großer
Datenbestände führt. Die Vorteile der höheren Relevanz der von
Menschen ausgewählten Dokumente in den Verzeichnissen sieht er durch die
demokratische „Abstimmung" der Nutzerschaft über die Qualität
der Dokumente ebenso gegeben.
Als Nachteil des Systems ist neben der leichten Manipulierbarkeit durch Menschen
sowie automatische Systeme die Unabhängigkeit der Qualitätsbewertung
von der gestellten Suchanfrage zu sehen. So werden Dokumente als für jedes
Thema gleichermaßen relevant angesehen und entsprechend bevorzugt gelistet.
Die nach dem Culliss-Verfahren arbeitende Suchmaschine Direct Hit musste, um
die Nutzerdaten erheben zu können, noch eine „Umleitung" in
die Trefferlisten einbauen. Wurde ein Treffer angeklickt, so wurde nicht direkt
das Dokument selbst gezeigt, sondern die Information, dass dieser Treffer angeklickt
wurde, wurde an die Suchmaschine gesendet und von dort wurde auf den eigentlichen
Treffer weitergeleitet. Diese Art der Nutzerdatenerfassung wurde auch von einigen
anderen Suchmaschinen temporär zur Ermittlung des Nutzerverhaltens für
interne Zwecke eingesetzt (beobachtet zum Beispiel bei AltaVista und All the
Web). Mittlerweile werten Suchmaschinen das Nutzerverhalten bevorzugt über
vom Nutzer installierte Toolbars aus. Diese bieten den Vorteil, dass das Nutzerverhalten
sehr zuverlässig protokolliert werden kann, auch wenn der Nutzer die Seiten
der Suchmaschine längst verlassen hat. Solche Toolbars werden mittlerweile
von fast alle Suchmaschinen angeboten. Während mit dem Ausscheiden von
Direct Hit aus dem Suchmaschinen-Markt die Auswertung des Nutzerverhaltens eine
Zeit lang als überholt galt, wird sie mittlerweile wieder in großen
Suchmaschinen eingesetzt.
Abb. 7.2. Auswertung des Klickverhaltens nach Ländern (Dean et al. 2002, fig. 6)
Eine neuere Methode des nutzungsstatistischen Rankings ist das von Dean et al.
(2002). Sie stellen ein Verfahren vor, in dem Nutzungsdaten einzelner Webseiten
oder aber kompletter Websites entweder als alleiniger oder aber als ergänzender
Rankingfaktor verwendet werden. Als Beispiele zu erhebender Nutzungsdaten werden
die absolute Anzahl der Besuche auf einer Seite, die absolute Nutzungszahl in
einem bestimmten Zeitraum (beispielsweise in der letzten Woche) und die Veränderung
der Nutzungszahlen in einem bestimmten Zeitraum angegeben.
Dem Problem der leichten Manipulierbarkeit solcher Verfahren kommen Dean et
al. entgegen, indem die Möglichkeit gegeben wird, gewisse Abrufe einer
Seite nicht mit in die Statistik einfließen zu lassen. Denkbar wären
hier etwa Aufrufe der Seite durch automatische Agenten oder durch Nutzer, die
mit der fraglichen Seite in irgendeiner Verbindung stehen. Hier ist etwa an
Filtermethoden, wie sie im „Hilltop"-Algorithmus beschrieben werden,
zu denken (vgl. Kapitel 8.4).
Eine weitere Möglichkeit in der Nutzung der Statistikdaten ergibt sich
durch die unterschiedliche Bewertung einer einzelnen Nutzung nach weiteren Faktoren.
So wird in der Patentanmeldung von Dean et al. beschrieben, dass beispielsweise
eine Nutzung von einem deutschen Rechner aus höher bewertet werden kann
als eine solche von einem Rechner der Antarktis aus (Dean et al. 2002, 3). Denkbar
ist hier an eine unterschiedliche Anwendung auf das Ranking auf verschiedenen
länderspezifischen Suchseiten. Ein entsprechendes Beispiel zeigt Abbildung
7.2: Hier werden drei Seiten aufgeführt, die jeweils Wetterinformation
beinhalten, eine davon bekommt ein Viertel ihrer Zugriffe von Deutschland aus,
die anderen erhalten keine Zugriffe aus Deutschland. Hier lässt sich ableiten,
dass die Seite mit den deutschen Zugriffen für einen deutschen Nutzer relevanter
ist als die anderen, ansonsten vergleichbaren Seiten. Zwar kann auch hier nicht
mit Sicherheit behauptet werden, ob und wie dieses Verfahren in die Suchmaschine
Google (in deren Namen das Patent angemeldet wurde) implementiert ist, allerdings
können die im Ranking auf unterschiedlichen Länderseiten von Google
festgestellten Unterschiede, vor allem die Bevorzugung von Dokumenten in der
jeweiligen Landessprache, plausibel auf den Einsatz dieses Verfahrens zurückgeführt
werden.