Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 7.2 Nutzungsstatistische Verfahren
< 7.1 Textstatistische Verfahren  |  Inhaltsverzeichnis  |  7.3 Informationslinguistische Verfahren >
7.2 Nutzungsstatistische Verfahren

Nutzungsstatistische Verfahren

Die Auswertung des Nutzerverhaltens für das Ranking der Suchergebnisse wurde zuerst von der mittlerweile eingestellten Suchmaschine Direct Hit angewendet. Diese entstand zu einer Zeit, als linktopologische Verfahren noch nicht gängig waren und neben den klassischen Faktoren des Information Retrieval keine Verfahren eingesetzt wurden, um unabhängig vom Inhalt die Qualität einer Webseite zu bewerten.
Culliss (2000; 2003) beschreibt die Faktoren, die in seinem nutzungsstatistischen Verfahren ausgewertet werden. Dies sind das Anklicken bestimmter Treffer aus den Trefferlisten und die Verweildauer auf den gefundenen Seiten. Diese Faktoren werden zusätzlich zu den üblichen anfrageabhängigen Rankingfaktoren eingesetzt.
Das Anklicken eines Treffers aus einer Trefferliste ist für Culliss ein Indikator für die Brauchbarkeit des dahinterstehenden Dokuments. Nutzer sehen sich Trefferlisten an und wählen diejenigen Dokumente aufgrund der angezeigten Beschreibung aus, die sie als für ihre Suchanfrage relevant erachten. Da allerdings die Beschreibungen der Dokumente inadäquat oder sogar irreführend sein können, wird zusätzlich die Verweildauer der Nutzer bei den entsprechenden Dokumenten gemessen. Kehrt ein Nutzer schnell zur Trefferliste zurück, um weitere Dokumente auszuwählen oder seine Suchanfrage zu modifizieren, so deutet dies darauf hin, dass durch das Dokument sein Informationsbedürfnis nicht befriedigt wurde. Solche Dokumente werden deshalb in Zukunft nicht mehr bevorzugt gelistet oder sogar schlechter bewertet.
Umgekehrt verhält es sich, wenn ein Nutzer lange bei einem Dokument verweilt bzw. nach dem Verlassen der Trefferliste nicht mehr auf diese zurückkehrt. Hier wird angenommen, dass der Nutzer sein Informationsbedürfnis befriedigen konnte und nicht mehr weiter suchen muss. Bei zukünftigen Suchen werden Dokumente, die so in einem früheren Suchprozess als gut gewertet werden, bevorzugt gelistet. Eine Erweiterung des Verfahrens sieht die Unterteilung der Ergebnisse nach verschiedenen Nutzergruppen, die aufgrund personenbezogener Daten festgestellt wurden, vor. Diese Verfahren werden inzwischen als „personalisiertes Ranking“ bezeichnet und erleben unter dieser Bezeichnung eine Art Comeback, vor allem durch neuere Suchmaschinen wie Eurekster und A9.com.
Culliss sieht in seinem Verfahren die Vorteile von klassischen algorithmischen Suchmaschinen (in seiner Terminologie Author-Controlled Search Engines) und Web-Verzeichnissen (Editor-Controlled Directories) vereint. Wie die algorithmischen Suchmaschinen bietet sein Verfahren die Möglichkeit, die Dokumente automatisch zu erfassen, was zu der Möglichkeit der Erschließung großer Datenbestände führt. Die Vorteile der höheren Relevanz der von Menschen ausgewählten Dokumente in den Verzeichnissen sieht er durch die demokratische „Abstimmung" der Nutzerschaft über die Qualität der Dokumente ebenso gegeben.
Als Nachteil des Systems ist neben der leichten Manipulierbarkeit durch Menschen sowie automatische Systeme die Unabhängigkeit der Qualitätsbewertung von der gestellten Suchanfrage zu sehen. So werden Dokumente als für jedes Thema gleichermaßen relevant angesehen und entsprechend bevorzugt gelistet.
Die nach dem Culliss-Verfahren arbeitende Suchmaschine Direct Hit musste, um die Nutzerdaten erheben zu können, noch eine „Umleitung" in die Trefferlisten einbauen. Wurde ein Treffer angeklickt, so wurde nicht direkt das Dokument selbst gezeigt, sondern die Information, dass dieser Treffer angeklickt wurde, wurde an die Suchmaschine gesendet und von dort wurde auf den eigentlichen Treffer weitergeleitet. Diese Art der Nutzerdatenerfassung wurde auch von einigen anderen Suchmaschinen temporär zur Ermittlung des Nutzerverhaltens für interne Zwecke eingesetzt (beobachtet zum Beispiel bei AltaVista und All the Web). Mittlerweile werten Suchmaschinen das Nutzerverhalten bevorzugt über vom Nutzer installierte Toolbars aus. Diese bieten den Vorteil, dass das Nutzerverhalten sehr zuverlässig protokolliert werden kann, auch wenn der Nutzer die Seiten der Suchmaschine längst verlassen hat. Solche Toolbars werden mittlerweile von fast alle Suchmaschinen angeboten. Während mit dem Ausscheiden von Direct Hit aus dem Suchmaschinen-Markt die Auswertung des Nutzerverhaltens eine Zeit lang als überholt galt, wird sie mittlerweile wieder in großen Suchmaschinen eingesetzt.

Abb. 7.2. Auswertung des Klickverhaltens nach Ländern (Dean et al. 2002, fig. 6)


Eine neuere Methode des nutzungsstatistischen Rankings ist das von Dean et al. (2002). Sie stellen ein Verfahren vor, in dem Nutzungsdaten einzelner Webseiten oder aber kompletter Websites entweder als alleiniger oder aber als ergänzender Rankingfaktor verwendet werden. Als Beispiele zu erhebender Nutzungsdaten werden die absolute Anzahl der Besuche auf einer Seite, die absolute Nutzungszahl in einem bestimmten Zeitraum (beispielsweise in der letzten Woche) und die Veränderung der Nutzungszahlen in einem bestimmten Zeitraum angegeben.
Dem Problem der leichten Manipulierbarkeit solcher Verfahren kommen Dean et al. entgegen, indem die Möglichkeit gegeben wird, gewisse Abrufe einer Seite nicht mit in die Statistik einfließen zu lassen. Denkbar wären hier etwa Aufrufe der Seite durch automatische Agenten oder durch Nutzer, die mit der fraglichen Seite in irgendeiner Verbindung stehen. Hier ist etwa an Filtermethoden, wie sie im „Hilltop"-Algorithmus beschrieben werden, zu denken (vgl. Kapitel 8.4).
Eine weitere Möglichkeit in der Nutzung der Statistikdaten ergibt sich durch die unterschiedliche Bewertung einer einzelnen Nutzung nach weiteren Faktoren. So wird in der Patentanmeldung von Dean et al. beschrieben, dass beispielsweise eine Nutzung von einem deutschen Rechner aus höher bewertet werden kann als eine solche von einem Rechner der Antarktis aus (Dean et al. 2002, 3). Denkbar ist hier an eine unterschiedliche Anwendung auf das Ranking auf verschiedenen länderspezifischen Suchseiten. Ein entsprechendes Beispiel zeigt Abbildung 7.2: Hier werden drei Seiten aufgeführt, die jeweils Wetterinformation beinhalten, eine davon bekommt ein Viertel ihrer Zugriffe von Deutschland aus, die anderen erhalten keine Zugriffe aus Deutschland. Hier lässt sich ableiten, dass die Seite mit den deutschen Zugriffen für einen deutschen Nutzer relevanter ist als die anderen, ansonsten vergleichbaren Seiten. Zwar kann auch hier nicht mit Sicherheit behauptet werden, ob und wie dieses Verfahren in die Suchmaschine Google (in deren Namen das Patent angemeldet wurde) implementiert ist, allerdings können die im Ranking auf unterschiedlichen Länderseiten von Google festgestellten Unterschiede, vor allem die Bevorzugung von Dokumenten in der jeweiligen Landessprache, plausibel auf den Einsatz dieses Verfahrens zurückgeführt werden.

< 7.1 Textstatistische Verfahren  |  Inhaltsverzeichnis  |  7.3 Informationslinguistische Verfahren >