Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 6 Ranking
< 5.4 Modelle des Information Retrieval  |  Inhaltsverzeichnis  |  6.1 Rankingfaktoren >
6 Ranking

Ranking

Dass Rankingverfahren vor allem aufgrund der tendenziell großen Treffermengen und der Unfähigkeit der Nutzer, stark einschränkende Suchanfragen zu stellen, notwenig sind, ist schon in den vorangegangenen Kapiteln angesprochen worden. In diesem Kapitel soll nun ausführlich auf Fragen des Rankings eingegangen werden. Dabei soll zuerst noch einmal zusammenfassend der Sinn von Rankingverfahren dargestellt werden. Die Beurteilung dieser Verfahren wird in einigen Anmerkungen zur grundsätzlichen Problematik der Relevanzbewertung kritisch hinterfragt, um anschließend spezifische Probleme des Relevance Rankings in Suchmaschinen zu besprechen.
Rankingverfahren sollen erreichen, dass die Dokumente innerhalb einer Trefferliste so sortiert werden, dass die relevantesten Dokumente oben stehen, während weniger relevante Dokumente auf den unteren Listenplätzen erscheinen. Während der Nutzer bei unsortierten Trefferlisten gezwungen ist, alle Treffer zu sichten, da auch auf dem letzten Trefferplatz potentiell noch ein relevanter Treffer auftauchen kann, sinkt in einer gerankten Trefferliste mit jedem Platz die Wahrscheinlichkeit, einen relevanten Treffer zu finden. Schon hier zeigt sich allerdings das Problem der Relevanzbewertung, auf welches weiter unten noch ausführlich eingegangen werden wird: Hinsichtlich der formulierten Suchanfrage können alle Treffer als relevant betrachtet werden, die dieser entsprechen; bei einer Suchanfrage, welche aus zwei Begriffen besteht, wären so gesehen alle Dokumente relevant, die beide Begriffe enthalten. Allerdings würden Dokumente, die diese Begriffe beispielsweise nur jeweils einmal und weit entfernt voneinander enthalten, auf die unteren Listenplätze verwiesen. Sie wären hinsichtlich der formulierten Suchanfrage als relevant anzusehen, für den Nutzer dürften sie jedoch nicht hilfreich sein, um sein Informationsbedürfnis zu befriedigen. Gerade bei der einfachen Annahme der Suchmaschinen, dass jedes Dokument, welches die eingegebenen Suchbegriffe überhaupt enthält, relevant ist, kann auch davon gesprochen werden, dass das Ranking dazu dient, die überhaupt relevanten Dokumente auf die vorderen Plätze zu bringen.
In klassischen Online-Datenbanken sind Verfahren des Relevance Ranking aus zwei Gründen weniger bedeutend als in Endnutzer-Systemen wie Web-Suchmaschinen: Erstens sind die Nutzer dieser Systeme in der Regel mit den Möglichkeiten der Formulierung von Suchanfragen in dem jeweiligen System vertraut und können daher präzisere Anfragen stellen. Zweitens besteht in solchen Systemen die Möglichkeit der gezielten Quellenauswahl, welche der tatsächlichen Suchanfrage meist vorangestellt ist. Der erste Schritt besteht hier aus der Auswahl der geeigneten Datenbanken, erst dann wird die Anfrage formuliert und abgeschickt. Dieses Verfahren verringert potentiell die Treffermenge und bringt sie auf ein für den Nutzer überschaubares Maß.
Zwar haben große Online-Hosts wie Lexis-Nexis mit Freestyle und Dialog mit Target (vgl. Stock 1998) Ranking-Verfahren in ihre Systeme eingebaut, diese wurden jedoch von der jeweiligen Nutzerschaft nur schlecht angenommen. Die besondere Stärke von Rankingverfahren kommt gerade in Umgebungen zu tragen, in denen das System von ungeübten Nutzern verwendet wird und keine vorherige Quellenauswahl stattfindet.
Eine Übersicht der „klassischen" Ranking-Algorithmen bietet Harman (1992a). Im Folgenden interessieren aber eher die Grundannahmen der Ranking-Algorithmen als die mathematischen Formeln selbst. Wichtig sind vor allem die auf Web-Dokumente anwendbaren Rankingfaktoren.

< 5.4 Modelle des Information Retrieval  |  Inhaltsverzeichnis  |  6.1 Rankingfaktoren >