
Dass Rankingverfahren vor allem aufgrund der tendenziell großen Treffermengen
und der Unfähigkeit der Nutzer, stark einschränkende Suchanfragen
zu stellen, notwenig sind, ist schon in den vorangegangenen Kapiteln angesprochen
worden. In diesem Kapitel soll nun ausführlich auf Fragen des Rankings
eingegangen werden. Dabei soll zuerst noch einmal zusammenfassend der Sinn von
Rankingverfahren dargestellt werden. Die Beurteilung dieser Verfahren wird in
einigen Anmerkungen zur grundsätzlichen Problematik der Relevanzbewertung
kritisch hinterfragt, um anschließend spezifische Probleme des Relevance
Rankings in Suchmaschinen zu besprechen.
Rankingverfahren sollen erreichen, dass die Dokumente innerhalb einer Trefferliste
so sortiert werden, dass die relevantesten Dokumente oben stehen, während
weniger relevante Dokumente auf den unteren Listenplätzen erscheinen. Während
der Nutzer bei unsortierten Trefferlisten gezwungen ist, alle Treffer zu sichten,
da auch auf dem letzten Trefferplatz potentiell noch ein relevanter Treffer
auftauchen kann, sinkt in einer gerankten Trefferliste mit jedem Platz die Wahrscheinlichkeit,
einen relevanten Treffer zu finden. Schon hier zeigt sich allerdings das Problem
der Relevanzbewertung, auf welches weiter unten noch ausführlich eingegangen
werden wird: Hinsichtlich der formulierten Suchanfrage können alle Treffer
als relevant betrachtet werden, die dieser entsprechen; bei einer Suchanfrage,
welche aus zwei Begriffen besteht, wären so gesehen alle Dokumente relevant,
die beide Begriffe enthalten. Allerdings würden Dokumente, die diese Begriffe
beispielsweise nur jeweils einmal und weit entfernt voneinander enthalten, auf
die unteren Listenplätze verwiesen. Sie wären hinsichtlich der formulierten
Suchanfrage als relevant anzusehen, für den Nutzer dürften sie jedoch
nicht hilfreich sein, um sein Informationsbedürfnis zu befriedigen. Gerade
bei der einfachen Annahme der Suchmaschinen, dass jedes Dokument, welches die
eingegebenen Suchbegriffe überhaupt enthält, relevant ist, kann auch
davon gesprochen werden, dass das Ranking dazu dient, die überhaupt relevanten
Dokumente auf die vorderen Plätze zu bringen.
In klassischen Online-Datenbanken sind Verfahren des Relevance Ranking aus zwei
Gründen weniger bedeutend als in Endnutzer-Systemen wie Web-Suchmaschinen:
Erstens sind die Nutzer dieser Systeme in der Regel mit den Möglichkeiten
der Formulierung von Suchanfragen in dem jeweiligen System vertraut und können
daher präzisere Anfragen stellen. Zweitens besteht in solchen Systemen
die Möglichkeit der gezielten Quellenauswahl, welche der tatsächlichen
Suchanfrage meist vorangestellt ist. Der erste Schritt besteht hier aus der
Auswahl der geeigneten Datenbanken, erst dann wird die Anfrage formuliert und
abgeschickt. Dieses Verfahren verringert potentiell die Treffermenge und bringt
sie auf ein für den Nutzer überschaubares Maß.
Zwar haben große Online-Hosts wie Lexis-Nexis mit Freestyle und Dialog
mit Target (vgl. Stock 1998) Ranking-Verfahren in ihre Systeme eingebaut, diese
wurden jedoch von der jeweiligen Nutzerschaft nur schlecht angenommen. Die besondere
Stärke von Rankingverfahren kommt gerade in Umgebungen zu tragen, in denen
das System von ungeübten Nutzern verwendet wird und keine vorherige Quellenauswahl
stattfindet.
Eine Übersicht der „klassischen" Ranking-Algorithmen bietet
Harman (1992a). Im Folgenden interessieren aber eher die Grundannahmen der Ranking-Algorithmen
als die mathematischen Formeln selbst. Wichtig sind vor allem die auf Web-Dokumente
anwendbaren Rankingfaktoren.