
Bharat und Mihaila (2001) stellen mit ihrem „Hilltop"-Algorithmus
ein Verfahren vor, das die besten Seiten zu populären Themen finden soll.
Dabei gehen sie davon aus, dass zu populären Suchanfragen von Suchmaschinen
potenziell zu viele Ergebnisse zurückgegeben werden, während doch
aus dem Nutzerverhalten bekannt sei, dass die Nutzer nur die ersten zehn bis
höchstens 20 Treffer sichten. Das Verfahren ist also darauf angelegt, eine
hohe Precision zu erreichen und dabei auf einen hohen Recall zu verzichten.
Dazu sollen nur solche Dokumente zurückgegeben werden, die von „unabhängigen
Experten" für gut befunden wurden. Das Verfahren soll Seiten finden,
deren Ziel es ist, auf relevante Dokumente zu einem Thema hinzuweisen. Konzeptionell
ist dies den Kleinberg'schen Hubs vergleichbar, handelt es sich doch um Seiten,
die als wichtigstes Element Links auf Autoritäten enthalten. Im Hilltop-Algorithmus
werden alle Verweise, die von den „expert pages" ausgehen, gezählt.
Je mehr Links von Experten eine Seite auf sich ziehen kann, desto höher
steht sie schließlich im Ranking. Bei diesem Verfahren besteht allerdings
die Gefahr, dass zu einer Anfrage keine Dokumente gefunden werden, weil schlicht
nicht genügend Experten-Seiten zur Verfügung stehen, um ein sinnvolles
Ranking zu ermöglichen.
Die Autoren sprechen das Problem der Manipulation der Trefferlisten der Suchmaschinen
an, machen aber klar, dass eine hohe Anzahl von Treffern oft auch dann vorliegt,
wenn keine Manipulationen stattgefunden haben. Ein reines Keyword-Matching kommt
deshalb nicht in Frage - eine Erkenntnis, die allen hier besprochenen linktopologischen
Algorithmen zugrunde liegt.
Als eine Lösung, die Treffermengen zu verringern und gleichzeitig die Qualität
der Treffer zu erhöhen, werden oft Web-Verzeichnisse betrachtet. Bharat
u. Mihaila (2001, 597) wenden dagegen allerdings ein, dass in diesen Verzeichnissen
die von den Bearbeitern vergebenen Klassen und die eventuell hinzugefügten
Schlagwörter oft unpassend oder unvollständig wären. Deshalb
kämen zur Qualitätssteigerung nur linktopologische Verfahren in Frage;
diese würden allerdings hauptsächlich bei populären Themen funktionieren
bzw. erst zum tragen kommen, da für deren Anwendung erst einmal genug vernetzte
Seiten vorhanden sein müssten. Dies gilt natürlich auch für den
vorgestellten „Hilltop"-Algorithmus.
Da es nun das Ziel des Algorithmus ist, qualitativ hochwertige Seiten zu finden,
die von "Experten" empfohlen werden, muss zuerst einmal definiert
werden, was ein Experte in diesem Sinn ist. Als „Expertenquellen"
(expert sources) sehen Bharat u. Mihaila (2001, 598) "a page that is about
a certain topic and has links to many non-affiliate pages on that topic".
Von besonderer Bedeutung ist hier, dass die verweisende Seite und die Seite,
auf die verwiesen wird, nicht einander angegliedert (affiliated) sein dürfen.
Dies meint, dass die Betreiber beider Seiten in keiner Beziehung zueinander
stehen sollen. So sollen beispielsweise Links, die von der einen Ländersite
einer Firma auf eine andere Ländersite derselben Firma verweisen, nicht
als Expertenseiten gewertet werden. Zwei Seiten gelten dann als nicht angegliedert
(„non-affiliated"), wenn sie von Autoren von nicht miteinander verbundenen
Organisationen verfasst wurden.
Zwei Seiten gehören dann zu miteinander verbundenen Organisationen, wenn
entweder die ersten drei Bereiche ihrer IP-Adressen gleich lauten oder aber
das am weitesten rechts stehenden, nicht-generische Element des Hostnamens gleich
lautet. Im letztgenannten Fall werden also Elemente wie die Länderkennung
oder Top-Level-Domains wie „.com" abgeschnitten, so dass beispielsweise
erkannt werden kann, dass www.ibm.com und ibm.co.mx miteinander verbunden sind
(Bharat u. Mihaila, 599). Die Beziehung der angegliederten Seiten untereinander
ist transitiv, das heißt, wenn sowohl Seite A und Seite B angegliedert
sind, als auch Seite A und Seite C angegliedert sind, so sind auch Seite B und
Seite C angegliedert und werden dementsprechend nicht gewertet.
Zur Auswahl der Expertenseiten werden im ersten Schritt aus dem Bestand einer
Suchmaschinen-Datenbank alle Seiten ausgewählt, die eine Mindestzahl an
ausgehenden Links vorweisen können (zum Beispiel fünf). Für jede
dieser Seiten wird überprüft, ob sie auch ebenso viele Links auf nicht-angegliederte
Seiten enthalten. Ist dies der Fall, so wird die Seite als Expertenseite zugelassen.
Seiten, die im Verdacht stehen, auf angegliederte Seiten zu verweisen, werden
nicht als Expertenseiten zugelassen.
Falls eine grobe Klassifikation aller vorhandenen Seiten vorliegt, kann auch
noch unterschieden werden, ob die Links dem gewünschten Thema zugehörig
sind. So können eher zufällige Linkzusammenstellungen von thematischen
Quellenverzeichnissen unterschieden werden und entsprechend nur die Verweise
gezählt werden, die auf Dokumente der gleichen Klasse zeigen.
Durch die Auswertung und Zusammenstellung der ausgehenden Links der gefundenen
Seiten können diejenigen Seiten gefunden werden, die innerhalb der „Community"
zum Thema das höchste Ansehen genießen. Es werden nur Seiten gewertet,
auf die von mindestens zwei Experten verwiesen wird. Das Ranking der Treffermenge
erfolgt nun aufgrund der gezählten Experten-Links: Je mehr Experten auf
ein Dokument verweisen, desto wichtiger ist es für das entsprechende Thema.
Spricht man nach Kleinberg von Autoritäten, so bewertet Hilltop nur diejenigen
Seiten als Autoritäten, auf die von mehreren Expertenseiten aus verlinkt
wird. Da alle Dokumente, die von den Experten nicht oder nicht im gewünschten
Maße verlinkt werden, entfallen, werden die Trefferlisten deutlich beschränkt.
Damit wendet sich Hilltop gegen eine der zentralen Annahmen des Information
Retrieval, nämlich die, dass die zurückgegebenen Trefferlisten möglichst
vollständig sein sollen. Gerade dies wird von Hilltop nicht geleistet.
Es sollen nur die wichtigsten Seiten angezeigt werden, da angenommen ist, dass
der Nutzer sowieso nicht willens oder in der Lage ist, die gesamte Treffermenge
durchzusehen.