Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 8.4 Hilltop
< 8.3 Kleinbergs HITS  |  Inhaltsverzeichnis  |  8.5 Evaluierung linktopologischer Verfahren >
8.4 Hilltop

Hilltop

Bharat und Mihaila (2001) stellen mit ihrem „Hilltop"-Algorithmus ein Verfahren vor, das die besten Seiten zu populären Themen finden soll. Dabei gehen sie davon aus, dass zu populären Suchanfragen von Suchmaschinen potenziell zu viele Ergebnisse zurückgegeben werden, während doch aus dem Nutzerverhalten bekannt sei, dass die Nutzer nur die ersten zehn bis höchstens 20 Treffer sichten. Das Verfahren ist also darauf angelegt, eine hohe Precision zu erreichen und dabei auf einen hohen Recall zu verzichten. Dazu sollen nur solche Dokumente zurückgegeben werden, die von „unabhängigen Experten" für gut befunden wurden. Das Verfahren soll Seiten finden, deren Ziel es ist, auf relevante Dokumente zu einem Thema hinzuweisen. Konzeptionell ist dies den Kleinberg'schen Hubs vergleichbar, handelt es sich doch um Seiten, die als wichtigstes Element Links auf Autoritäten enthalten. Im Hilltop-Algorithmus werden alle Verweise, die von den „expert pages" ausgehen, gezählt. Je mehr Links von Experten eine Seite auf sich ziehen kann, desto höher steht sie schließlich im Ranking. Bei diesem Verfahren besteht allerdings die Gefahr, dass zu einer Anfrage keine Dokumente gefunden werden, weil schlicht nicht genügend Experten-Seiten zur Verfügung stehen, um ein sinnvolles Ranking zu ermöglichen.
Die Autoren sprechen das Problem der Manipulation der Trefferlisten der Suchmaschinen an, machen aber klar, dass eine hohe Anzahl von Treffern oft auch dann vorliegt, wenn keine Manipulationen stattgefunden haben. Ein reines Keyword-Matching kommt deshalb nicht in Frage - eine Erkenntnis, die allen hier besprochenen linktopologischen Algorithmen zugrunde liegt.
Als eine Lösung, die Treffermengen zu verringern und gleichzeitig die Qualität der Treffer zu erhöhen, werden oft Web-Verzeichnisse betrachtet. Bharat u. Mihaila (2001, 597) wenden dagegen allerdings ein, dass in diesen Verzeichnissen die von den Bearbeitern vergebenen Klassen und die eventuell hinzugefügten Schlagwörter oft unpassend oder unvollständig wären. Deshalb kämen zur Qualitätssteigerung nur linktopologische Verfahren in Frage; diese würden allerdings hauptsächlich bei populären Themen funktionieren bzw. erst zum tragen kommen, da für deren Anwendung erst einmal genug vernetzte Seiten vorhanden sein müssten. Dies gilt natürlich auch für den vorgestellten „Hilltop"-Algorithmus.
Da es nun das Ziel des Algorithmus ist, qualitativ hochwertige Seiten zu finden, die von "Experten" empfohlen werden, muss zuerst einmal definiert werden, was ein Experte in diesem Sinn ist. Als „Expertenquellen" (expert sources) sehen Bharat u. Mihaila (2001, 598) "a page that is about a certain topic and has links to many non-affiliate pages on that topic". Von besonderer Bedeutung ist hier, dass die verweisende Seite und die Seite, auf die verwiesen wird, nicht einander angegliedert (affiliated) sein dürfen. Dies meint, dass die Betreiber beider Seiten in keiner Beziehung zueinander stehen sollen. So sollen beispielsweise Links, die von der einen Ländersite einer Firma auf eine andere Ländersite derselben Firma verweisen, nicht als Expertenseiten gewertet werden. Zwei Seiten gelten dann als nicht angegliedert („non-affiliated"), wenn sie von Autoren von nicht miteinander verbundenen Organisationen verfasst wurden.
Zwei Seiten gehören dann zu miteinander verbundenen Organisationen, wenn entweder die ersten drei Bereiche ihrer IP-Adressen gleich lauten oder aber das am weitesten rechts stehenden, nicht-generische Element des Hostnamens gleich lautet. Im letztgenannten Fall werden also Elemente wie die Länderkennung oder Top-Level-Domains wie „.com" abgeschnitten, so dass beispielsweise erkannt werden kann, dass www.ibm.com und ibm.co.mx miteinander verbunden sind (Bharat u. Mihaila, 599). Die Beziehung der angegliederten Seiten untereinander ist transitiv, das heißt, wenn sowohl Seite A und Seite B angegliedert sind, als auch Seite A und Seite C angegliedert sind, so sind auch Seite B und Seite C angegliedert und werden dementsprechend nicht gewertet.
Zur Auswahl der Expertenseiten werden im ersten Schritt aus dem Bestand einer Suchmaschinen-Datenbank alle Seiten ausgewählt, die eine Mindestzahl an ausgehenden Links vorweisen können (zum Beispiel fünf). Für jede dieser Seiten wird überprüft, ob sie auch ebenso viele Links auf nicht-angegliederte Seiten enthalten. Ist dies der Fall, so wird die Seite als Expertenseite zugelassen. Seiten, die im Verdacht stehen, auf angegliederte Seiten zu verweisen, werden nicht als Expertenseiten zugelassen.
Falls eine grobe Klassifikation aller vorhandenen Seiten vorliegt, kann auch noch unterschieden werden, ob die Links dem gewünschten Thema zugehörig sind. So können eher zufällige Linkzusammenstellungen von thematischen Quellenverzeichnissen unterschieden werden und entsprechend nur die Verweise gezählt werden, die auf Dokumente der gleichen Klasse zeigen.
Durch die Auswertung und Zusammenstellung der ausgehenden Links der gefundenen Seiten können diejenigen Seiten gefunden werden, die innerhalb der „Community" zum Thema das höchste Ansehen genießen. Es werden nur Seiten gewertet, auf die von mindestens zwei Experten verwiesen wird. Das Ranking der Treffermenge erfolgt nun aufgrund der gezählten Experten-Links: Je mehr Experten auf ein Dokument verweisen, desto wichtiger ist es für das entsprechende Thema.
Spricht man nach Kleinberg von Autoritäten, so bewertet Hilltop nur diejenigen Seiten als Autoritäten, auf die von mehreren Expertenseiten aus verlinkt wird. Da alle Dokumente, die von den Experten nicht oder nicht im gewünschten Maße verlinkt werden, entfallen, werden die Trefferlisten deutlich beschränkt. Damit wendet sich Hilltop gegen eine der zentralen Annahmen des Information Retrieval, nämlich die, dass die zurückgegebenen Trefferlisten möglichst vollständig sein sollen. Gerade dies wird von Hilltop nicht geleistet. Es sollen nur die wichtigsten Seiten angezeigt werden, da angenommen ist, dass der Nutzer sowieso nicht willens oder in der Lage ist, die gesamte Treffermenge durchzusehen.

< 8.3 Kleinbergs HITS  |  Inhaltsverzeichnis  |  8.5 Evaluierung linktopologischer Verfahren >