Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 8.6 Problembereiche linktopologischer Rankingverfahren
< 8.5 Evaluierung linktopologischer Verfahren  |  Inhaltsverzeichnis  |  8.7 Fazit linktopologische Verfahren >
8.6 Problembereiche linktopologischer Rankingverfahren

Problembereiche linktopologischer Rankingverfahren

Während sich die Untersuchung linktopologischer Verfahren meist auf einen Vergleich mit anderen Verfahren oder aber dem Vergleich der Systeme untereinander konzentrieren, sollen in diesem Abschnitt einige Problembereiche linktopologischer Verfahren dargestellt werden, die als Grundprobleme dieser Verfahren anzusehen sind. Die Darstellung richtet sich im Wesentlichen auf Probleme, die sich aufgrund der Grundannahmen dieser Verfahren ergeben.
Qualitätsmodelle. Die bekannten linktopologischen Verfahren wie PageRank und HITS definieren die Qualität von Dokumenten als deren Autorität bzw. abgestufte Popularität. Dieser Qualitätsbegriff lässt alle weiteren Faktoren außer Acht und beschränkt sich auf die Maßstäbe, die bereits im klassischen Citation Indexing verwendet wurden. Wie oben bereits näher ausgeführt, liegen die Gründe für die Popularität dieser Bewertung in der relativ leicht möglichen Extraktion der Linkstruktur, dem Rückgriff auf etablierte bibliometrische Verfahren und der hohe Plausibilität der Grundidee.
Motivationen für das Setzen von Links. Linktopologische Verfahren sehen jeden Link als eine „Empfehlung“ für das Dokument an, auf welches verwiesen wird. Allerdings gibt es durchaus auch andere Gründe, auf eine Seite zu verlinken. Die Gleichsetzung der Motivattion für das Setzen von Links mit der klassischen Motivation beim Zitieren von Literatur ist nicht haltbar (Smith 2004). An erster Stelle ist die Navigation zu nennen. Links werden gesetzt, um eine Website zu erschließen und übersichtlich zu gestalten und damit dem Nutzer die Möglichkeit zu geben, sich in diesem Informationsraum zu bewegen.
Weiter ins Gewicht fallen bei der Bewertung von Links diejenigen, die zwar inhaltlich vergeben werden, jedoch keine originäre Empfehlung darstellen. Links werden beispielsweise als abschreckendes Beispiel gesetzt, um besonders schlechte Dokumente hervorzuheben oder vor diesen zu warnen. Linktopologische Rankingverfahren können nicht zwischen Empfehlungen und solchen Warnungen unterscheiden.
Weiterhin werden Links aus Gefälligkeit oder aus Gründen der Werbung gesetzt. Dabei ist nur schwer zu entscheiden, wo die Manipulation der Suchmaschinen beginnt und wo es noch in Ordnung ist, der Popularität der eigenen Seite ein wenig nachzuhelfen. Jede Bitte um einen Link könnte in diesem Sinne als eine Manipulation betrachtet werden, umgekehrt wäre es aber auch möglich, den Linkaustausch liberal zu sehen und hier keine oder nur eine sehr weite Grenze zu setzen.
Wertigkeit einzelner Links. In linktopologischen Verfahren werden alle Links als gleichwertig angesehen. Dies bedeutet einerseits, dass beispielsweise die Position eines Links innerhalb eines Dokuments keine Rolle spielt, obwohl die Position für den Nutzer durchaus von Bedeutung ist und seine Aufmerksamkeit lenkt (Chakrabarti 2003, 219). Links, die an exponierter Stelle eines Dokuments stehen, werden mit einer höheren Wahrscheinlichkeit geklickt als solche, die eher versteckt platziert sind. Dies wird von den linktopologischen Verfahren nicht berücksichtigt.
Verzerrungen bei der Linkzählung. Tabelle 8.1 zeigt die bei Linkzählungen üblicherweise vorkommenden Anomalien. Links innerhalb einer Website (site selflinks) sind bei der Qualitätsbewertung anders anzusehen als externe Links. Die gängigen linktopologischen Verfahren gehen nicht davon aus, dass ein externer Link eine „gewichtigere Stimme“ für ein Dokument ist als ein interner Link.
Links, die automatisch reproduziert werden (beispielsweise wenn auf jeder Seite, die mit einer bestimmten Software erstellt wurde, automatisch ein Link auf die Website des Herstellers generiert wird), verzerren die Linkzählung. Auch diese sollten niedriger gewertet werden als unabhängige, von Menschen gesetzte Links. Einen ähnlichen Fall stellen untereinander verlinkte Datenbanken dar; die von ihnen gesetzten Links verstärken sich gegenseitig.
Letztlich sind noch die Spiegel-Sites (mirror sites) zu nennen. Diese reproduzieren sowohl die Inhalte als auch die Verlinkung bereits bestehender Sites. Die von diesen ausgehenden Links werden von den Suchmaschinen oft mehrfach gezählt.

Tabelle 8.1. Übliche Anomalien bei der Zählung von Links (Thelwall 2004, 26)

Source of anomaly Reason for anomaly
Site selflinks Target page quality judgements are different from those for intersite links
Replicated links Computer-created and/or not created individually and independently
Interlinked databases Computer-created and/or not created individually and independently
Mirror sites Authors are not associated with the host site

Bevorzugen bestimmter Seiten beim Setzen von Links. Beim Setzen von Links werden diejenigen Seiten bevorzugt, die bereits gut durch Suchmaschinen gefunden werden bzw. die eine hohe Wahrscheinlichkeit haben, überhaupt von einem Nutzer angesehen zu werden. Hier ist an das oben angesprochene Random-Surfer-Modell zu denken. Neue Links werden also nicht gleichmäßig auf alle Seiten verteilt, sondern es liegt ein preferential attachment (bevorzugte Anfügung) vor.
In der Untersuchung von Pennock et al. (2002) wird allerdings festgestellt, dass zwar tatsächlich preferential attachment vorliegt, allerdings wird dies relativiert, wenn statt des gesamten Web-Graphen nur Teilgraphen, die ein bestimmtes Thema abbilden, betrachtet werden. So wurde bei der Untersuchung von Universitäts- und Unternehmens-Homepages herausgefunden, dass sich dort nicht wie bei vorliegendem preferential attachment die meisten Links auf nur wenige Seiten verteilen, sondern eine hohe Anzahl von Seiten existiert, die eine mittlere Anzahl von Links auf sich ziehen kann.
Bearbeitung unterschiedlicher Anfragetypen. Die Anfragen an Suchmaschinen lassen sich auf verschiedene Weise unterteilen. Broder (2002) schlägt ein einfaches Modell vor, indem er Suchanfragen in navigationsorientierte, informationsorientierte und transaktionsorientierte Anfragen einteilt (vgl. Kap. 2.5). In zwei Untersuchungen (Nutzerbefragung und Logfile-Analyse) werden die gestellten Anfragen jeweils einer der Klassen zugeordnet. Die Auswertung ergibt, dass auf jede Klasse ein nennenswerter Anteil von Suchanfragen entfällt. Die Ergebnisse werden durch die Logfile-Analysen von Spink u. Jansen bestätigt, die eine zunehmende Anzahl von navigationsorientierten Anfragen verzeichnen (Spink u. Jansen 2004, 77).
Navigationsorientierte Anfragen fragen nach einer bestimmten Webseite, die aufgespürt werden soll, beispielsweise nach der Homepage des einer Institution oder Person. Informationsorientierte Anfragen fragen nach einer Menge von Dokumenten, die zu einem Thema Auskunft gibt. Transaktionsorientierte Anfragen schließlich zielen beispielsweise auf einen Buchungs-, Bestell- oder Downloadvorgang, also auf eine Transaktion im weiteren Sinne, ab.
Ein Ranking mittels linktopologischer Verfahren entfaltet seine Stärken bei den navigationsorientierten Anfragen. In einer Untersuchung wurde gezeigt, dass ein linktopologisches Verfahren nur bei der Suche nach Homepages Vorteile gegenüber anderen Verfahren bringt (Savoy u. Rasolofo 2000).
Integration neuer Dokumente in den Index. Während klassische Rankingverfahren neue wie auch alte Dokumente gleich behandeln, ergibt sich bei linktopologischen Verfahren das Problem, dass neue Dokumente oft nur einen Link (nämlich von der eigenen Website) haben. Diese werden dann aufgrund der fehlenden In-Links niedriger gewichtet als bereits durch eine umfangreiche Verlinkung „etablierte“ Dokumente.
Zwar werden von den Suchmaschinen hier Ausgleichsfaktoren angewendet (vgl. Lewandowski 2004b), tendenziell sind jedoch ältere Dokumente trotzdem im Vorteil. Dazu kommt, dass bereits stark verlinkte Dokumente eher gefunden werden und damit die Wahrscheinlichkeit steigt, dass Links auf sie gesetzt werden.

< 8.5 Evaluierung linktopologischer Verfahren  |  Inhaltsverzeichnis  |  8.7 Fazit linktopologische Verfahren >