
Während sich die Untersuchung linktopologischer Verfahren meist auf einen
Vergleich mit anderen Verfahren oder aber dem Vergleich der Systeme untereinander
konzentrieren, sollen in diesem Abschnitt einige Problembereiche linktopologischer
Verfahren dargestellt werden, die als Grundprobleme dieser Verfahren anzusehen
sind. Die Darstellung richtet sich im Wesentlichen auf Probleme, die sich aufgrund
der Grundannahmen dieser Verfahren ergeben.
Qualitätsmodelle. Die bekannten linktopologischen Verfahren
wie PageRank und HITS definieren die Qualität von Dokumenten als deren
Autorität bzw. abgestufte Popularität. Dieser Qualitätsbegriff
lässt alle weiteren Faktoren außer Acht und beschränkt sich
auf die Maßstäbe, die bereits im klassischen Citation Indexing verwendet
wurden. Wie oben bereits näher ausgeführt, liegen die Gründe
für die Popularität dieser Bewertung in der relativ leicht möglichen
Extraktion der Linkstruktur, dem Rückgriff auf etablierte bibliometrische
Verfahren und der hohe Plausibilität der Grundidee.
Motivationen für das Setzen von Links. Linktopologische
Verfahren sehen jeden Link als eine „Empfehlung“ für das Dokument
an, auf welches verwiesen wird. Allerdings gibt es durchaus auch andere Gründe,
auf eine Seite zu verlinken. Die Gleichsetzung der Motivattion für das
Setzen von Links mit der klassischen Motivation beim Zitieren von Literatur
ist nicht haltbar (Smith 2004). An erster Stelle ist die Navigation zu nennen.
Links werden gesetzt, um eine Website zu erschließen und übersichtlich
zu gestalten und damit dem Nutzer die Möglichkeit zu geben, sich in diesem
Informationsraum zu bewegen.
Weiter ins Gewicht fallen bei der Bewertung von Links diejenigen, die zwar inhaltlich
vergeben werden, jedoch keine originäre Empfehlung darstellen. Links werden
beispielsweise als abschreckendes Beispiel gesetzt, um besonders schlechte Dokumente
hervorzuheben oder vor diesen zu warnen. Linktopologische Rankingverfahren können
nicht zwischen Empfehlungen und solchen Warnungen unterscheiden.
Weiterhin werden Links aus Gefälligkeit oder aus Gründen der Werbung
gesetzt. Dabei ist nur schwer zu entscheiden, wo die Manipulation der Suchmaschinen
beginnt und wo es noch in Ordnung ist, der Popularität der eigenen Seite
ein wenig nachzuhelfen. Jede Bitte um einen Link könnte in diesem Sinne
als eine Manipulation betrachtet werden, umgekehrt wäre es aber auch möglich,
den Linkaustausch liberal zu sehen und hier keine oder nur eine sehr weite Grenze
zu setzen.
Wertigkeit einzelner Links. In linktopologischen Verfahren
werden alle Links als gleichwertig angesehen. Dies bedeutet einerseits, dass
beispielsweise die Position eines Links innerhalb eines Dokuments keine Rolle
spielt, obwohl die Position für den Nutzer durchaus von Bedeutung ist und
seine Aufmerksamkeit lenkt (Chakrabarti 2003, 219). Links, die an exponierter
Stelle eines Dokuments stehen, werden mit einer höheren Wahrscheinlichkeit
geklickt als solche, die eher versteckt platziert sind. Dies wird von den linktopologischen
Verfahren nicht berücksichtigt.
Verzerrungen bei der Linkzählung. Tabelle 8.1 zeigt die
bei Linkzählungen üblicherweise vorkommenden Anomalien. Links innerhalb
einer Website (site selflinks) sind bei der Qualitätsbewertung anders anzusehen
als externe Links. Die gängigen linktopologischen Verfahren gehen nicht
davon aus, dass ein externer Link eine „gewichtigere Stimme“ für
ein Dokument ist als ein interner Link.
Links, die automatisch reproduziert werden (beispielsweise wenn auf jeder Seite,
die mit einer bestimmten Software erstellt wurde, automatisch ein Link auf die
Website des Herstellers generiert wird), verzerren die Linkzählung. Auch
diese sollten niedriger gewertet werden als unabhängige, von Menschen gesetzte
Links. Einen ähnlichen Fall stellen untereinander verlinkte Datenbanken
dar; die von ihnen gesetzten Links verstärken sich gegenseitig.
Letztlich sind noch die Spiegel-Sites (mirror sites) zu nennen. Diese reproduzieren
sowohl die Inhalte als auch die Verlinkung bereits bestehender Sites. Die von
diesen ausgehenden Links werden von den Suchmaschinen oft mehrfach gezählt.
Tabelle 8.1. Übliche Anomalien bei der Zählung von Links (Thelwall
2004, 26)
| Source of anomaly | Reason for anomaly |
| Site selflinks | Target page quality judgements are different from those for intersite links |
| Replicated links | Computer-created and/or not created individually and independently |
| Interlinked databases | Computer-created and/or not created individually and independently |
| Mirror sites | Authors are not associated with the host site |
Bevorzugen bestimmter Seiten beim Setzen von Links. Beim Setzen von Links werden
diejenigen Seiten bevorzugt, die bereits gut durch Suchmaschinen gefunden werden
bzw. die eine hohe Wahrscheinlichkeit haben, überhaupt von einem Nutzer
angesehen zu werden. Hier ist an das oben angesprochene Random-Surfer-Modell
zu denken. Neue Links werden also nicht gleichmäßig auf alle Seiten
verteilt, sondern es liegt ein preferential attachment (bevorzugte Anfügung)
vor.
In der Untersuchung von Pennock et al. (2002) wird allerdings festgestellt,
dass zwar tatsächlich preferential attachment vorliegt, allerdings wird
dies relativiert, wenn statt des gesamten Web-Graphen nur Teilgraphen, die ein
bestimmtes Thema abbilden, betrachtet werden. So wurde bei der Untersuchung
von Universitäts- und Unternehmens-Homepages herausgefunden, dass sich
dort nicht wie bei vorliegendem preferential attachment die meisten Links auf
nur wenige Seiten verteilen, sondern eine hohe Anzahl von Seiten existiert,
die eine mittlere Anzahl von Links auf sich ziehen kann.
Bearbeitung unterschiedlicher Anfragetypen. Die Anfragen an Suchmaschinen lassen
sich auf verschiedene Weise unterteilen. Broder (2002) schlägt ein einfaches
Modell vor, indem er Suchanfragen in navigationsorientierte, informationsorientierte
und transaktionsorientierte Anfragen einteilt (vgl. Kap. 2.5). In zwei Untersuchungen
(Nutzerbefragung und Logfile-Analyse) werden die gestellten Anfragen jeweils
einer der Klassen zugeordnet. Die Auswertung ergibt, dass auf jede Klasse ein
nennenswerter Anteil von Suchanfragen entfällt. Die Ergebnisse werden durch
die Logfile-Analysen von Spink u. Jansen bestätigt, die eine zunehmende
Anzahl von navigationsorientierten Anfragen verzeichnen (Spink u. Jansen 2004,
77).
Navigationsorientierte Anfragen fragen nach einer bestimmten Webseite, die aufgespürt
werden soll, beispielsweise nach der Homepage des einer Institution oder Person.
Informationsorientierte Anfragen fragen nach einer Menge von Dokumenten, die
zu einem Thema Auskunft gibt. Transaktionsorientierte Anfragen schließlich
zielen beispielsweise auf einen Buchungs-, Bestell- oder Downloadvorgang, also
auf eine Transaktion im weiteren Sinne, ab.
Ein Ranking mittels linktopologischer Verfahren entfaltet seine Stärken
bei den navigationsorientierten Anfragen. In einer Untersuchung wurde gezeigt,
dass ein linktopologisches Verfahren nur bei der Suche nach Homepages Vorteile
gegenüber anderen Verfahren bringt (Savoy u. Rasolofo 2000).
Integration neuer Dokumente in den Index. Während klassische Rankingverfahren
neue wie auch alte Dokumente gleich behandeln, ergibt sich bei linktopologischen
Verfahren das Problem, dass neue Dokumente oft nur einen Link (nämlich
von der eigenen Website) haben. Diese werden dann aufgrund der fehlenden In-Links
niedriger gewichtet als bereits durch eine umfangreiche Verlinkung „etablierte“
Dokumente.
Zwar werden von den Suchmaschinen hier Ausgleichsfaktoren angewendet (vgl. Lewandowski
2004b), tendenziell sind jedoch ältere Dokumente trotzdem im Vorteil. Dazu
kommt, dass bereits stark verlinkte Dokumente eher gefunden werden und damit
die Wahrscheinlichkeit steigt, dass Links auf sie gesetzt werden.