Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 8.1 Grundlagen linktopologischer Rankingverfahren: Science Citation Indexing
< 8 Linktopologische Rankingverfahren  |  Inhaltsverzeichnis  |  8.2 PageRank >
8.1 Grundlagen linktopologischer Rankingverfahren: Science Citation Indexing

Grundlagen linktopologischer Rankingverfahren: Science Citation Indexing

Die grundlegenden Ideen der linktopologischen Verfahren gehen zurück auf die Arbeit an wissenschaftlichen Zitationsindizes. Hier ist vor allem der Name Eugene Garfield zu nennen. Seine Grundannahme lautet, dass das Zitieren einer Quelle ein Ausdruck der Wertschätzung dieser Quelle ist. Durch die Häufigkeit der Zitierungen lässt sich der Wert der zitierten Quelle bestimmen. Im Rahmen der Science Citation Indexes wird jede Zitation gleich bewertet. Dies ist in gewisser Weise durch die vorgelagerte Auswahl der in den Index eingehenden Zeitschriften gerechtfertigt ; allerdings wird die - wie später gezeigt werden wird - außerordentlich wichtige Frage der Gewichtung zumindest theoretisch in den Schriften Garfields behandelt (Garfield 1979, 247f.).
Mit Hilfe der Zitationsanalyse können bedeutende Dokumente gefunden werden, also nach diesem Ansatz diejenigen Dokumente, die häufig zitiert werden. Jede Referenz auf einen Artikel wird als Stimme für diesen gewertet, dabei findet keine Unterscheidung nach der Quelle, aus der die Zitation stammt, statt. Für die Auswertung werden die Zitationen zusammengezählt; die Artikel, die am häufigsten zitiert werden, gelten als die bedeutendsten.
Sollen „Hitlisten“ von Autoren oder Institutionen erstellt werden, so wird die Zahl der Zitationen durch die Anzahl der berücksichtigten, zitierten Artikel geteilt, um zu verhindern, dass Autoren, die bereits viele Aufsätze veröffentlicht haben bzw. Institutionen mit vielen Mitarbeitern, in der Wertung bevorzugt werden.
Nach Mandl (2003a, [7]) wird die Zitationsanalyse und mit ihr die Betrachtung von Qualität als Autorität vor allem aus drei Gründen als Basis der Qualitätsbewertung in Suchmaschinen verwendet:
• „Die Verbindungen einer Seite lassen sich technisch relativ einfach extrahieren und analysieren.
• Ein Link kann vereinfacht wie ein Zitat behandelt werden und somit kann die Untersuchung der Autorität im Internet mit der Bibliometrie auf eine etablierte Wissenschaft und ihre Methoden zugreifen.
• Die Grundidee besitzt eine hohe Plausibilität und erzeugt durch ihre Einfachheit den Anschein hoher Transparenz." (Mandl 2003a, [7])
Die beiden grundlegenden Arbeiten zu linktopologischen Rankingverfahren (Page et al. 1998; Kleinberg 1999) beziehen sich explizit auf die Zitationsanalyse nach Garfield.
Natürlich ist die Form der Bedeutungsmessung, wie sie in Zitationsindizes verwendet wird, nicht unumstritten. Stock (2001) führt unter anderem die folgenden Faktoren an, die die Zahl der Zitationen beeinflussen:
• Reviewartikel werden häufiger zitiert als Originalarbeiten; die Autoren von Reviewartikeln werden deshalb in der Wertung bevorzugt.
• Gewisse Dokumenttypen wie beispielsweise Leserbriefe werden als Artikel ausgeschlossen, werden aber trotzdem zitiert. Damit gehen die auf sie entfallenden Zitate mit in die Wertung ein.
Dazu kommt, dass sich das Zitierverhalten innerhalb der unterschiedlichen Wissenschaftsdisziplinen deutlich voneinander unterscheidet.
Von Bedeutung für die vorliegende Untersuchung sind solche Unterschiede im Zitierverhalten deshalb, weil sie die Frage aufwerfen, inwieweit ähnliche Unterschiede auch beim Setzen von Links im WWW vorhanden sind. Linktopologische Verfahren werten nicht jeden Link als gleichwertig, sondern unterscheiden die Links nach ihrer Qualität wiederum aufgrund der Verlinkungsstruktur.
Im Zitierverhalten dürfte es eine Gemeinsamkeit zwischen Wissenschaft und Web-Autoren geben: Arbeiten bzw. Seiten, die bereits häufig zitiert wurden, werden aufgrund der erlangten Popularität weiterhin häufig zitiert. Bei den Suchmaschinen dürfte dies insbesondere zutreffen, da Dokumente, die bereits eine hohe Anzahl von Links auf sich gezogen haben, in den Trefferlisten bevorzugt angezeigt werden. Auf die Frage der Bevorzugung von bereits populären Dokumenten, dem sog. preferential attachment, wird in Abschnitt 8.6 näher eingegangen.
Als für den Suchmaschinen-Bereich besonders bedeutend angesehen werden muss ein Problem, das auch bereits in der Diskussion um die Zuverlässigkeit der Zitationsindizes auftaucht, und zwar das der Selbst- und Gefälligkeitszitationen. Selbstzitation bedeutet, dass ein Autor seine eigenen Artikel in weiteren Veröffentlichungen zitiert; teils nur, um ihre Bedeutung (ihren impact) zu erhöhen. Gleiches lässt sich auch durch Zitierungen innerhalb einer Gruppe von Wissenschaftlern erreichen, die sich gegenseitig zitiert (sog. Zitierkartelle).
Während akademische Aufsätze dem Peer-Review-Verfahren unterliegen, bevor sie in Zeitschriften veröffentlicht werden, findet bei Webseiten keinerlei Qualitätskontrolle statt. Page et al. (1998, 1) betonen, dass es mit Hilfe entsprechender Software leicht möglich ist, eine große Anzahl von Webseiten zu generieren und mit diesen auch einfache Zitationsanalysen manipulieren zu können. Die Zitationen können also selbst erstellt werden, es ist keine weitere Partei notwendig, die das eigene Werk zitiert.
In Suchmaschinen wird massiv versucht, auf diese Weise Einfluss auf das Ranking zu nehmen. Da die textbasierten Methoden der Manipulation durch das Aufkommen der linktopologischen Verfahren nur noch eine eingeschränkte Wirkung erzielten, wurden bald auch Verlinkungsstrukturen künstlich erzeugt, um die Suchmaschinen von der „Bedeutung" einer Seite zu überzeugen. Unter dem Stichwort „Search Engine Optimization" (SEO) hat sich mittlerweile eine eigene Branche herausgebildet, der von der Manipulation der Suchmaschinenergebnisse lebt.

< 8 Linktopologische Rankingverfahren  |  Inhaltsverzeichnis  |  8.2 PageRank >