Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 3.2 Die Struktur des Web
< 3.1 Die Größe des indexierbaren Web  |  Inhaltsverzeichnis  |  3.3 Crawling >
3.2 Die Struktur des Web

Die Struktur des Web

Die Struktur des Web aufgrund der Verlinkung der Dokumente zeigt Abbildung 3.2. Demnach besteht das Web einem Kernbestand an Dokumenten, die stark untereinander verbunden sind (der sog. SSC - Strongly Connected Core). Des Weiteren gibt es einen Bereich, der auf den SSC verweist (IN) sowie einen, auf den vom SSC aus verwiesen wird (OUT). Verbindungen zwischen dem IN- und dem OUT-Bereich existieren nur vereinzelt („tubes"). Neben den verbundenen Bereichen existieren sog. tendrils („Ranken"), die zwar mit einem der drei großen Subgraphen verbunden, jedoch insgesamt relativ isoliert sind. Jeder der vier Bereiche macht nach der Untersuchung von Broder et al. (2000) etwa ein Viertel des untersuchten Web aus (insgesamt wurden die Verlinkungen zwischen etwa 200 Millionen Dokumente untersucht). Weit kleiner als die genannten vier Bereiche ist die Zahl der unverbundenen Seiten („disconnected components"). Aufgrund der Größe und der Anordnung der Verlinkungsstruktur sprechen Broder et al. von einer „Bow-Tie-Struktur" (Fliegen-Struktur) des Web. Allerdings existieren keine Untersuchungen, die der Frage nachgehen, ob es sich bei dieser Fliegen-Struktur um eine dem Web grundsätzlich eigene Struktur handelt oder ob sich diese im Lauf der Zeit verändert (hat) (Chakrabarti 2003, 246).
In der weiteren Diskussion soll die Fliegen-Struktur zur Grundlage genommen werden, da sie in der Lage ist, die Struktur des Web zu beschreiben und bisher keine andere Struktur gefunden wurde, die zur Grundlage genommen werden könnte. Weiterhin ist anzunehmen, dass selbst bei einer veränderten Struktur gewisse für die Suchmaschinen relevanten Merkmale beibehalten blieben.
Aus der Fliegen-Struktur lassen sich für das Auffinden von Web-Dokumenten folgende Schlüsse ziehen: Erstens lassen sich durch das einfache Verfolgen von Links nicht alle Web-Dokumente aufspüren. Diese Feststellung ist von besonders hoher Bedeutung, da alle eingesetzten Systeme auf genau dieser Annahme basieren und als einzige ergänzende Methoden zum Aufspüren unbekannter Dokumente manuelle Anmeldeverfahren sowie teilweise Paid-Inclusion-Programme einsetzen.
Der zweite wichtige Schluss, der sich aus der Fliegen-Struktur ergibt, ist, dass sich Dokumente im IN-Bereich des Web deutlich schwieriger aufspüren lassen als solche im Kernbereich oder im OUT-Bereich.
Wenn nun nicht alle Web-Dokumente von den Suchmaschinen erfasst werden, so stellt sich die Frage, ob die Dokumente wenigstens „gleichmäßig" erfasst werden, d.h. ob die Abdeckung des Web beispielsweise in Bezug auf unterschiedliche Länder gleich bzw. ähnlich ist oder ob es hier große Unterschiede gibt.

Abb. 3.2. Bow-Tie-Struktur des Web (Broder et al. 2000)


Vaughan und Thelwall (2004) untersuchen die Abdeckung von Websites in unterschiedlichen Ländern durch drei Universalsuchmaschinen. Dabei wird zwei Fragen nachgegangen: 1. Wie hoch ist der Anteil der erfassten Websites? 2. Welchen Anteil der Dokumente dieser Sites erfassen die untersuchten Suchmaschinen?
In die Untersuchung einbezogen werden die Suchmaschinen Google, All the Web und AltaVista. Die untersuchten Länder sind die Vereinigten Staaten, China, Singapur und Taiwan. Die Länder sind so gewählt, dass bei der Auswertung der Ergebnisse eine Unterscheidung getroffen werden kann, ob eine eventuell auftauchende Verzerrung aufgrund der Sprache oder aufgrund der Verlinkungsstruktur besteht. Für die USA und Singapur wurden englischsprachige Seiten ausgewertet, für China und Taiwan jeweils chinesischsprachige.
Die für die Untersuchung ausgewählten Sites stammen aus einem Zufallssample kommerzieller Sites aus den ausgewählten Ländern. Diese wurden über zufällig generierte IP-Nummern ermittelt. Ein Versuchscrawler indexierte dann alle Dokumente, die auf dem Server durch Verfolgung von Links gefunden wurden. Die untersuchten Suchmaschinen hatten gegenüber dem Versuchscrawler den Vorteil, durch Links von anderen Seiten eventuell Kenntnis über Unterseiten zu haben, die durch reine Linkverfolgung von der Startseite aus nicht zu erreichen sind.
Die Untersuchung ergab, dass die Abdeckung der Sites nach Ländern und Suchmaschinen erheblich differiert. Die beste Abdeckung ergab sich wie erwartet bei den US-Sites, sie lag hier zwischen 80 und 87 Prozent. Die Abdeckung der Sites aus China lag zwischen 52 und 70 Prozent, derjenigen aus Singapur zwischen 41 und 56 Prozent und der aus Taiwan zwischen vier und 75 Prozent, wobei hier AltaVista mit nur vier Prozent Abdeckung einen deutlichen Ausreißer gegenüber den anderen beiden Suchmaschinen darstellt (siehe Tabelle 3.1).
Auch bei der Tiefe der Indexierung der Sites zeigen sich deutliche Unterschiede. Während von den US-Sites durchschnittlich 89 Prozent der Seiten indexiert werden, sind dies bei den Sites aus China nur 22 Prozent und bei denen aus Taiwan sogar nur drei Prozent (Vaughan u. Thelwall 2004, 701).
Die Autoren müssen ihre am Beginn der Studie aufgestellte Hypothese, dass chinesischsprachige Sites aufgrund der technischen Probleme der Indexierung von nicht im ASCII-Zeichensatz darstellbaren Sprachen benachteiligt werden, verwerfen. Die Benachteiligung gilt ebenso für die englischsprachigen Seiten aus Singapur.
Erklären lässt sich die Benachteiligung von Nicht-US-Seiten durch die Linkstruktur: Sites, die viele Links auf sich ziehen, werden mit höherer Wahrscheinlichkeit (und tiefer) indexiert als solche, die keine oder nur wenige Links auf sich ziehen konnten. Allerdings ist hier zu beachten, dass dies auf Links von Seiten beschränkt ist, die ihrerseits von Suchmaschinen indexiert sind. Vaughan und Thelwall führen die bessere Verlinkung der US-Sites auf Startvorteile zurück. Dadurch, dass das Web zuerst in den USA populär wurde, haben die Suchmaschinen länger Zeit gehabt, diesen Bestand zu erschließen. Weiterhin würden Links eher auf Seiten des eigenen Landes gesetzt als auf ausländische (Vaughan u. Thelwall 2004, 704).
Kombiniert man die Ergebnisse von Vaughan und Thelwall mit der Bow-Tie-Struktur des Web, so lässt sich sagen, dass im Strongly Connected Core zu einem hohen Anteil US-Seiten enthalten sein müssen. Diese Seiten werden am besten von den Suchmaschinen indexiert.

Tabelle 3.1. Prozentsatz der abgedeckten Websites (Vaughan u. Thelwall 2004, 700)

  U.S. China Singapore Taiwan Durchschnitt
Google 87% 70% 56% 75% 72%
AllTheWeb 83% 61% 50% 75% 67%
AltaVista 80% 52% 41% 4% 44%
Average 83% 61% 49% 51% 61%

Ein wichtiger Schluss, der sich aus der Studie ergibt, ist die Feststellung, dass durchaus ein Bedarf für national, sprachlich oder thematisch orientierte Suchmaschinen besteht (Vaughan u. Thelwall 2004, 705). Diese haben (zumindest im deutschsprachigen Raum) in den letzten Jahren an Bedeutung verloren, da ihre ursprüngliche Legitimation (die mangelnde Abdeckung des „deutschen Web") hinfällig geworden zu sein schien. Durch die massive Erweiterung der Indizes der internationalen Universalsuchmaschinen glaubte man, auch mit diesen ähnlich große bzw. größere Dokumentmengen in der Landessprache zu finden.
Leider schließt die Studie von Vaughan und Thelwall den deutschen Sprachraum nicht mit ein. Hier wären Untersuchungen zu wünschen, die die Abdeckung deutschsprachiger Websites durch internationale und auf den deutschen Sprachraum beschränkte Suchmaschinen vergleichen.

< 3.1 Die Größe des indexierbaren Web  |  Inhaltsverzeichnis  |  3.3 Crawling >