
Die Struktur des Web aufgrund der Verlinkung der Dokumente zeigt Abbildung
3.2. Demnach besteht das Web einem Kernbestand an Dokumenten, die stark untereinander
verbunden sind (der sog. SSC - Strongly Connected Core). Des Weiteren gibt es
einen Bereich, der auf den SSC verweist (IN) sowie einen, auf den vom SSC aus
verwiesen wird (OUT). Verbindungen zwischen dem IN- und dem OUT-Bereich existieren
nur vereinzelt („tubes"). Neben den verbundenen Bereichen existieren
sog. tendrils („Ranken"), die zwar mit einem der drei großen
Subgraphen verbunden, jedoch insgesamt relativ isoliert sind. Jeder der vier
Bereiche macht nach der Untersuchung von Broder et al. (2000) etwa ein Viertel
des untersuchten Web aus (insgesamt wurden die Verlinkungen zwischen etwa 200
Millionen Dokumente untersucht). Weit kleiner als die genannten vier Bereiche
ist die Zahl der unverbundenen Seiten („disconnected components").
Aufgrund der Größe und der Anordnung der Verlinkungsstruktur sprechen
Broder et al. von einer „Bow-Tie-Struktur" (Fliegen-Struktur) des
Web. Allerdings existieren keine Untersuchungen, die der Frage nachgehen, ob
es sich bei dieser Fliegen-Struktur um eine dem Web grundsätzlich eigene
Struktur handelt oder ob sich diese im Lauf der Zeit verändert (hat) (Chakrabarti
2003, 246).
In der weiteren Diskussion soll die Fliegen-Struktur zur Grundlage genommen
werden, da sie in der Lage ist, die Struktur des Web zu beschreiben und bisher
keine andere Struktur gefunden wurde, die zur Grundlage genommen werden könnte.
Weiterhin ist anzunehmen, dass selbst bei einer veränderten Struktur gewisse
für die Suchmaschinen relevanten Merkmale beibehalten blieben.
Aus der Fliegen-Struktur lassen sich für das Auffinden von Web-Dokumenten
folgende Schlüsse ziehen: Erstens lassen sich durch das einfache Verfolgen
von Links nicht alle Web-Dokumente aufspüren. Diese Feststellung ist von
besonders hoher Bedeutung, da alle eingesetzten Systeme auf genau dieser Annahme
basieren und als einzige ergänzende Methoden zum Aufspüren unbekannter
Dokumente manuelle Anmeldeverfahren sowie teilweise Paid-Inclusion-Programme
einsetzen.
Der zweite wichtige Schluss, der sich aus der Fliegen-Struktur ergibt, ist,
dass sich Dokumente im IN-Bereich des Web deutlich schwieriger aufspüren
lassen als solche im Kernbereich oder im OUT-Bereich.
Wenn nun nicht alle Web-Dokumente von den Suchmaschinen erfasst werden, so stellt
sich die Frage, ob die Dokumente wenigstens „gleichmäßig"
erfasst werden, d.h. ob die Abdeckung des Web beispielsweise in Bezug auf unterschiedliche
Länder gleich bzw. ähnlich ist oder ob es hier große Unterschiede
gibt.

Abb. 3.2. Bow-Tie-Struktur des Web (Broder et al. 2000)
Vaughan und Thelwall (2004) untersuchen die Abdeckung von Websites in unterschiedlichen
Ländern durch drei Universalsuchmaschinen. Dabei wird zwei Fragen nachgegangen:
1. Wie hoch ist der Anteil der erfassten Websites? 2. Welchen Anteil der Dokumente
dieser Sites erfassen die untersuchten Suchmaschinen?
In die Untersuchung einbezogen werden die Suchmaschinen Google, All the Web
und AltaVista. Die untersuchten Länder sind die Vereinigten Staaten, China,
Singapur und Taiwan. Die Länder sind so gewählt, dass bei der Auswertung
der Ergebnisse eine Unterscheidung getroffen werden kann, ob eine eventuell
auftauchende Verzerrung aufgrund der Sprache oder aufgrund der Verlinkungsstruktur
besteht. Für die USA und Singapur wurden englischsprachige Seiten ausgewertet,
für China und Taiwan jeweils chinesischsprachige.
Die für die Untersuchung ausgewählten Sites stammen aus einem Zufallssample
kommerzieller Sites aus den ausgewählten Ländern. Diese wurden über
zufällig generierte IP-Nummern ermittelt. Ein Versuchscrawler indexierte
dann alle Dokumente, die auf dem Server durch Verfolgung von Links gefunden
wurden. Die untersuchten Suchmaschinen hatten gegenüber dem Versuchscrawler
den Vorteil, durch Links von anderen Seiten eventuell Kenntnis über Unterseiten
zu haben, die durch reine Linkverfolgung von der Startseite aus nicht zu erreichen
sind.
Die Untersuchung ergab, dass die Abdeckung der Sites nach Ländern und Suchmaschinen
erheblich differiert. Die beste Abdeckung ergab sich wie erwartet bei den US-Sites,
sie lag hier zwischen 80 und 87 Prozent. Die Abdeckung der Sites aus China lag
zwischen 52 und 70 Prozent, derjenigen aus Singapur zwischen 41 und 56 Prozent
und der aus Taiwan zwischen vier und 75 Prozent, wobei hier AltaVista mit nur
vier Prozent Abdeckung einen deutlichen Ausreißer gegenüber den anderen
beiden Suchmaschinen darstellt (siehe Tabelle 3.1).
Auch bei der Tiefe der Indexierung der Sites zeigen sich deutliche Unterschiede.
Während von den US-Sites durchschnittlich 89 Prozent der Seiten indexiert
werden, sind dies bei den Sites aus China nur 22 Prozent und bei denen aus Taiwan
sogar nur drei Prozent (Vaughan u. Thelwall 2004, 701).
Die Autoren müssen ihre am Beginn der Studie aufgestellte Hypothese, dass
chinesischsprachige Sites aufgrund der technischen Probleme der Indexierung
von nicht im ASCII-Zeichensatz darstellbaren Sprachen benachteiligt werden,
verwerfen. Die Benachteiligung gilt ebenso für die englischsprachigen Seiten
aus Singapur.
Erklären lässt sich die Benachteiligung von Nicht-US-Seiten durch
die Linkstruktur: Sites, die viele Links auf sich ziehen, werden mit höherer
Wahrscheinlichkeit (und tiefer) indexiert als solche, die keine oder nur wenige
Links auf sich ziehen konnten. Allerdings ist hier zu beachten, dass dies auf
Links von Seiten beschränkt ist, die ihrerseits von Suchmaschinen indexiert
sind. Vaughan und Thelwall führen die bessere Verlinkung der US-Sites auf
Startvorteile zurück. Dadurch, dass das Web zuerst in den USA populär
wurde, haben die Suchmaschinen länger Zeit gehabt, diesen Bestand zu erschließen.
Weiterhin würden Links eher auf Seiten des eigenen Landes gesetzt als auf
ausländische (Vaughan u. Thelwall 2004, 704).
Kombiniert man die Ergebnisse von Vaughan und Thelwall mit der Bow-Tie-Struktur
des Web, so lässt sich sagen, dass im Strongly Connected Core zu einem
hohen Anteil US-Seiten enthalten sein müssen. Diese Seiten werden am besten
von den Suchmaschinen indexiert.
Tabelle 3.1. Prozentsatz der abgedeckten Websites (Vaughan u. Thelwall 2004,
700)
| U.S. | China | Singapore | Taiwan | Durchschnitt | |
| 87% | 70% | 56% | 75% | 72% | |
| AllTheWeb | 83% | 61% | 50% | 75% | 67% |
| AltaVista | 80% | 52% | 41% | 4% | 44% |
| Average | 83% | 61% | 49% | 51% | 61% |
Ein wichtiger Schluss, der sich aus der Studie ergibt, ist die Feststellung,
dass durchaus ein Bedarf für national, sprachlich oder thematisch orientierte
Suchmaschinen besteht (Vaughan u. Thelwall 2004, 705). Diese haben (zumindest
im deutschsprachigen Raum) in den letzten Jahren an Bedeutung verloren, da ihre
ursprüngliche Legitimation (die mangelnde Abdeckung des „deutschen
Web") hinfällig geworden zu sein schien. Durch die massive Erweiterung
der Indizes der internationalen Universalsuchmaschinen glaubte man, auch mit
diesen ähnlich große bzw. größere Dokumentmengen in der
Landessprache zu finden.
Leider schließt die Studie von Vaughan und Thelwall den deutschen Sprachraum
nicht mit ein. Hier wären Untersuchungen zu wünschen, die die Abdeckung
deutschsprachiger Websites durch internationale und auf den deutschen Sprachraum
beschränkte Suchmaschinen vergleichen.