3.1 Die Größe des indexierbaren Web
Die Größe des indexierbaren Web
Soll die Größe des Web berechnet werden, so muss zuerst gefragt werden,
welche Dokumente überhaupt zu „dem Web" gezählt werden. Einerseits
besteht die Möglichkeit, sich auf diejenigen Dokumente zu beschränken,
die von Suchmaschinen indiziert werden können, andererseits kann man auch
die nicht indizierbaren Dokumente dazu rechnen, also jedes im Web vorhandene Dokument
werten. Bei letzterem Ansatz besteht allerdings (neben anderen) das Problem der
kostenpflichtigen Datenbanken, die „über das Web" erreichbar sind.
Werden diese mitgerechnet, so sinkt die Abdeckungsquote durch Suchmaschinen erheblich,
obwohl es nicht im Ermessen oder an den technischen Beschränkungen der Suchmaschinen
liegt, diese Dokumente in den Index aufzunehmen. Auf die Frage, welche Dokumente
überhaupt von den Suchmaschinen erschlossen werden (können), wird in
Abschnitt 3.4 näher eingegangen.
Vergleiche von Suchmaschinen werten oft die relative Indexgröße dieser
Suchmaschinen aus, um zu Aussagen über den Abdeckungsgrad einzelner Suchmaschinen
zu gelangen. Dabei werden Anfragen gestellt und die erzielte Anzahl der Treffer
in den unterschiedlichen Suchmaschinen verglichen (vgl. u.a. Notess 2003a). Lawrence
und Giles (1998, 98) weisen darauf hin, dass solche Vergleiche jedoch nur von
beschränkter Aussagekraft sind, da die Suchmaschinen oft Dokumente ausgeben,
die keine exakte Übereinstimmung mit den Suchtermen enthalten. Dies könne
etwa daran liegen, dass die Information-Retrieval-Technologie mancher Suchmaschinen
keine exakte Übereinstimmung zwischen Suchtermen und Termen im Dokument verlangt,
dass die aufgelisteten Dokumente nicht mehr vorhanden seien oder aber, dass die
Dokumente zwar noch vorhanden seien, ihr Inhalt sich aber mittlerweile verändert
habe. Zwar mögen die zusätzlich ausgegebenen Dokumente relevant sein,
sie verhindern aber eine treffende Schätzung der Abdeckung der jeweiligen
Suchmaschine auf Basis der angegebenen Trefferzahl. Zu ergänzen sind hier
noch die unzutreffenden Angaben der Trefferzahlen durch die Suchmaschinen, bei
denen es sich (zumindest bei größeren Treffermengen) um Hochrechungen
handelt.
Lawrence und Giles (1998) verwenden daher ein anderes Verfahren, um zu einer Schätzung
der Gesamtgröße des Web und seiner Abdeckung durch Suchmaschinen zu
kommen. In der ersten Untersuchung von 1998 wurden 575 von Wissenschaftlern des
NEC Research Institute gestellte Suchanfragen ausgewertet.
Um nun die Gesamtmenge der im WWW vorhandenen Dokumente zu errechnen, werden zuerst
die Überschneidungen zwischen jeweils zwei Suchmaschinen gemessen. Dabei
wird der relative Anteil des Web, der von einer Suchmaschine a abgedeckt wird
(pa), durch Teilung der Schnittmenge der von Suchmaschine a und b ausgegebenen
Dokumente durch die Anzahl der von Suchmaschine b ausgegebenen Dokumente ermittelt.
Um nun von diesem relativen Anteil zu einem absoluten Wert (der Gesamtgröße
des indexierbaren Web) zu gelangen, wird die (bereits vor der Untersuchung bekannte)
Zahl der von einer Suchmaschine indexierten Dokumente (in diesem Fall HotBot mit
damals 110 Millionen Dokumenten) durch pa geteilt.
Auf Basis der Überschneidung der beiden größten Suchmaschinen
(damals HotBot und AltaVista) wird der Gesamtumfang des indexierbaren Web auf
320 Millionen Dokumente geschätzt. Diese Zahl ist inzwischen deutlich überholt;
die Indexgrößen der führenden Suchmaschinen liegen heute durchweg
im Milliarden-Bereich (vgl. Abbildung 3.1).
Die Abdeckung der untersuchten Suchmaschinen lag in der Untersuchung von Lawrence
und Giles (1998) zwischen drei und 34 Prozent. Bei Verwendung aller genannten
Suchmaschinen wird eine Abdeckung von etwa 60 Prozent erreicht. Die Autoren empfehlen
aus diesem Grund u.a. die Nutzung von Meta-Suchmaschinen, welche die Ergebnisse
von unterschiedlichen Suchmaschinen kumulieren (s. auch Kapitel 2.2).
In einer zweiten Untersuchung wählten Lawrence and Giles (1999) ein anderes
Verfahren, um die Größe des indexierbaren Web zu bestimmen. Sie wählen
zufällig IP-Adressen aus allen möglichen IP-Adressen aus, gleich, ob
diese besetzt sind oder nicht. Die ermittelten aktiven IP-Adressen (d.h. diejenigen,
hinter denen ein Server steht) werden daraufhin untersucht, ob es sich um einen
öffentlichen, d.h. durch Suchmaschinen indexierbaren Server handelt. Von
einem Sample aus 3,6 Millionen IP-Adressen bleiben so 2,8 Millionen übrig.
Aus diesen werden wiederum zufällig 2.500 ausgewählt, deren durchschnittliche
Anzahl von Seiten (289) als Grundlage der Hochrechnung genommen wird. So kommen
die Autoren zu dem Schluss, dass das indexierbare Web etwa 800 Millionen Seiten
umfasst.
Die Abdeckung dieser Seiten durch Suchmaschinen wird mit 1.050 Anfragen getestet.
Die am besten abschneidende Suchmaschine (Northern Light) deckt nur 16 Prozent
des indexierbaren Web ab, alle untersuchten Suchmaschinen zusammen kommen auf
42 Prozent. Die zweite Untersuchung kommt also zu noch schlechteren Ergebnissen
für die Suchmaschinen. Leider liegen seit der Untersuchung von 1999 keine
weiteren Aktualisierungen vor.
Ein Projekt, das sich mit der Größe und Entwicklung des öffentlichen
Web (im Sinne des indexierbaren Web) beschäftigt, ist das Web Characterization
Project des Online Computer Library Center (OCLC). Die Größe des Web
wird aufgrund eines Zufallssamples von 0,1 Prozent der möglichen IP-Adressen
berechnet. Die ausgewählten IP-Adressen werden per HTTP-Request angefragt;
im Falle einer erfolgreichen Rückmeldung wird die Website indexiert, um ihren
Umfang zu ermitteln. Dubletten werden ausgefiltert, um die Anzahl eigenständiger
Websites zu ermitteln. Daten aus dieser Untersuchung liegen für den Zeitraum
von 1998 bis 2002 vor. Für 2002 wurde die Anzahl der öffentlichen Websites
mit 3,08 Millionen angegeben. Die durchschnittliche Anzahl von Seiten je Website
betrug 441, so dass sich eine Größe des öffentlichen Web von etwa
1,4 Milliarden Seiten ergab (O'Neill et al. 2003).
Diese Zahlen widersprechen allerdings sowohl den von den Suchmaschinen-Betreibern
selbst für das Jahr 2002 angegebenen Indexgrößen (Sullivan 2003)
als auch statistischer Berechnungen der „wahren" Indexgrößen
(Notess 2003a). Demnach wären die Indizes einiger Suchmaschinen umfangreicher
als das gesamte öffentliche Web. Allein durch in den Indizes vorhandene Dubletten
lässt sich dieses Phänomen nicht erklären.
Generell bleibt also das Problem der unbekannten Größe des WWW bestehen.
Henzinger und Lawrence (2004, 5186) kommen zu dem Schluss, dass „the sheer
size of the web has led to a situation where even simple statistics about it are
unknown, for example, its size or the percentage of pages in a certain language."
Seit den Untersuchungen von Lawrence und Giles sind die Indizes der Suchmaschinen
massiv gewachsen (vgl. Abb. 3.1). Zwar ist nicht bekannt, wie groß das Web
mittlerweile ist und welcher Anteil davon durch Suchmaschinen abgedeckt wird,
es ist jedoch anzunehmen, dass die Verbesserungen bei den Suchmaschinen trotz
dem weiteren Wachstum des Web zu einer größeren Abdeckung geführt
haben.
Im weiteren Verlauf dieses Kapitels soll nun auf Problembereiche eingegangen werden,
die die Indexierung von Dokumenten durch Suchmaschinen entweder verhindern oder
doch zumindest erschweren.