Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 3.1 Die Größe des indexierbaren Web
< 3 Die Größe des Web und seine Abdeckung durch Suchmaschinen  |  Inhaltsverzeichnis  |  3.2 Die Struktur des Web >
3.1 Die Größe des indexierbaren Web

Die Größe des indexierbaren Web

Soll die Größe des Web berechnet werden, so muss zuerst gefragt werden, welche Dokumente überhaupt zu „dem Web" gezählt werden. Einerseits besteht die Möglichkeit, sich auf diejenigen Dokumente zu beschränken, die von Suchmaschinen indiziert werden können, andererseits kann man auch die nicht indizierbaren Dokumente dazu rechnen, also jedes im Web vorhandene Dokument werten. Bei letzterem Ansatz besteht allerdings (neben anderen) das Problem der kostenpflichtigen Datenbanken, die „über das Web" erreichbar sind. Werden diese mitgerechnet, so sinkt die Abdeckungsquote durch Suchmaschinen erheblich, obwohl es nicht im Ermessen oder an den technischen Beschränkungen der Suchmaschinen liegt, diese Dokumente in den Index aufzunehmen. Auf die Frage, welche Dokumente überhaupt von den Suchmaschinen erschlossen werden (können), wird in Abschnitt 3.4 näher eingegangen.
Vergleiche von Suchmaschinen werten oft die relative Indexgröße dieser Suchmaschinen aus, um zu Aussagen über den Abdeckungsgrad einzelner Suchmaschinen zu gelangen. Dabei werden Anfragen gestellt und die erzielte Anzahl der Treffer in den unterschiedlichen Suchmaschinen verglichen (vgl. u.a. Notess 2003a). Lawrence und Giles (1998, 98) weisen darauf hin, dass solche Vergleiche jedoch nur von beschränkter Aussagekraft sind, da die Suchmaschinen oft Dokumente ausgeben, die keine exakte Übereinstimmung mit den Suchtermen enthalten. Dies könne etwa daran liegen, dass die Information-Retrieval-Technologie mancher Suchmaschinen keine exakte Übereinstimmung zwischen Suchtermen und Termen im Dokument verlangt, dass die aufgelisteten Dokumente nicht mehr vorhanden seien oder aber, dass die Dokumente zwar noch vorhanden seien, ihr Inhalt sich aber mittlerweile verändert habe. Zwar mögen die zusätzlich ausgegebenen Dokumente relevant sein, sie verhindern aber eine treffende Schätzung der Abdeckung der jeweiligen Suchmaschine auf Basis der angegebenen Trefferzahl. Zu ergänzen sind hier noch die unzutreffenden Angaben der Trefferzahlen durch die Suchmaschinen, bei denen es sich (zumindest bei größeren Treffermengen) um Hochrechungen handelt.
Lawrence und Giles (1998) verwenden daher ein anderes Verfahren, um zu einer Schätzung der Gesamtgröße des Web und seiner Abdeckung durch Suchmaschinen zu kommen. In der ersten Untersuchung von 1998 wurden 575 von Wissenschaftlern des NEC Research Institute gestellte Suchanfragen ausgewertet.
Um nun die Gesamtmenge der im WWW vorhandenen Dokumente zu errechnen, werden zuerst die Überschneidungen zwischen jeweils zwei Suchmaschinen gemessen. Dabei wird der relative Anteil des Web, der von einer Suchmaschine a abgedeckt wird (pa), durch Teilung der Schnittmenge der von Suchmaschine a und b ausgegebenen Dokumente durch die Anzahl der von Suchmaschine b ausgegebenen Dokumente ermittelt. Um nun von diesem relativen Anteil zu einem absoluten Wert (der Gesamtgröße des indexierbaren Web) zu gelangen, wird die (bereits vor der Untersuchung bekannte) Zahl der von einer Suchmaschine indexierten Dokumente (in diesem Fall HotBot mit damals 110 Millionen Dokumenten) durch pa geteilt.
Auf Basis der Überschneidung der beiden größten Suchmaschinen (damals HotBot und AltaVista) wird der Gesamtumfang des indexierbaren Web auf 320 Millionen Dokumente geschätzt. Diese Zahl ist inzwischen deutlich überholt; die Indexgrößen der führenden Suchmaschinen liegen heute durchweg im Milliarden-Bereich (vgl. Abbildung 3.1).
Die Abdeckung der untersuchten Suchmaschinen lag in der Untersuchung von Lawrence und Giles (1998) zwischen drei und 34 Prozent. Bei Verwendung aller genannten Suchmaschinen wird eine Abdeckung von etwa 60 Prozent erreicht. Die Autoren empfehlen aus diesem Grund u.a. die Nutzung von Meta-Suchmaschinen, welche die Ergebnisse von unterschiedlichen Suchmaschinen kumulieren (s. auch Kapitel 2.2).
In einer zweiten Untersuchung wählten Lawrence and Giles (1999) ein anderes Verfahren, um die Größe des indexierbaren Web zu bestimmen. Sie wählen zufällig IP-Adressen aus allen möglichen IP-Adressen aus, gleich, ob diese besetzt sind oder nicht. Die ermittelten aktiven IP-Adressen (d.h. diejenigen, hinter denen ein Server steht) werden daraufhin untersucht, ob es sich um einen öffentlichen, d.h. durch Suchmaschinen indexierbaren Server handelt. Von einem Sample aus 3,6 Millionen IP-Adressen bleiben so 2,8 Millionen übrig. Aus diesen werden wiederum zufällig 2.500 ausgewählt, deren durchschnittliche Anzahl von Seiten (289) als Grundlage der Hochrechnung genommen wird. So kommen die Autoren zu dem Schluss, dass das indexierbare Web etwa 800 Millionen Seiten umfasst.
Die Abdeckung dieser Seiten durch Suchmaschinen wird mit 1.050 Anfragen getestet. Die am besten abschneidende Suchmaschine (Northern Light) deckt nur 16 Prozent des indexierbaren Web ab, alle untersuchten Suchmaschinen zusammen kommen auf 42 Prozent. Die zweite Untersuchung kommt also zu noch schlechteren Ergebnissen für die Suchmaschinen. Leider liegen seit der Untersuchung von 1999 keine weiteren Aktualisierungen vor.
Ein Projekt, das sich mit der Größe und Entwicklung des öffentlichen Web (im Sinne des indexierbaren Web) beschäftigt, ist das Web Characterization Project des Online Computer Library Center (OCLC). Die Größe des Web wird aufgrund eines Zufallssamples von 0,1 Prozent der möglichen IP-Adressen berechnet. Die ausgewählten IP-Adressen werden per HTTP-Request angefragt; im Falle einer erfolgreichen Rückmeldung wird die Website indexiert, um ihren Umfang zu ermitteln. Dubletten werden ausgefiltert, um die Anzahl eigenständiger Websites zu ermitteln. Daten aus dieser Untersuchung liegen für den Zeitraum von 1998 bis 2002 vor. Für 2002 wurde die Anzahl der öffentlichen Websites mit 3,08 Millionen angegeben. Die durchschnittliche Anzahl von Seiten je Website betrug 441, so dass sich eine Größe des öffentlichen Web von etwa 1,4 Milliarden Seiten ergab (O'Neill et al. 2003).
Diese Zahlen widersprechen allerdings sowohl den von den Suchmaschinen-Betreibern selbst für das Jahr 2002 angegebenen Indexgrößen (Sullivan 2003) als auch statistischer Berechnungen der „wahren" Indexgrößen (Notess 2003a). Demnach wären die Indizes einiger Suchmaschinen umfangreicher als das gesamte öffentliche Web. Allein durch in den Indizes vorhandene Dubletten lässt sich dieses Phänomen nicht erklären.
Generell bleibt also das Problem der unbekannten Größe des WWW bestehen. Henzinger und Lawrence (2004, 5186) kommen zu dem Schluss, dass „the sheer size of the web has led to a situation where even simple statistics about it are unknown, for example, its size or the percentage of pages in a certain language."
Seit den Untersuchungen von Lawrence und Giles sind die Indizes der Suchmaschinen massiv gewachsen (vgl. Abb. 3.1). Zwar ist nicht bekannt, wie groß das Web mittlerweile ist und welcher Anteil davon durch Suchmaschinen abgedeckt wird, es ist jedoch anzunehmen, dass die Verbesserungen bei den Suchmaschinen trotz dem weiteren Wachstum des Web zu einer größeren Abdeckung geführt haben.
Im weiteren Verlauf dieses Kapitels soll nun auf Problembereiche eingegangen werden, die die Indexierung von Dokumenten durch Suchmaschinen entweder verhindern oder doch zumindest erschweren.
< 3 Die Größe des Web und seine Abdeckung durch Suchmaschinen  |  Inhaltsverzeichnis  |  3.2 Die Struktur des Web >