
Die Betreiber von Suchmaschinen werben in der Regel damit, dass ihre Suchmaschine
den größten Teil des WWW indexiert hätte, wenn nicht gar damit,
„the world's information" zugänglich zu machen (so das Motto
der Firma Google) . In der Tat sind die von den Suchmaschinen selbst angegebenen
Indexgrößen imposant (siehe Abbildung 3.1).
Der Indexierung der Web-Inhalte durch Suchmaschinen sind jedoch sowohl in ökonomischer
als auch in technischer Hinsicht Grenzen gesetzt. Ökonomisch betrachtet
lohnt es sich schlicht nicht, eine möglichst hohe Vollständigkeit
zu erreichen, da nur wenige Dokumente sehr häufig nachgefragt werden, während
manche nur äußerst selten nachgefragt werden. Der Aufbau und die
Pflege eines Web-Index verursachen enorme Kosten, so dass hier ein Mittelweg
zwischen Vollständigkeit und ökonomischer Vertretbarkeit gefunden
werden muss.
Für die vorliegende Arbeit von größerer Bedeutung sind jedoch
die technischen Hindernisse, die Suchmaschinen daran hindern, das komplette
Web zu indexieren. In diesem Kapitel soll erst die Frage nach der Abdeckung
des Web durch Suchmaschinen allgemein gestellt werden, während in den weiteren
Unterkapiteln als Konsequenz daraus spezielle Problembereiche wie das Erreichen
von Vollständigkeit im Crawling-Prozess, die Aktualität der in den
Suchmaschinen-Indizes vorhandenen Dokumente und vor allem der für den weiteren
Gang der Untersuchung wichtigste Bereich, der des sog. „Invisible Web",
behandelt werden sollen.

Abb. 3.1. Indexgrößen der führenden Suchmaschinen (Angaben der
Betreiber und Schätzungen)