Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 3 Die Größe des Web und seine Abdeckung durch Suchmaschinen
< 2.7 Forschungsbereiche  |  Inhaltsverzeichnis  |  3.1 Die Größe des indexierbaren Web >
3 Die Größe des Web und seine Abdeckung durch Suchmaschinen

Die Größe des Web und seine Abdeckung durch Suchmaschinen

Die Betreiber von Suchmaschinen werben in der Regel damit, dass ihre Suchmaschine den größten Teil des WWW indexiert hätte, wenn nicht gar damit, „the world's information" zugänglich zu machen (so das Motto der Firma Google) . In der Tat sind die von den Suchmaschinen selbst angegebenen Indexgrößen imposant (siehe Abbildung 3.1).
Der Indexierung der Web-Inhalte durch Suchmaschinen sind jedoch sowohl in ökonomischer als auch in technischer Hinsicht Grenzen gesetzt. Ökonomisch betrachtet lohnt es sich schlicht nicht, eine möglichst hohe Vollständigkeit zu erreichen, da nur wenige Dokumente sehr häufig nachgefragt werden, während manche nur äußerst selten nachgefragt werden. Der Aufbau und die Pflege eines Web-Index verursachen enorme Kosten, so dass hier ein Mittelweg zwischen Vollständigkeit und ökonomischer Vertretbarkeit gefunden werden muss.
Für die vorliegende Arbeit von größerer Bedeutung sind jedoch die technischen Hindernisse, die Suchmaschinen daran hindern, das komplette Web zu indexieren. In diesem Kapitel soll erst die Frage nach der Abdeckung des Web durch Suchmaschinen allgemein gestellt werden, während in den weiteren Unterkapiteln als Konsequenz daraus spezielle Problembereiche wie das Erreichen von Vollständigkeit im Crawling-Prozess, die Aktualität der in den Suchmaschinen-Indizes vorhandenen Dokumente und vor allem der für den weiteren Gang der Untersuchung wichtigste Bereich, der des sog. „Invisible Web", behandelt werden sollen.


Abb. 3.1. Indexgrößen der führenden Suchmaschinen (Angaben der Betreiber und Schätzungen)

< 2.7 Forschungsbereiche  |  Inhaltsverzeichnis  |  3.1 Die Größe des indexierbaren Web >