
Unter dem sog. Invisible Web (auch Deep Web) versteht man denjenigen Teil des
Web, der von Suchmaschinen nicht erfasst wird. Dafür kann es unterschiedliche
Gründe geben; neben technischen Hürden, die es den Suchmaschinen unmöglich
machen, diesen Teil des Web zu erschließen, gibt es von den Inhalte-Anbietern
selbst erstellte Barrieren oder solche Dokumente, die die Suchmaschinen willentlich
von der Erschließung ausschließen. Sherman und Price definieren
das Invisible Web wie folgt:
„Text pages, files, or other often high-quality authoritative information
available via the World Wide Web that general-purpose search engines cannot,
due to technical limitations, or will not, due to deliberate choice, add to
their indices of Web pages" (Sherman u. Price 2001, 57).
Abb. 3.3. Taxonomie der digitalen Online-Information (nach Stock 2003, 27)
Die Stellung der Invisible-Web-Inhalte im Kontext der Online-Informationen
zeigt Abbildung 3.3. Die hauptsächliche Unterscheidung liegt in der Erreichbarkeit
der Informationen. Während die von den Suchmaschinen erschlossenen Informationen
im Web erreichbar sind, sind die Inhalte des Invisible Web nur über das
Web erreichbar, d.h. es bestehen zwar Schnittstellen im Web, die dahinter liegenden
Inhalte sind jedoch nicht direkt erreichbar. Besonders bedeutend ist der Bereich
der kommerziellen Informationsanbieter: die Menge der hier erschlossenen Dokumente
kann bei einem einzelnen Anbieter durchaus die Menge der von den größten
Suchmaschinen erschlossenen Dokumente erreichen (vgl. Lexis-Nexis 2004). Dies
mag verdeutlichen, dass heutige Suchmaschinen (entgegen von den Anbietern vorgetragenen
Behauptungen, die dies implizieren) nicht in der Lage sind, alle online verfügbaren
relevanten Informationen zu erschließen.
Tabelle 3.2 zeigt die Unterteilung des Invisible Web nach Inhaltstypen.
Da Suchmaschinen die zu erfassenden Dokumente in der Regel durch die Verfolgung
von Links finden, können, wie bereits dargestellt wurde, Dokumente, auf
die keine Links verweisen, nicht gefunden werden. Alle Suchmaschinen bieten
aus diesem Grund auch die Möglichkeit an, Seiten manuell anzumelden. Es
ist allerdings nicht damit zu rechnen, dass sich das Problem damit lösen
lässt.
Tabelle 3.2. Typologie der Invisible-Web-Inhalte
| Type of Invisible Web Content | Why It's Invisible |
| Disconnected page | No links for crawlers to find the page |
| Page consisting primarily of images, audio, or video | Insufficient text for the search engine to "understand" what the page is about |
| Pages consisting primarily of PDF or Postscript, Flash, Shockwave, Executables (programs) or Compressed files (.zip, .tar, etc.) | Technically indexable, but usually ignored, primarily for business or policy reasons |
| Content in relational databases | Crawlers can't fill out required fields in interactive forms |
| Real-time content | Ephemeral data; huge quantities; rapidly changing information |
| Dynamically generated content | Customized content is irrelevant for most searchers; fear of "spider traps" |
(Sherman u. Price 2001, 61)
Da sowohl die Crawler der Suchmaschinen als auch Information-Retrieval-Systeme
im Allgemeinen auf textuelle Informationen orientiert sind, haben die Suchmaschinen
Probleme, Dokumente zu erfassen, die hauptsächlich aus Bildern, Audio-
oder Video-Dateien bestehen. Zwar ist es möglich, in diesen Dateiformaten
enthaltene Texte, aus solche Dateien verweisende Ankertexte sowie im Umfeld
dieser Dateien stehende Texte zu extrahieren und für die Erschließung
zu verwenden. Mit dieser Lösung können allerdings wiederum nicht die
Inhalte selbst, sondern nur deren Metainformationen ausgewertet werden.
Als dritter Inhaltstyp werden von Sherman und Price Dokumente angegeben, die
in Dateiformaten, die von den Suchmaschinen nicht unterstützt werden, vorliegen.
Dieses Problem hat sich in den vergangenen Jahren allerdings relativiert - alle
großen Suchmaschinen unterstützen inzwischen die gebräuchlichsten
Dateiformate (vgl. Lewandowski 2004a, 100f.). Richtig ist aber, dass „exotische"
Dateiformate und solche, die keine Dokumente, sondern Programme darstellen,
von den Suchmaschinen nicht berücksichtigt werden. Programme können
allerdings als durch auf HTML-Seiten vorhandene Beschreibungen (also wiederum
Metadaten) als hinreichend erschlossen angesehen werden. Der Anteil der „exotischen"
Dateiformate kann als relativ gering angesehen werden, da sich zunehmend Standards
für die wichtigsten Dokumenttypen herausgebildet haben.
Als der sowohl in quantitativer als auch in qualitativer Hinsicht bedeutendste
Inhaltstyp sind Datensätze aus relationalen Datenbanken anzusehen. Es kann
davon ausgegangen werden, dass es sich erst ab einer gewissen Datenmenge lohnt,
diese in einer Datenbank statt durch konventionelle HTML-Seiten zu erfassen.
Um aber eine größere Datenmenge zu verwalten, bedarf es Zeit und
Personal. Wer diese investiert, wird sich auch um die Qualität seiner Daten
bemühen (Lewandowski 2002, 560)
Da Suchmaschinen nur Dokumente erfassen und durch die Link-Verfolgung auf neue
Dokumente stoßen, haben sie keine Möglichkeit, die Datensätze
aus solchen Datenbanken abzurufen. Sie können die Abfrageformulare der
Datenbanken nicht auszufüllen, um zu den Inhalten zu gelangen. Es existieren
aber bereits einige Lösungsansätze, um die Inhalte der Datenbanken
doch indizieren zu können. Auf diese wird in Kap. 12.5 näher eingegangen.
Seitens der Inhalteanbieter, die ein besonderes Interesse daran haben, dass
ihre Seiten in die Indizes der Suchmaschinen aufgenommen werden (also vor allem
kommerzielle Sites), wird oft versucht, die Inhalte ihrer Datenbanken in statische
HTML-Seiten umzuwandeln, die dann von den Suchmaschinen erfasst werden können.
Diese sog. Teaser-Seiten verweisen dann auf die Datenbank-Inhalte (Heinisch
2003). Problematisch dabei ist, dass so viele Dokumente generiert werden, dass
die Suchmaschinen nicht die gesamte Menge erfassen können. Weiterhin stellt
sich die Frage, ob es sinnvoll ist, diese Inhalte mit in den Datenbestand aufzunehmen.
Deutlich wird dies auch bei Angeboten wie dem in Seiffert (2003) vorgestellten,
die keine kommerziellen Absichten haben.
Bei Real-Time-Content handelt es sich um Informationen, die in kurzen Abständen
aktualisiert werden. Suchmaschinen können diese Inhalte zwar oft erfassen,
können in ihren Datenbanken jedoch nur ein nicht mehr aktuelles Abbild
dieser Informationen speichern, welches für den Suchenden allenfalls von
historischem Interesse ist. Beispiele für solche Inhalte sind Börsenkurse
und aktuelle Flugdaten.
Dynamisch generierte Inhalte sind in erster Linie solche Inhalte, die von Content-Management-Systemen
nach einer Anfrage durch den Nutzer „on the fly" erstellt werden.
Für die Inhalte-Anbieter bringen solche Systeme den Vorteil, dass Inhalte,
Struktur und Layout unabhängig voneinander verwaltet werden können
und Veränderungen in einem dieser Bereiche automatisch in den anderen Bereichen
integriert werden können.
Dynamisch generierte Seiten können allerdings - willentlich und unwillentlich
- zu Problemen bei Suchmaschinen führen. So ist es möglich, tausende
von ähnlichen, aber nicht identischen Seiten zu generieren, die einzig
zu dem Zweck erstellt werden, die Indizes der Suchmaschinen mit den entsprechenden
Inhalten zu überfluten. Die Crawler geraten dabei in eine Endlosschleife,
da immer weiter URL generiert werden, die ihrerseits auf weitere Seiten verweisen.
Diese Fallen sind unter dem Begriff „spider traps" bekannt (Sherman
u. Price 2001, 65). Beispiele für Spider-Traps finden sich in Chakrabarti
(2003, 28f.)
Suchmaschinen können dynamisch generierte Seiten erkennen und vermeiden
bzw. nur bis zu einer bestimmten Tiefe indexieren. Allerdings gibt es die zunehmende
Tendenz, solche Seiten zu erfassen und eventuell auftauchende Spider-Traps zu
erkennen. Letztlich werden Websites aber oft nur zum Teil erfasst; von einer
vollständigen Erfassung solcher Präsenzen sind die Suchmaschinen noch
weit entfernt.
Sherman und Price (2001, 70ff.) schlagen eine Unterteilung des Invisible Web
in unterschiedliche Ebenen vor. Diese sind das Opaque Web, das Private Web,
das Proprietary Web und das Truly Invisible Web.
Das Opaque Web („undurchsichtige Web") besteht aus Seiten, die von
den Suchmaschinen technisch erfasst werden könnten, die aber aufgrund bestimmter
Restriktionen auf Seiten der Suchmaschinen nicht erfasst werden. Beschränkungen
der Suchmaschinen bestehen in Bezug auf die Tiefe des Crawlings (Websites werden
nur bis zu einer bestimmten Ebene bzw. nicht vollständig erfasst), die
Crawl-Frequenz (die Indizes der Suchmaschinen werden nicht oft genug aktualisiert,
um mit der Aktualisierungsfrequenz manche URLs mithalten zu können), die
Maximalzahl der angezeigten Ergebnisse (es wird zwar eine Trefferzahl angegeben,
die tatsächlich über die Trefferlisten der Suchmaschinen zugänglichen
Dokumente beschränkt sich aber in der Regel auf etwa 1.000 Dokumente) und
das Problem der disconnected pages.
Seit dem Erscheinen des Sherman-Price-Buchs hat sich die Situation insbesondere
in Bezug auf die Tiefe des Crawlings wesentlich verbessert. Die Indizes der
Suchmaschinen sind rapide gewachsen (Sullivan 2003), Websites werden von den
Suchmaschinen nach Möglichkeit vollständig erfasst; Ausnahmen sind
weiterhin besonders umfangreiche Sites. Der in der Untersuchung von Fries et
al. (2001) gezogene Schluss, dass Suchmaschinen grundsätzlich nicht alle
Ebenen einer Website indexieren und eine deutliche Zeitverzögerung zwischen
Anmeldung bei einer Suchmaschine bzw. dem ersten Auffinden einer Site durch
eine Suchmaschine und der Indexierung mehrerer Seiten dieser Site bestehe, lässt
sich heute in dieser Weise sicher nicht mehr ziehen. Neuere empirische Untersuchungen
liegen allerdings nicht vor.
Weiterhin wurde auch die Crawl-Frequenz verbessert; die meisten Suchmaschinen
verwenden neben dem Standard-Index inzwischen auch einen „Fresh-Index",
der Dokumente von Websites enthält, bei denen festgestellt wurde, dass
sie sich schnell verändern bzw. oft neue Seiten hinzugefügt werden.
Auch hier ist allerdings keine Garantie der Vollständigkeit gegeben; für
die Suche nach aktuellen Meldungen (Nachrichtenmeldungen, Einträge aus
Weblogs) sollten weiterhin spezielle Suchmaschinen bzw. spezielle Indizes der
allgemeinen Suchmaschinen abgefragt werden (Machill, Lewandowski, Karzauninkat
2005; Gelernter 2003). Für die Probleme der maximalen Trefferzahl und der
disconnected pages lassen sich in den letzten Jahren keine Verbesserungen feststellen.
Ergänzend können zum Opaque Web auch Spam-Seiten und Dubletten gerechnet
werden. Auch diese könnten ohne Probleme erfasst werden, die Suchmaschinen
nehmen davon jedoch Abstand, um ihre Indizes „sauber zu halten".
Die Dimension, die Spam inzwischen angenommen hat, lässt sich an den Verhältnissen
in der Inktomi-Datenbank ablesen: Nach Aussage eines Vertreters der Suchmaschinen-Firma
Inktomi auf der Search-Engine-Strategies-Konferenz 2003 kannte diese Suchmaschine
im Herbst 2003 etwa fünf Milliarden URLs, von denen aber nur etwa 1,2 Milliarden
als indexierungswürdig angesehen wurden. Ähnliche Verhältnisse
wurden von einem Vertreter von AltaVista bestätigt.
Das Private Web („privates Web") besteht aus Seiten, die von ihren
Autoren bewusst von der Indexierung durch Suchmaschinen ausgeschlossen wurden,
sei es durch eine Passwort-Abfrage, durch die Nutzung des „noindex"-Metatags
oder durch den Einsatz einer Robots-Exclusion-Datei („robots.txt").
Nur die erste Methode garantiert allerdings, dass die Seiten nicht erfasst werden;
Anweisungen an die Robots der Suchmaschinen werden zwar in aller Regel befolgt,
stellen aber tatsächlich nur eine freiwillige Einschränkung der Suchmaschinen
dar.
Das Proprietary Web („proprietäres Web", „geschütztes
Web") ist für die Suchmaschinen nicht zugänglich, da für
seine Nutzung die Zustimmung zu bestimmten Nutzungsbedingungen notwendig ist.
Dies kann eine Registrierung mit den persönlichen Daten sein, hierunter
fallen aber auch die kostenpflichtigen Inhalte, die zunehmend angeboten werden
(Lewandowski 2003, 35). Die technischen Beschränkungen bestehen in der
ersten Linie aus einer Passwort-Abfrage wie im Fall vieler Seiten des Private
Web, aber auch Einschränkungen aufgrund eines IP-Adressbereichs sind denkbar.
Das Truly Invisible Web („wirklich unsichtbares Web") besteht aus
Seiten bzw. Sites, die für die Suchmaschinen aufgrund technischer Gegebenheiten
nicht indexierbar sind. Welche Dokumente zum wirklich unsichtbaren Web gehören,
verändert sich aufgrund der Weiterentwicklung der Suchmaschinen natürlich
ständig (Sherman, Price 2001, 74). Als die heute noch bedeutendsten Bereiche
sind einerseits die dynamisch generierten Seiten und andererseits - und dies
macht den bedeutendsten Teil aus - die Inhalte von Datenbanken anzusehen. Zwar
gibt es einzelne Ansätze, diese zu erfassen (vgl. z.B. Hamilton 2003; siehe
auch Kapitel 12.8), diese müssen aber wenigstens zur Zeit noch als Experimente
angesehen werden, die noch weit vor der allgemeinen Durchsetzung stehen.
Betrachtet man die Bereiche des Invisible Web hinsichtlich ihrer Bedeutung für
die weitere Erschließung des Web, so lässt sich folgendes feststellen:
Die Erschließung des Opaque Web ist weit fortgeschritten; in diesem Bereich
sind die Probleme am geringsten. Eine Ausnahme bilden die disconnected pages,
die den Suchmaschinen schlicht unbekannt bleiben. Hier zeichnet sich zur Zeit
auch keine Lösung ab. Dass das Private Web durch Suchmaschinen nicht erschlossen
wird, wird sich nicht ändern lassen und sollte auch nicht durch die Umgehung
von De-facto-Standards (Robots Exclusion) umgangen werden. Im Bereich des Proprietary
Web zeichnen sich Lösungen ab, registrierungs- oder auch kostenpflichtige
Inhalte zu erschließen. Zwei Ansätze hierfür sind der Aufbau
hybrider Suchmaschinen und die Einspeisung der Inhalte des geschützten
Web durch Methoden des cloaking (vgl. Lewandowski 2003, 35). Bei beiden Methoden
ist die Zustimmung bzw. aktive Mitwirkung der Inhalteanbieter notwendig.
Bergman (2001) versucht, die Größe des Invisible Web (bzw. in seiner
Terminologie: des „Deep Web") zu bestimmen. Ausgangspunkt ist dabei
die Untersuchung der Größe der 60 größten bekannten Invisible-Web-Sites.
Auf dieser Basis ergibt seine Hochrechnung, dass das Invisible Web etwa 400-
bis 500-mal größer sei als das von Suchmaschinen erfasste „surface
web". Dabei seien 95 Prozent des Invisible Web frei zugänglich, der
kostenpflichtige Teil mache nur etwa fünf Prozent aus.
Problematisch an Bergmans Berechnung ist die Grundlage: zu den 60 größten
Invisible-Web-Sites gehören auf den ersten beiden Plätzen das National
Climate Data Center (NOAA) und die NASA EOSDIS, beides Datenbanken mit Satellitenbildern
der Erde. Die Größe dieser beiden Datenbanken macht mehr als drei
Viertel der Größe der von Bergman als die 60 größten Invisible-Web-Sites
ausgemachten Sites aus. Bergman stellt nicht die Frage nach dem Informationsgehalt
der entsprechenden Sites; die Erd-Bilder mit einem relativ hohen Speicherplatzbedarf
und in Relation zur Gesamtheit je Bild relativ geringem Informationsgehalt werden
Datenbanken wie die von Lexis-Nexis gleichgestellt. Nach Bergmans Rechnung enthält
Lexis-Nexis 12.200 GB an Informationen, die Site des National Climate Data Centers
aber 366.000, also 30-mal so viel Informationen. Die Gleichsetzung von Datenvolumen
und Informationsgehalt macht diese Berechnung allerdings wertlos. Auch eine
Berechnung nach der Zahl der Dokumente statt nach dem Datenvolumen dürfte
keine wesentliche Verbesserung bringen: So wäre im Invisible Web jeder
Datensatz einer Datenbank bzw. jede Kombination von Datensätzen oder Teilen
davon als ein einzelnes Dokument zu werten. Sherman (2001) spricht von einer
Gleichsetzung von Rohdaten mit den Inhalten von textorientierten Datenbanken
und dem Fehler, die Größe der Datenbanken schlicht durch die durchschnittliche
Größe einer Webseite zu teilen.
Die Zahlenangaben von Bergman sind zu einiger Popularität gekommen und
werden auch beständig (vor allem in der Publikumspresse) zitiert. Der Realität
entsprechen sie jedoch kaum - aufgrund fehlender Berechnungsgrundlagen ist man
hier allerdings weiterhin auf Schätzungen angewiesen. Stock (2003, 27)
schätzt die Größe des Invisible Web auf etwa ein Zehntel des
von Bergman angegebenen Werts, Sherman (2001) auf das etwa Zwei- bis Fünfzigfache
des Visible Web.
Suchmaschinen werden das Web nicht vollständig abdecken, da ökonomische
und vor allem technische Hindernisse dem entgegenstehen. Hier entsteht ein grundlegendes
Dilemma der Informationsrecherche mittels Suchmaschinen: einerseits liefern
diese in der Regel lange Trefferlisten, also zu viele Dokumente, als dass der
Nutzer diese alle begutachten könnte. Auf der anderen Seite erreichen die
Suchmaschinen in ihren Nachweisen bei weitem keine Vollständigkeit, liefern
also zu wenige Dokumente. Wie zu zeigen sein wird, wird dieses Dilemma durch
bestehende linguistische Probleme noch verstärkt.
Angesichts der enormen Menge der im Web vorhandenen Dokumente erscheint eine
vollständige Erschließung durch die Suchmaschinen nicht in allen
Bereichen als unbedingt notwendig. Allerdings sollte von Seiten der Suchmaschinen
auch nicht der Eindruck vermittelt werden, dass dies der Fall wäre.