Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 3.5 Das Invisible Web
< 3.4 Aktualität der Suchmaschinen  |  Inhaltsverzeichnis  |  4 Strukturinformationen >
3.5 Das Invisible Web

Das Invisible Web

Unter dem sog. Invisible Web (auch Deep Web) versteht man denjenigen Teil des Web, der von Suchmaschinen nicht erfasst wird. Dafür kann es unterschiedliche Gründe geben; neben technischen Hürden, die es den Suchmaschinen unmöglich machen, diesen Teil des Web zu erschließen, gibt es von den Inhalte-Anbietern selbst erstellte Barrieren oder solche Dokumente, die die Suchmaschinen willentlich von der Erschließung ausschließen. Sherman und Price definieren das Invisible Web wie folgt:
„Text pages, files, or other often high-quality authoritative information available via the World Wide Web that general-purpose search engines cannot, due to technical limitations, or will not, due to deliberate choice, add to their indices of Web pages" (Sherman u. Price 2001, 57).

Abb. 3.3. Taxonomie der digitalen Online-Information (nach Stock 2003, 27)

Die Stellung der Invisible-Web-Inhalte im Kontext der Online-Informationen zeigt Abbildung 3.3. Die hauptsächliche Unterscheidung liegt in der Erreichbarkeit der Informationen. Während die von den Suchmaschinen erschlossenen Informationen im Web erreichbar sind, sind die Inhalte des Invisible Web nur über das Web erreichbar, d.h. es bestehen zwar Schnittstellen im Web, die dahinter liegenden Inhalte sind jedoch nicht direkt erreichbar. Besonders bedeutend ist der Bereich der kommerziellen Informationsanbieter: die Menge der hier erschlossenen Dokumente kann bei einem einzelnen Anbieter durchaus die Menge der von den größten Suchmaschinen erschlossenen Dokumente erreichen (vgl. Lexis-Nexis 2004). Dies mag verdeutlichen, dass heutige Suchmaschinen (entgegen von den Anbietern vorgetragenen Behauptungen, die dies implizieren) nicht in der Lage sind, alle online verfügbaren relevanten Informationen zu erschließen.
Tabelle 3.2 zeigt die Unterteilung des Invisible Web nach Inhaltstypen.
Da Suchmaschinen die zu erfassenden Dokumente in der Regel durch die Verfolgung von Links finden, können, wie bereits dargestellt wurde, Dokumente, auf die keine Links verweisen, nicht gefunden werden. Alle Suchmaschinen bieten aus diesem Grund auch die Möglichkeit an, Seiten manuell anzumelden. Es ist allerdings nicht damit zu rechnen, dass sich das Problem damit lösen lässt.

Tabelle 3.2. Typologie der Invisible-Web-Inhalte

Type of Invisible Web Content Why It's Invisible
Disconnected page No links for crawlers to find the page
Page consisting primarily of images, audio, or video Insufficient text for the search engine to "understand" what the page is about
Pages consisting primarily of PDF or Postscript, Flash, Shockwave, Executables (programs) or Compressed files (.zip, .tar, etc.) Technically indexable, but usually ignored, primarily for business or policy reasons
Content in relational databases Crawlers can't fill out required fields in interactive forms
Real-time content Ephemeral data; huge quantities; rapidly changing information
Dynamically generated content Customized content is irrelevant for most searchers; fear of "spider traps"
   

(Sherman u. Price 2001, 61)


Da sowohl die Crawler der Suchmaschinen als auch Information-Retrieval-Systeme im Allgemeinen auf textuelle Informationen orientiert sind, haben die Suchmaschinen Probleme, Dokumente zu erfassen, die hauptsächlich aus Bildern, Audio- oder Video-Dateien bestehen. Zwar ist es möglich, in diesen Dateiformaten enthaltene Texte, aus solche Dateien verweisende Ankertexte sowie im Umfeld dieser Dateien stehende Texte zu extrahieren und für die Erschließung zu verwenden. Mit dieser Lösung können allerdings wiederum nicht die Inhalte selbst, sondern nur deren Metainformationen ausgewertet werden.
Als dritter Inhaltstyp werden von Sherman und Price Dokumente angegeben, die in Dateiformaten, die von den Suchmaschinen nicht unterstützt werden, vorliegen. Dieses Problem hat sich in den vergangenen Jahren allerdings relativiert - alle großen Suchmaschinen unterstützen inzwischen die gebräuchlichsten Dateiformate (vgl. Lewandowski 2004a, 100f.). Richtig ist aber, dass „exotische" Dateiformate und solche, die keine Dokumente, sondern Programme darstellen, von den Suchmaschinen nicht berücksichtigt werden. Programme können allerdings als durch auf HTML-Seiten vorhandene Beschreibungen (also wiederum Metadaten) als hinreichend erschlossen angesehen werden. Der Anteil der „exotischen" Dateiformate kann als relativ gering angesehen werden, da sich zunehmend Standards für die wichtigsten Dokumenttypen herausgebildet haben.
Als der sowohl in quantitativer als auch in qualitativer Hinsicht bedeutendste Inhaltstyp sind Datensätze aus relationalen Datenbanken anzusehen. Es kann davon ausgegangen werden, dass es sich erst ab einer gewissen Datenmenge lohnt, diese in einer Datenbank statt durch konventionelle HTML-Seiten zu erfassen. Um aber eine größere Datenmenge zu verwalten, bedarf es Zeit und Personal. Wer diese investiert, wird sich auch um die Qualität seiner Daten bemühen (Lewandowski 2002, 560)
Da Suchmaschinen nur Dokumente erfassen und durch die Link-Verfolgung auf neue Dokumente stoßen, haben sie keine Möglichkeit, die Datensätze aus solchen Datenbanken abzurufen. Sie können die Abfrageformulare der Datenbanken nicht auszufüllen, um zu den Inhalten zu gelangen. Es existieren aber bereits einige Lösungsansätze, um die Inhalte der Datenbanken doch indizieren zu können. Auf diese wird in Kap. 12.5 näher eingegangen. Seitens der Inhalteanbieter, die ein besonderes Interesse daran haben, dass ihre Seiten in die Indizes der Suchmaschinen aufgenommen werden (also vor allem kommerzielle Sites), wird oft versucht, die Inhalte ihrer Datenbanken in statische HTML-Seiten umzuwandeln, die dann von den Suchmaschinen erfasst werden können. Diese sog. Teaser-Seiten verweisen dann auf die Datenbank-Inhalte (Heinisch 2003). Problematisch dabei ist, dass so viele Dokumente generiert werden, dass die Suchmaschinen nicht die gesamte Menge erfassen können. Weiterhin stellt sich die Frage, ob es sinnvoll ist, diese Inhalte mit in den Datenbestand aufzunehmen. Deutlich wird dies auch bei Angeboten wie dem in Seiffert (2003) vorgestellten, die keine kommerziellen Absichten haben.
Bei Real-Time-Content handelt es sich um Informationen, die in kurzen Abständen aktualisiert werden. Suchmaschinen können diese Inhalte zwar oft erfassen, können in ihren Datenbanken jedoch nur ein nicht mehr aktuelles Abbild dieser Informationen speichern, welches für den Suchenden allenfalls von historischem Interesse ist. Beispiele für solche Inhalte sind Börsenkurse und aktuelle Flugdaten.
Dynamisch generierte Inhalte sind in erster Linie solche Inhalte, die von Content-Management-Systemen nach einer Anfrage durch den Nutzer „on the fly" erstellt werden. Für die Inhalte-Anbieter bringen solche Systeme den Vorteil, dass Inhalte, Struktur und Layout unabhängig voneinander verwaltet werden können und Veränderungen in einem dieser Bereiche automatisch in den anderen Bereichen integriert werden können.
Dynamisch generierte Seiten können allerdings - willentlich und unwillentlich - zu Problemen bei Suchmaschinen führen. So ist es möglich, tausende von ähnlichen, aber nicht identischen Seiten zu generieren, die einzig zu dem Zweck erstellt werden, die Indizes der Suchmaschinen mit den entsprechenden Inhalten zu überfluten. Die Crawler geraten dabei in eine Endlosschleife, da immer weiter URL generiert werden, die ihrerseits auf weitere Seiten verweisen. Diese Fallen sind unter dem Begriff „spider traps" bekannt (Sherman u. Price 2001, 65). Beispiele für Spider-Traps finden sich in Chakrabarti (2003, 28f.)
Suchmaschinen können dynamisch generierte Seiten erkennen und vermeiden bzw. nur bis zu einer bestimmten Tiefe indexieren. Allerdings gibt es die zunehmende Tendenz, solche Seiten zu erfassen und eventuell auftauchende Spider-Traps zu erkennen. Letztlich werden Websites aber oft nur zum Teil erfasst; von einer vollständigen Erfassung solcher Präsenzen sind die Suchmaschinen noch weit entfernt.
Sherman und Price (2001, 70ff.) schlagen eine Unterteilung des Invisible Web in unterschiedliche Ebenen vor. Diese sind das Opaque Web, das Private Web, das Proprietary Web und das Truly Invisible Web.
Das Opaque Web („undurchsichtige Web") besteht aus Seiten, die von den Suchmaschinen technisch erfasst werden könnten, die aber aufgrund bestimmter Restriktionen auf Seiten der Suchmaschinen nicht erfasst werden. Beschränkungen der Suchmaschinen bestehen in Bezug auf die Tiefe des Crawlings (Websites werden nur bis zu einer bestimmten Ebene bzw. nicht vollständig erfasst), die Crawl-Frequenz (die Indizes der Suchmaschinen werden nicht oft genug aktualisiert, um mit der Aktualisierungsfrequenz manche URLs mithalten zu können), die Maximalzahl der angezeigten Ergebnisse (es wird zwar eine Trefferzahl angegeben, die tatsächlich über die Trefferlisten der Suchmaschinen zugänglichen Dokumente beschränkt sich aber in der Regel auf etwa 1.000 Dokumente) und das Problem der disconnected pages.
Seit dem Erscheinen des Sherman-Price-Buchs hat sich die Situation insbesondere in Bezug auf die Tiefe des Crawlings wesentlich verbessert. Die Indizes der Suchmaschinen sind rapide gewachsen (Sullivan 2003), Websites werden von den Suchmaschinen nach Möglichkeit vollständig erfasst; Ausnahmen sind weiterhin besonders umfangreiche Sites. Der in der Untersuchung von Fries et al. (2001) gezogene Schluss, dass Suchmaschinen grundsätzlich nicht alle Ebenen einer Website indexieren und eine deutliche Zeitverzögerung zwischen Anmeldung bei einer Suchmaschine bzw. dem ersten Auffinden einer Site durch eine Suchmaschine und der Indexierung mehrerer Seiten dieser Site bestehe, lässt sich heute in dieser Weise sicher nicht mehr ziehen. Neuere empirische Untersuchungen liegen allerdings nicht vor.
Weiterhin wurde auch die Crawl-Frequenz verbessert; die meisten Suchmaschinen verwenden neben dem Standard-Index inzwischen auch einen „Fresh-Index", der Dokumente von Websites enthält, bei denen festgestellt wurde, dass sie sich schnell verändern bzw. oft neue Seiten hinzugefügt werden. Auch hier ist allerdings keine Garantie der Vollständigkeit gegeben; für die Suche nach aktuellen Meldungen (Nachrichtenmeldungen, Einträge aus Weblogs) sollten weiterhin spezielle Suchmaschinen bzw. spezielle Indizes der allgemeinen Suchmaschinen abgefragt werden (Machill, Lewandowski, Karzauninkat 2005; Gelernter 2003). Für die Probleme der maximalen Trefferzahl und der disconnected pages lassen sich in den letzten Jahren keine Verbesserungen feststellen.
Ergänzend können zum Opaque Web auch Spam-Seiten und Dubletten gerechnet werden. Auch diese könnten ohne Probleme erfasst werden, die Suchmaschinen nehmen davon jedoch Abstand, um ihre Indizes „sauber zu halten". Die Dimension, die Spam inzwischen angenommen hat, lässt sich an den Verhältnissen in der Inktomi-Datenbank ablesen: Nach Aussage eines Vertreters der Suchmaschinen-Firma Inktomi auf der Search-Engine-Strategies-Konferenz 2003 kannte diese Suchmaschine im Herbst 2003 etwa fünf Milliarden URLs, von denen aber nur etwa 1,2 Milliarden als indexierungswürdig angesehen wurden. Ähnliche Verhältnisse wurden von einem Vertreter von AltaVista bestätigt.
Das Private Web („privates Web") besteht aus Seiten, die von ihren Autoren bewusst von der Indexierung durch Suchmaschinen ausgeschlossen wurden, sei es durch eine Passwort-Abfrage, durch die Nutzung des „noindex"-Metatags oder durch den Einsatz einer Robots-Exclusion-Datei („robots.txt"). Nur die erste Methode garantiert allerdings, dass die Seiten nicht erfasst werden; Anweisungen an die Robots der Suchmaschinen werden zwar in aller Regel befolgt, stellen aber tatsächlich nur eine freiwillige Einschränkung der Suchmaschinen dar.
Das Proprietary Web („proprietäres Web", „geschütztes Web") ist für die Suchmaschinen nicht zugänglich, da für seine Nutzung die Zustimmung zu bestimmten Nutzungsbedingungen notwendig ist. Dies kann eine Registrierung mit den persönlichen Daten sein, hierunter fallen aber auch die kostenpflichtigen Inhalte, die zunehmend angeboten werden (Lewandowski 2003, 35). Die technischen Beschränkungen bestehen in der ersten Linie aus einer Passwort-Abfrage wie im Fall vieler Seiten des Private Web, aber auch Einschränkungen aufgrund eines IP-Adressbereichs sind denkbar.
Das Truly Invisible Web („wirklich unsichtbares Web") besteht aus Seiten bzw. Sites, die für die Suchmaschinen aufgrund technischer Gegebenheiten nicht indexierbar sind. Welche Dokumente zum wirklich unsichtbaren Web gehören, verändert sich aufgrund der Weiterentwicklung der Suchmaschinen natürlich ständig (Sherman, Price 2001, 74). Als die heute noch bedeutendsten Bereiche sind einerseits die dynamisch generierten Seiten und andererseits - und dies macht den bedeutendsten Teil aus - die Inhalte von Datenbanken anzusehen. Zwar gibt es einzelne Ansätze, diese zu erfassen (vgl. z.B. Hamilton 2003; siehe auch Kapitel 12.8), diese müssen aber wenigstens zur Zeit noch als Experimente angesehen werden, die noch weit vor der allgemeinen Durchsetzung stehen.
Betrachtet man die Bereiche des Invisible Web hinsichtlich ihrer Bedeutung für die weitere Erschließung des Web, so lässt sich folgendes feststellen: Die Erschließung des Opaque Web ist weit fortgeschritten; in diesem Bereich sind die Probleme am geringsten. Eine Ausnahme bilden die disconnected pages, die den Suchmaschinen schlicht unbekannt bleiben. Hier zeichnet sich zur Zeit auch keine Lösung ab. Dass das Private Web durch Suchmaschinen nicht erschlossen wird, wird sich nicht ändern lassen und sollte auch nicht durch die Umgehung von De-facto-Standards (Robots Exclusion) umgangen werden. Im Bereich des Proprietary Web zeichnen sich Lösungen ab, registrierungs- oder auch kostenpflichtige Inhalte zu erschließen. Zwei Ansätze hierfür sind der Aufbau hybrider Suchmaschinen und die Einspeisung der Inhalte des geschützten Web durch Methoden des cloaking (vgl. Lewandowski 2003, 35). Bei beiden Methoden ist die Zustimmung bzw. aktive Mitwirkung der Inhalteanbieter notwendig.
Bergman (2001) versucht, die Größe des Invisible Web (bzw. in seiner Terminologie: des „Deep Web") zu bestimmen. Ausgangspunkt ist dabei die Untersuchung der Größe der 60 größten bekannten Invisible-Web-Sites. Auf dieser Basis ergibt seine Hochrechnung, dass das Invisible Web etwa 400- bis 500-mal größer sei als das von Suchmaschinen erfasste „surface web". Dabei seien 95 Prozent des Invisible Web frei zugänglich, der kostenpflichtige Teil mache nur etwa fünf Prozent aus.
Problematisch an Bergmans Berechnung ist die Grundlage: zu den 60 größten Invisible-Web-Sites gehören auf den ersten beiden Plätzen das National Climate Data Center (NOAA) und die NASA EOSDIS, beides Datenbanken mit Satellitenbildern der Erde. Die Größe dieser beiden Datenbanken macht mehr als drei Viertel der Größe der von Bergman als die 60 größten Invisible-Web-Sites ausgemachten Sites aus. Bergman stellt nicht die Frage nach dem Informationsgehalt der entsprechenden Sites; die Erd-Bilder mit einem relativ hohen Speicherplatzbedarf und in Relation zur Gesamtheit je Bild relativ geringem Informationsgehalt werden Datenbanken wie die von Lexis-Nexis gleichgestellt. Nach Bergmans Rechnung enthält Lexis-Nexis 12.200 GB an Informationen, die Site des National Climate Data Centers aber 366.000, also 30-mal so viel Informationen. Die Gleichsetzung von Datenvolumen und Informationsgehalt macht diese Berechnung allerdings wertlos. Auch eine Berechnung nach der Zahl der Dokumente statt nach dem Datenvolumen dürfte keine wesentliche Verbesserung bringen: So wäre im Invisible Web jeder Datensatz einer Datenbank bzw. jede Kombination von Datensätzen oder Teilen davon als ein einzelnes Dokument zu werten. Sherman (2001) spricht von einer Gleichsetzung von Rohdaten mit den Inhalten von textorientierten Datenbanken und dem Fehler, die Größe der Datenbanken schlicht durch die durchschnittliche Größe einer Webseite zu teilen.
Die Zahlenangaben von Bergman sind zu einiger Popularität gekommen und werden auch beständig (vor allem in der Publikumspresse) zitiert. Der Realität entsprechen sie jedoch kaum - aufgrund fehlender Berechnungsgrundlagen ist man hier allerdings weiterhin auf Schätzungen angewiesen. Stock (2003, 27) schätzt die Größe des Invisible Web auf etwa ein Zehntel des von Bergman angegebenen Werts, Sherman (2001) auf das etwa Zwei- bis Fünfzigfache des Visible Web.
Suchmaschinen werden das Web nicht vollständig abdecken, da ökonomische und vor allem technische Hindernisse dem entgegenstehen. Hier entsteht ein grundlegendes Dilemma der Informationsrecherche mittels Suchmaschinen: einerseits liefern diese in der Regel lange Trefferlisten, also zu viele Dokumente, als dass der Nutzer diese alle begutachten könnte. Auf der anderen Seite erreichen die Suchmaschinen in ihren Nachweisen bei weitem keine Vollständigkeit, liefern also zu wenige Dokumente. Wie zu zeigen sein wird, wird dieses Dilemma durch bestehende linguistische Probleme noch verstärkt.
Angesichts der enormen Menge der im Web vorhandenen Dokumente erscheint eine vollständige Erschließung durch die Suchmaschinen nicht in allen Bereichen als unbedingt notwendig. Allerdings sollte von Seiten der Suchmaschinen auch nicht der Eindruck vermittelt werden, dass dies der Fall wäre.

< 3.4 Aktualität der Suchmaschinen  |  Inhaltsverzeichnis  |  4 Strukturinformationen >