
Von Datenbanken des Invisible Web kann angenommen werden, dass sie hochwertige
Informationen liefern (vgl. Kap. 3.5). Für den Suchmaschinennutzer problematisch
ist es bei der Suche, dass er die für seine Suchanfrage passenden Datenbanken
bereits kennen und die Recherche entsprechend in diesen durchführen muss,
um an die gewünschten Informationen zu kommen. Suchmaschinen helfen ihm
hier nur sehr eingeschränkt weiter, indem sie ihn höchstens auf die
Startseiten dieser Datenbanken verweisen. Weitere Informationen über die
in der Datenbank vorhandenen Informationen erhält der Nutzer dabei nicht.
Bei keiner bekannten Suchmaschine erfolgt eine bevorzugte Listung dieser Einstiegsseiten,
was mitunter sinnvoll sein könnte, um einen weiteren Sucheinstieg zu finden.
Es existieren allerdings spezielle Verzeichnisse für Invisible-Web-Quellen
, die wie konventionelle Web-Verzeichnisse aufgebaut sind, sich jedoch auf den
Nachweis von Datenbanken beschränken.
Die Einbindung von Invisible-Web-Datenbanken kann nun wie im letzten Abschnitt
beschrieben manuell erfolgen. Der größte Nachteil dieser Methode
ist darin zu sehen, dass zu jeder Quelle auch von Hand bestimmt werden muss,
für welche Suchbegriffe sie angezeigt werden soll. Und hier liegt das Problem:
Um automatisch eine umfangreiche Liste passender Suchbegriffe erstellen zu können,
müsste die Suchmaschine auf die Inhalte der Datenbank zugreifen können.
Einen Ausweg, der allerdings nicht mehr als eine Behelfslösung sein kann,
bietet sich in der Auswertung von Ankertexten, die auf die Einstiegsseite der
Datenbank verweisen (Hamilton 2003). Diese Begriffe können den Inhalt der
Datenbank genauer beschreiben als die Suchseite der Datenbank selbst, aus der
vornehmlich formale Suchkriterien extrahiert werden können. Dabei wird
angenommen, dass die Ankertexte nicht nur den Inhalt im Gesamten beschreiben,
sondern auch genauer auf einzelne Gebiete eingehen.
Neben dem prominenten Hinweis auf Invisible-Web-Datenbanken besteht die Möglichkeit,
solche Quellen auch direkt in die Suchergebnisse einzubinden. Dabei ist wiederum
zu unterscheiden zwischen dem vollständigen Crawlen einer Datenbank und
ihrer Integration in den Index der Suchmaschine und der Abfrage bestimmter Datenbanken
ähnlich einer konventionellen Metasuchmaschine.
Beispiele für die Integration fremder, nicht zum surface web gehörender
Datenbestände in den eigenen Index finden sich bei den Suchmaschinen bisher
nicht in großem Maße, allerdings gibt es einige Beispiele, die die
Bedeutung bzw. die mögliche Qualitätssteigerung durch eine solche
Einbindung verdeutlichen. Yahoo verwendet für die Nachrichtensuche neben
gecrawlten, für alle Suchmaschinen zugängliche Quellen auch exklusive
Inhalte von Nachrichtenagenturen wie DPA und AFP. Diese werden in der Suche
zusammen mit den freien Quellen in einer Trefferliste angezeigt. Noch weiter
geht die Suchmaschine Looksmart, die in Zusammenarbeit mit Thomson Gale unter
dem Titel „FindArticles“ eine eigene Kollektion von ca. 700 Zeitschriften
im Volltext anbietet. Diese sind teilweise kostenpflichtig, teilweise können
in dieser Kollektion aber auch ansonsten kostenpflichtige Dokumente umsonst
abgerufen werden; insgesamt sind ca. fünf Millionen Dokumente vorhanden.
Das Quellenspektrum in der üblichen Websuche wird damit wesentlich erweitert.
Eine solche Integration proprietärer Inhalte würde sich auch für
andere Suchmaschinen anbieten; letztlich könnte sie sogar für den
Erfolg einer Suchmaschine (mit)entscheidend sein.
Auch der Ansatz einer Metasuche über Invisible-Web-Quellen ist vielversprechend.
Die Suchmaschine Turbo10 ist in der Lage, Datenbank-Suchmasken als solche zu
erkennen und Anfragen automatisch an diese Datenbanken weiterzuleiten (Hamilton
2003). Der Benutzer der Suchmaschine kann sich aus den bereits bekannten Datenbanken
ein individuelles Portfolio zusammenstellen und seine Suchanfrage an die ausgewählten
Datenbanken schicken. Wie bei einer regulären Meta-Suchmaschine werden
die unterschiedlichen Ergebnisse neu gerankt und als einheitliche Liste zurückgegeben.
Dabei kann die Suchmaschine sowohl als reguläre Metasuchmaschine als auch
als Invisible-Web-Suchmaschine genutzt werden. Werden die Standardeinstellungen
beibehalten, so werden in der Metasuche bekannte Suchmaschinen wie MSN, Yahoo
und Ask Jeeves abgefragt. Daneben können aber auch individuell ausgewählte
Datenbanken abgefragt werden. Neben den bereits vorgegebenen Datenbanken (zur
Zeit etwa 700) lassen sich eigene Datenbanken in wenigen Schritten hinzufügen.
Dazu müssen über das Interface von Turbo10 zwei Suchanfragen an diese
Datenbank gestellt werden und in der Trefferliste auf die Ergebnisse geklickt
werden. Die Datenbank wird nun, wenn es möglich ist, eine Verbindung zu
dieser herzustellen, dem Gesamtbestand der Datenbanken hinzugefügt und
kann auch von anderen Nutzern verwendet werden.
So elegant dieser Ansatz das Problem angeht, bestehen auch hier weiterhin zwei
große Probleme. Erstens ist die Auswahl auf nur zehn Quellen beschränkt.
Da jede Quelle einzeln abgefragt werden muss, wären die Antwortzeiten bei
einer hohen Anzahl von zu berücksichtigenden Quellen schlicht inakzeptabel.
Zweitens ist es bei Turbo10 nötig, die zu durchsuchenden Quellen bereits
zu kennen bzw. diese aus einer hinterlegten Liste auszuwählen. Der große
Vorteil dieser Suchmaschine ist also allein in der gleichzeitigen Abfrage mehrerer
bereits bekannter Quellen zu sehen. Allerdings werden auch hier die Eigenheiten
und individuellen Abfragemöglichkeiten der einzelnen Datenbanken nicht
berücksichtigt, so dass die schon von den Meta-Suchmaschinen bekannten
Nachteile bestehen.
Würde nun der Ansatz von Turbo10 erweitert, so könnten bei entsprechenden
Suchanfragen in allgemeinen Suchmaschinen zusätzlich zum regulären
Web-Index auch ausgewählte Invisible-Web-Quellen abgefragt werden. Aber
auch hier stellt sich – wie schon beim automatisierten Hinweise auf die
Quellen – die Frage, wie diese ausgewählt werden können. Zusätzlich
stellt ein solches System relativ hohe Erwartungen an die Nutzer. Es sollte
daher nur bei sehr speziellen Anfragen und vor allem nur optional angeboten
werden.
Schlussendlich lässt sich feststellen, dass die großen Suchmaschinen-Anbieter
ihrem Kernbestand an Web-Dokumenten zunehmend weitere Datenbestände hinzufügen.
Dies ist keine neue Entwicklung, die Datenbestände sind allerdings zunehmend
spezialisiert. Von einer umfassenden Einbindung von Invisible-Web-Quellen kann
allerdings (noch) keine Rede sein. Dies dürfte vor allem daran liegen,
dass die dort enthaltenen Informationen sich doch eher für speziellere
Recherchen eignen und sich ihre Einbindung daher für die stark auf den
Laiennutzer ausgerichteten Anbieter nicht lohnt. Allerdings sollten Versuche
unternommen werden, bei entsprechenden Anfragen zumindest Hinweise auf weiterführende
Quellen bzw. Recherchemöglichkeiten anzubieten. Auch hier wird wieder deutlich,
dass sich die Suchmaschinen von einem reinen Werkzeug zum Nachweis von Dokumenten
zu einem Werkzeug zum Nachweis von Dokumenten und Quellen entwickeln sollten.
Damit würden die Suchmaschinen zumindest einen Einstieg in das Invisible
Web bieten, wenn sie es schon nicht in seiner Gänze erschließen können.