Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 12.6 Einbindung von Web-Verzeichnissen in Suchmaschinen
< 11.5 Automatisierte Einbindung von Invisible-Web-Quellen  |  Inhaltsverzeichnis  |  13 Verbesserung der Dokumentrepräsentation >
12.6 Einbindung von Web-Verzeichnissen in Suchmaschinen

Einbindung von Web-Verzeichnissen in Suchmaschinen

In den letzten Jahren sind die allgemeinen Web-Verzeichnisse gegenüber den Suchmaschinen deutlich ins Hintertreffen geraten. Alleinige Verzeichnisse bestehen nur noch selten, meist werden sie in Verbindung mit einer algorithmischen Suchmaschine angeboten. Aber auch bei den Suchmaschinen sind die Verzeichnisse inzwischen weniger prominent platziert; das vielleicht deutlichste Beispiel ist Yahoo, dessen ursprüngliches Angebot ja nur aus einem Verzeichnis bestand. Inzwischen findet sich das Verzeichnis nur noch wenig prominent platziert unter zahlreichen anderen Angeboten.
Dass Verzeichnistreffer gerade für eine hochwertige Suche in algorithmischen Suchmaschinen geeignet sind, soll in diesem Abschnitt gezeigt werden. Als größtes Hindernis für die Nutzung der Verzeichnistreffer ist deren bisher nur mangelhafte Einbindung in die Trefferlisten zu sehen. Damit wird der große Nutzen, der sich aus diesen intellektuell ausgesuchten Informationsressourcen ziehen ließe, nicht vollständig ausgenutzt.
Klassisch werden von Suchmaschinen und Web-Verzeichnissen unterschiedliche Such-Paradigmen erfüllt. Zur Verdeutlichung sollen hier noch einmal kurz die Paradigmen der Websuche nach Dennis, Bruza u. McArthur (2002) dargestellt werden. Diese sind
1. die ununterstützte Stichwortsuche (unassisted keyword search)
2. die unterstützte Stichwortsuche (assisted keyword search), wobei die Unterstützung vor allem durch automatisch generierte Vorschläge zur Einschränkung der Suche erfolgt.
3. die verzeichnisbasierte Suche (directory-based search)
4. das Auffinden ähnlicher Dokumente (query-by-example)
Suchmaschinen unterstützen Punkt 1, teilweise auch Punkt 2 und Punkt 4. Punkt 3 betrifft die Web-Verzeichnisse; die Suche mit ihnen wird als eigenständige Form der Suche aufgefasst. Im Folgenden soll es nach der Beschreibung der bisherigen Ansätze der Kombination von Suchmaschine und Verzeichnis um die Frage gehen, wie sich die verzeichnisbasierte Suche vor allem mit der einfachen Stichwortsuche verbinden lässt. Die Schilderung der Einbindung von Verzeichnistreffern fällt ausführlicher aus als die Abschnitte über die Einbindung von Invisible-Web-Quellen, da hier bisher keine entsprechende Literatur vorliegt.

Erschließung des Web mittels Suchmaschinen und Verzeichnissen

Das hauptsächliche Unterscheidungsmerkmal zwischen Web-Verzeichnissen und Suchmaschinen ist, dass Web-Verzeichnisse von Menschen erstellt werden, d.h. dass Redakteure für die Auswahl geeigneter Sites und deren Erschließung sorgen. Aus diesem Grund kann gegenüber den Suchmaschinen nur eine relativ geringe Zahl von Sites erfasst werden. Während die Suchmaschinen Indizes bis zu einer Größe von etwa acht Milliarden Dokumenten aufgebaut haben , gibt das größte Webverzeichnis an, über vier Millionen Websites erschlossen zu haben . An dieser Stelle ist es allerdings wichtig, zwischen der Indexierung von Web-Seiten, wie sie in Suchmaschinen geschieht, und der Indexierung von Web-Sites, wie sie von Web-Verzeichnissen durchgeführt wird, zu unterscheiden. Eine einzige Site kann aus tausenden von Seiten bestehen; die Zahlen der in den Suchmaschinen erschlossenen Dokumente mit denen in Verzeichnissen erschlossenen Dokumenten lässt sich also nur bedingt vergleichen. Individuelle Dokumente werden in Verzeichnissen in der Regel nicht erschlossen.
Eine weitere Unterscheidung zwischen Suchmaschinen und Verzeichnissen zeigt sich in der hierarchischen Anordnung der Dokumente innerhalb von Verzeichnissen. Jedes Dokument wird hier einer oder mehrerer Klassen zugeordnet. Suchmaschinen bieten keine vergleichbare Einordnung. Ein weiterer großer Unterschied zwischen den beiden Formen der Erschließung des Web ist der Grad der Indexierung. Während Suchmaschinen den Volltext jeder gefundenen Seite indexieren, beschränken sich die Verzeichnisse auf eine kurze Beschreibung des Inhalts der kompletten Site. Dafür wird diese Beschreibung intellektuell erstellt und bietet über den Volltext hinausgehende Metainformationen zu der erfassten Website.
Es gibt sowohl umfassende (allgemeine) als auch themenspezifische Webverzeichnisse. Allgemeine Verzeichnisse wie das Open Directory Project (ODP) oder das Yahoo-Verzeichnis versuchen, Sites zu allen möglichen Themen zu erschließen und gehen weniger in die Tiefe als spezifische Verzeichnisse. Diese enthalten zu ausgesuchten Themen meist eine wesentlich höhere Anzahl von Quellen und erschließen diese wesentlich genauer.
Keine der großen Suchmaschinen hat bisher spezifische Verzeichnisse in seiner Trefferlisten integriert, während eine rudimentäre Integration allgemeiner Verzeichnisse die Regel ist.
Relativ viele Arbeiten beschäftigen sich mit den Themen automatische Klassifikation von Webseiten (inkl. der dafür notwendigen Klassenbildung; vgl. u.a. Chung u. Noh 2003) sowie der automatischen Einordnung von Webseiten in ein bestehendes Klassifikationssystem (vgl. u.a. Wätjen 1999). Die Integration von bestehenden Webverzeichnissen in Suchmaschinen wird allerdings in der aktuellen Forschung nicht diskutiert. Dies mag mit der Annahme zusammenhängen, dass mit der bisher schon bestehenden rudimentären Integration der Webverzeichnisse in Suchmaschinen das Problem gelöst sei. Im Folgenden wird jedoch angenommen, dass durch eine verbesserte Integration der Verzeichnisergebnisse die Websuche effektiver gestaltet werden kann.

Web-Verzeichnisse und ihre Integration in Suchmaschinen

Der Ansatz der Webverzeichnisse, die Quellen durch Menschen erschließen zu lassen, beschränkt die Erschließung auf ausgewählte Websites. Alle Verzeichnisse haben Richtlinien für die Aufnahme der Sites in das Verzeichnis und versuchen, nur Sites, die eine bestimmte Qualität erreichen, zu listen. Ob es den Verzeichnisbetreibern gelingt, tatsächlich nur Seiten von hoher Qualität in die Kataloge aufzunehmen, kann hier nicht umfassend diskutiert werden. Qualitätsprobleme sind allerdings in der Hinsicht vorhanden, dass auch in Verzeichnissen teilweise Sites von schlechter Qualität oder sogar Spam-Sites auftauchen, allerdings weit seltener als in den Trefferlisten der Suchmaschinen. Im Folgenden wird angenommen, dass die Kategorien der Verzeichnisse in der Regel eine Auswahl qualitativ hochwertiger Sites enthalten und diese Kategorien deshalb als ein guter Ausgangspunkt für themenbezogene Anfragen dienen können.
Webverzeichnisse sind vor allem für die folgenden Zwecke nützlich:
• Webverzeichnisse können das Problem mehrdeutiger Anfragen einschränken. Durch die Benutzung der Klassifikation kann die Anfrage auf eine passende Klasse (und deren Unterklassen) eingeschränkt werden. Polysemie-Probleme können dadurch gemindert werden; eine Trennung zwischen kommerziellen und nicht kommerziellen Treffern kann erfolgen.
• Verzeichnisse können genutzt werden, wenn keine geeigneten Suchbegriffe für das Themenfeld bekannt sind. Hierzu wird auf die Navigation entlang der Verzeichnisebenen zurückgegriffen; die Eingabe von Suchbegriffen ist nicht nötig.
• Mit Hilfe von Webverzeichnissen lassen sich thematisch verwandte Dokumente finden. Ausgehend von einer bekannten Website, welche in einem Verzeichnis enthalten ist, können weitere Sites gefunden werden, welche derselben Klasse zugeordnet sind. Hier zeigt sich ein wesentliches Problem der bisherigen Verzeichnisintegration: Wenn der Nutzer eine Suche innerhalb aller Quellen einer Verzeichnisklasse ausführen will, so muss er jede Site einzeln anwählen und mittels der dort vorhandenen Site-Suche durchsuchen. Die Suchmaschinen bieten ihm keine Möglichkeit, alle Dokumente einer Klasse direkt zu durchsuchen.
• Die Struktur von Webverzeichnissen kann genutzt werden, um eine hierarchische Visualisierung zu unterstützen und um Navigationshilfen zu erstellen (Chakrabarti 2003, 126).
Im Folgenden sollen die ersten drei Punkte genauer behandelt werden, die im letzten Punkt genannten Anwendungen gehen über die Zielsetzung dieser Arbeit hinaus.
Suchmaschinen binden Verzeichniseinträge auf zwei verschiedene Arten ein. Am häufigsten wird in den Trefferlisten zu jedem Eintrag eine Verzeichniskategorie angezeigt, sofern eine solche vorhanden ist. Eine solche Integration findet sich beispielsweise in den großen Suchmaschinen Google und Yahoo. Damit lassen sich zu einem Treffer verwandte Seiten finden, die in der gleichen Klasse des Verzeichnisses einsortiert sind. Ähnliche Sites bzw. Seiten können teils auch über automatisierte Verfahren („related pages“) gefunden werden; diese arbeiten jedoch bei weitem nicht so zuverlässig wie die manuelle Klassifikation.
Die zweite bisher genutzte Möglichkeit ist es, passende Kategorien oberhalb der Trefferlisten mit den algorithmischen Ergebnissen anzuzeigen. Eine solche Anwendung findet sich zum Beispiel bei Yahoo, allerdings nur in der Verzeichnis-Suche. Es erscheint verwunderlich, dass ein solcher Hinweis auf eine passende Kategorie (also einer Linksammlung zum Thema) – auch bei anderen Suchmaschinen – nicht in der regulären Suche genutzt wird. Algorithmische Ansätze wie Kleinbergs HITS (Kleinberg 1999; s.a. Kap. 8.3) versuchen, von Menschen erstellte Linksammlungen zu finden und an prominenter Stelle auf den Ergebnisseiten anzuzeigen. Eine Anwendung hierfür ist die Suchmaschine Teoma , die neben den algorithmischen Ergebnissen im Hauptteil der Trefferliste in einer gesonderten Spalte Hinweise auf Linksammlungen zum Thema gibt. Diese Linklisten kommen nicht unbedingt aus den großen Verzeichnissen, sondern sind im Regelfall singuläre Linklisten, die nicht unbedingt eine systematische Aufarbeitung eines Themenbereichs bieten.
Schon heutige Anwendungen von Verzeichnisdaten gehen allerdings über die alleinige Bereitstellung eines kompletten Verzeichnisses innerhalb der Seiten einer Suchmaschine hinaus. So reichert etwa Google die von ODP übernommenen Verzeichnisdaten mit seinen eigenen PageRank-Werten an. Die Sites werden innerhalb einer Kategorie nicht wie in anderen Suchmaschinen oder in ODP selbst in alphabetischer Ordnung angezeigt, sondern werden nach ihrem PageRank-Wert sortiert. Dies soll gewährleisten, dass auch innerhalb der Verzeichnisklassen die wichtigsten Sites zuerst angezeigt werden. Eine solche Qualitätsmessung könnte auch dafür eingesetzt werden, einen Schwellenwert zu bestimmen, bis zu welchem Verzeichniseinträge in einer Suche berücksichtigt werden. Damit könnten beispielsweise aus großen Verzeichnisklassen nur die besten Einträge für eine weitere Suche verwendet werden, um eine „Qualitätssuche" durchzuführen.

Erschließung der Sites in Web-Verzeichnissen

In den allgemeinen Web-Verzeichnissen werden die einzelnen Websites nur knapp beschrieben; neben dem Link, der Kategorienzuordnung und der Beschreibung werden keine weiteren Informationen erfasst. Auch die Beschreibungen selbst sind nicht einheitlich verfasst, so dass der Informationsgehalt stark variiert. Viele der Beschreibungen sind von den Anbietern der entsprechenden Websites selbst erstellt worden und wurden von den Verzeichnissen nach Prüfung einfach übernommen. Ebenso wird die Kategorie meist von den Website-Betreibern vorgeschlagen, so dass sich ähnliche Seiten oft in unterschiedlichen Kategorien wiederfinden.
Auch die von den Editoren der Verzeichnisse geschriebenen Beschreibungen der Sites sind keineswegs einheitlich oder verwenden gar ein kontrolliertes Vokabular. Vielmehr geht es um kurze, prägnante Beschreibungen, die es dem Nutzer ermöglichen, schon beim Querlesen der Ergebnisseite die für ihn relevanten Sites zu erkennen (vgl. Hamdorf 2004, 224).
Stock u. Stock (2000b) kritisieren die bei den großen Verzeichnissen verwendeten Klassifikationssysteme. Anstatt auf etablierte Systeme zurückzugreifen, haben sowohl Yahoo als auch Open Directory eigene Klassifikationen entwickelt, die allerdings mit der Zeit „gewuchert“ seien, so dass von einem einheitlichen Aufbau nicht mehr gesprochen werden könne. Die Klassifikation von Yahoo ist zum Teil polyhierarchisch aufgebaut; bei ODP finden sich recht häufig Klassen, deren Unterklassen schlicht die Buchstaben des Alphabets tragen. Stock u. Stock (2000b, 30) sehen dies als „Kapitulation vor den Problemen einer thematischen Ordnung.“
In der Tat ist die Ordnung der Verzeichnisse als problematisch auch für deren Einbindung in Suchmaschinen zu sehen. Vor allem im Open Directory, das wegen seiner freien Nutzbarkeit für alle Suchmaschinen als Verzeichnis attraktiv wäre, finden sich ähnliche bzw. zusammengehörende Einträge oft in unterschiedlichen Klassen. Dies trifft zum Beispiel bei der Suche nach den Hochschulinstituten der Informationswissenschaft zu: Diese werden teils unter „Wissenschaft: Geisteswissenschaften: Fakultäten und Institute“, teils aber auch unter „Wissenschaft: Informatik: Fakultäten und Institute: Deutschland“ oder „Wissen: Bildung: Hochschulen: Deutschland: Nordrhein-Westfalen: Fachhochschule Köln“ gelistet.
Das gleiche Beispiel, diesmal im Yahoo-Verzeichnis, zeigt als weiteres großes Problem die mangelnde Vollständigkeit. Zwar existiert in diesem Verzeichnis eine eigene Kategorie, in der die Institute zusammen aufgeführt sind, in dieser finden sich jedoch nur neun der insgesamt 15 vom Hochschulverband Informationswissenschaft aufgeführten deutschen Institute wieder.
Fragwürdig ist auch, ob sich die Kategorie an der Stelle in der Hierarchie findet, an der der Nutzer sie vermuten würde. Bei Yahoo liegt sie auf der Hierarchieebene „Nachschlagen > Bibliotheken > Bibliotheks- und Informationswissenschaft > Ausbildung und Beruf > Hochschulinstitute“.

Einbindung der Verzeichnisdaten in Suchmaschinen

Der Nutzen der Einschränkung der Suche auf Top-Quellen konnte in Abschnitt 12.2 gezeigt werden. Nun soll untersucht werden, wie sich dieses Konzept mittels der Integration von Daten aus Web-Verzeichnissen in Suchmaschinen umsetzen lässt.
Bei der Suche in einer Suchmaschine mit eingebundenem Web-Verzeichnis können als Ergebnis direkt Verzeichnisklassen angezeigt werden. Dies kann auf Anfragen hin erfolgen, die entweder eine exakte Übereinstimmung mit der Klassenbezeichnung ergeben oder durch erweiterte Verfahren mit den Klassenbezeichnungen abgeglichen werden. Ein solches Verfahren wird beispielsweise bei Yahoo eingesetzt, um auch nicht exakte Anfragen mit den Klassen abgleichen zu können (Wu 1999; vgl. auch Stock u. Stock 2000b). Wichtig ist, dass bei solchen Treffern die weitere Auswahl von Top-Quellen meist nicht sinnvoll ist, da die Suche in den Quellen wiederum mit einem Teil der Klassenbezeichnung durchgeführt werden würde. So ist es zwar sinnvoll, bei einer Anfrage nach „Informationswissenschaft“ die entsprechende Klasse als Ergebnis anzuzeigen, eine Suche in den Sites dieser Klasse wäre aber nicht sinnvoll, da durch die Klassenbezeichnung ja schon klar ist, dass alle Quellen für den Begriff relevant sind.
Interessanter ist der Fall, wenn keine Übereinstimmungen zwischen Anfrage und Klassenbezeichnungen bestehen. Es wird im Folgenden von einer großen Treffermenge ausgegangen, die zumindest einige Quellen (Server) enthält, die jeweils viele zur Anfrage passende Dokumente enthalten. Diese würden in der regulären Trefferliste „geclustert“ werden, d.h. es würden nur zwei Dokumente pro Server angezeigt werden. Es sollen aber gerade die Quellen gefunden werden, die sowohl viele Dokumente enthalten als auch durch die Aufnahme in ein Verzeichnis eine gewisse Qualitätsprüfung durchlaufen haben. Abb. 12.5 zeigt den Prozess der Quellenauswahl, der im Folgenden erläutert wird.
Nach der Überprüfung, ob es eine Übereinstimmung zwischen Anfrage und Verzeichnisklasse gibt, werden in einem ersten Schritt alle Server ermittelt, die entweder mindestens eine gewisse Anzahl von Dokumenten enthalten oder aber es werden die n Server mit den meisten Dokumenten ermittelt, wobei n einen Cut-Off-Wert darstellt, beispielsweise 20. Die ermittelte Menge der Server wird für die weitere Bearbeitung verwendet. Allerdings enthält diese Menge noch nicht allein die Top-Quellen, sondern schlicht alle Quellen, die viele Dokumente zum Thema enthalten. Zu diesen dürften in vielen Fällen auch für die Anfrage nicht relevante Quellen gehören; zum Beispiel solche, die versuchen, durch den Aufbau von komplexen Verlinkungsstrukturen in den Suchmaschinen ein besseres Ranking zu erhalten und deshalb eine hohe Anzahl von Dokumenten, die einen Suchbegriff enthalten, generieren. Auch muss vermieden werden, dass Quellen allein aufgrund ihres Umfangs als Top-Quellen angesehen werden.

Abb. 12.5. Automatische Auswahl der Verzeichnisquellen


Die so ausgewählten Quellen können nun mit einem oder mehreren Verzeichnissen abgeglichen werden. Es bietet sich an, sowohl ein allgemeines Verzeichnis (wie ODP) einzubinden als auch spezialisierte Verzeichnisse.
Als nächstes wird in jedem verwendeten Verzeichnis für jeden einzelnen Server geprüft, ob dieser enthalten ist. Die im Verzeichnis enthaltenen Server werden in der weiteren Auswertung berücksichtigt, die nicht im Verzeichnis enthaltenen Server werden ausgeschlossen. Durch die Qualitätskontrolle der Verzeichnisse (der menschlichen Redaktion) werden diejenigen Server ausgeschlossen, die die Qualitätsstandards des verwendeten Verzeichnisses nicht einhalten können. Allerdings werden auch alle Server ausgeschlossen, die im Verzeichnis nicht enthalten sind, etwa weil bisher kein Editor Zeit fand, diese mit aufzunehmen. Es ist allerdings davon auszugehen, dass die Verzeichnisklassen die wichtigsten Quellen zum Thema enthalten (vgl. auch Hamdorf 2004 zur Vorgehensweise beim Aufbau von Verzeichnissen). Des Weiteren wird eine Liste der gefundenen Kategorien erstellt, die auch die darin enthaltene Anzahl der überprüften Server enthält.
Die neu ermittelte Servermenge erfüllt nun zwei Bedingungen: Erstens enthält sie nur Quellen, die eine gewisse Anzahl von Dokumenten, die zur Suchanfrage passen, enthalten. Zweitens enthält sie nur Quellen, die in einer menschlichen Qualitätskontrolle für gut befunden wurden.
Die ermittelte Kategorienliste enthält die relevanten Kategorien aus den ausgewerteten Verzeichnissen mit der Anzahl der dort enthaltenen Server, auf denen Dokumente gefunden wurden sowie die Anzahl der insgesamt in der jeweiligen Kategorie enthaltenen Quellen.
Als letzter Schritt bleiben nun noch die Art und der Umfang der Umsetzung der Verzeichnisquellen in ein Suchergebnis. Dabei stehen vier Möglichkeiten zur Verfügung:
• Die Auswahl der Server wird beibehalten. Alle ermittelten Server werden unabhängig von ihrer Stellung im Verzeichnis für die Suche ausgewählt.
• Die Klasse oder diejenigen Klassen, die am meisten relevante Server enthalten, werden ausgewählt. Alle Server der Klasse werden in der weiteren Suche berücksichtigt, unabhängig davon, ob sie in der ursprünglichen Treffermenge enthalten waren. Da der Umfang der Klassen sehr stark variiert, kann auch innerhalb der Klassen mit einem Cut-Off-Wert gearbeitet werden. Wie schon bei Google üblich, kann die Liste der Quellen nach einem statischen Wert ihrer Linkpopularität geordnet werden. Aufgrund dieser Ordnung kann in Kombination mit dem Cut-Off-Wert die Suche nur auf die populärsten Quellen beschränkt werden.
• Die Auswahl der zu berücksichtigenden Klassen wird dem Nutzer überlassen. Ihm werden die Klassenbezeichnungen mit der Anzahl der relevanten Quellen zur Auswahl angeboten.
• Der Nutzer wählt die zu berücksichtigenden Server selbständig aus einer Liste aus.
Auf welche Art auch immer dieser Schritt ausgeführt wird, wird letztlich noch die modifizierte Suchanfrage wieder an den Suchmaschinen-Index gesendet. Die Anfrage wird dabei auf die ausgewählten Server beschränkt, so dass nur Treffer von diesen zurückgegeben werden. Dabei sollten die sonst im Ranking verwendeten statischen Werte für die Linkpopularität nicht bzw. nur eingeschränkt verwendet werden, da sie häufig grundsätzlich Dokumente aus einer Quelle gegenüber denen aus einer anderen Quelle bevorzugen (vgl Kap 8.6).
Das vorgeschlagene Verfahren soll anhand eines Beispiels verdeutlicht werden: Ein Nutzer sucht nach Informationen über den Lotuseffekt. Eine Suche in Google erbringt über 30.000 Treffer. Tabelle 12.1 (S. 212) zeigt alle Server aus den Top-500-Treffern bei Google, die einen Link auf weitere Dokumente, die auf demselben Server liegen, enthalten.
Die in der Tabelle gezeigten Ergebnisse sind das Resultat des in Abb. 12.5 dargestellten Verfahrens. Nun stellt sich die Frage, welche Ergebnismenge aus diesem Ergebnis gezogen werden soll. Gemäß den oben aufgeführten Möglichkeiten der Umsetzung wären dies:
• Die Auswahl der Server wird beibehalten, alle auf diesen Servern gefundenen Dokumente bilden die Ergebnismenge. Es erfolgt ein neues Ranking, welches die Ergebnisse aller dieser Server mischt. Im Beispiel würde es sich anbieten, alle Server einzubeziehen, die von mindestens einem der Verzeichnisse gefunden werden. Hier zeigt sich auch die Schwäche der Verzeichnisse: Offensichtlich sind auch manche hoch relevante Server nicht in beiden Verzeichnissen vorhanden. Allerdings gibt es auch keine relevanten Quellen, die in beiden Verzeichnissen fehlen. Irrelevante Sites wie die verschiedenen Ebay-Server mit Auktionsangeboten werden erfolgreich ausgeschlossen.
• Die gefundenen Server verteilen sich auf relativ viele unterschiedliche Klassen. Eine Einschränkung auf nur eine Klasse erscheint daher nicht sinnvoll; die Ausweitung auf alle Server einer Klasse damit auch nicht. Weitere Beispielanfragen müssen zeigen, ob eine solche Form der Einschränkung in anderen Fällen sinnvoll ist. Möglich wäre allerdings die Beschränkung der Recherche auf eine der obersten Hierarchieebenen. Bei ODP zeigt sich eine klare Unterteilung der Treffer in die Klassen „Wirtschaft“ und „Wissenschaft“. Dem Nutzer könnte die Wahl gegeben werden, seine Suche auf einen der Bereiche einzuschränken. Bei Yahoo ergibt sich diese Möglichkeit aufgrund der Verzeichnisstruktur nicht.
• Die Auswahl der relevanten Klassen und die weitere Recherche in diesen durch den Nutzer ließe sich für das Beispiel realisieren, auch wenn der Vorteil für die Recherche hier nicht sicher erscheint.
• Eine Auswahl der relevanten Server durch den Nutzer ist in jedem Fall sinnvoll. Die in den Verzeichnissen aufgeführten Server könnten nach der Anzahl der Dokumente oder je nachdem, von wie vielen Verzeichnissen sie gefunden wurden, gelistet werden.
Ein ähnliches Ergebnis zeigt sich bei einem zweiten Beispiel (s. Tabelle 12.2 auf S. 214), der Suchanfrage „WLAN“. Allerdings zeigt sich hier bei ODP eine Verzeichnisklasse („Computer und Technik > Zeitschriften und Online-Magazine“), in der drei hoch relevante Server enthalten sind. Hier könnte es sinnvoll sein, die Recherche auf alle in dieser Klasse enthaltenen Server auszuweiten.
Die in diesem Kapitel beschriebenen Ansätze versuchen allesamt, die Qualität der Treffer durch die prominente Einbindung von Qualitätsquellen zu erhöhen. Insbesondere für populäre, also häufig gestellte Anfragen erscheint der Ansatz der manuellen Zusammenstellung und Einbindung von Top-Quellen, auch solchen aus dem Invisible Web, vielversprechend. Die automatische Abfrage von Invisible-Web-Quellen hingegen ist wohl eher bei Spezialsuchmaschinen bzw. gesonderten Bereichen innerhalb der allgemeinen Web-Suchmaschinen sinnvoll.
Letztlich bleibt noch der Ansatz der Verwendung von Daten aus Web-Verzeichnissen. Zwar haben diese im Lauf der Jahre an Popularität verloren, dies mag allerdings auch an der mangelhaften Integration ihrer Daten in die algorithmischen Suchmaschinen liegen. Es wurde ein Ansatz vorgestellt, wie sich das aus der „Datenbank-Welt“ bekannte Konzept der Top-Quellen bzw. der Cross-Suche auf das Web anwenden lässt.
Das vorgestellte Verfahren erscheint vielversprechend, es bedarf jedoch vor allem noch einer empirischen Überprüfung und ausführlicher Tests mit echten Nutzern und ihren Suchanfragen. Dies konnte im Rahmen der vorliegenden konzeptionellen Arbeit noch nicht geleistet werden. Es konnten aber durchaus anhand der beschriebenen Beispiele mögliche Anwendung des Verfahrens gezeigt werden. Es wäre wünschenswert, wenn sich die Forschung (wieder) mit Fragen der Integration von Verzeichnisdaten in Suchmaschinen beschäftigen würde. Dass für das Suchergebnis die Qualität der zugrunde liegenden Quellen von großer Bedeutung ist, ist unstrittig. Mit den Verzeichnisdaten liegt ein Instrument vor, die Qualität der Suchergebnisse zu erhöhen.
Bisher nicht behandelt wurde die Navigation innerhalb des Verzeichnisses auf Basis der gefundenen Verzeichnistreffer. Durch ein solches den Nutzer leitendes Verfahren könnte die Qualität der Suchergebnisse in einem weiteren Suchschritt weiter erhöht werden.
Von besonderer Bedeutung für das vorgestellte Verfahren ist die Qualität der zugrunde liegenden Verzeichnisse. Schon in den vorgestellten Beispielen wurde etwa deutlich, dass sich die Treffer aufgrund der inkonsistenten Klassierung teils nur eingeschränkt verwenden lassen. Insbesondere die Integration von spezialisierten Verzeichnissen erscheint vielversprechend: Für jede Abfrage müssten dann allerdings entsprechend viele Einzelverzeichnisse durchsucht werden.

< 11.5 Automatisierte Einbindung von Invisible-Web-Quellen  |  Inhaltsverzeichnis  |  13 Verbesserung der Dokumentrepräsentation >