
In den letzten Jahren sind die allgemeinen Web-Verzeichnisse gegenüber
den Suchmaschinen deutlich ins Hintertreffen geraten. Alleinige Verzeichnisse
bestehen nur noch selten, meist werden sie in Verbindung mit einer algorithmischen
Suchmaschine angeboten. Aber auch bei den Suchmaschinen sind die Verzeichnisse
inzwischen weniger prominent platziert; das vielleicht deutlichste Beispiel
ist Yahoo, dessen ursprüngliches Angebot ja nur aus einem Verzeichnis bestand.
Inzwischen findet sich das Verzeichnis nur noch wenig prominent platziert unter
zahlreichen anderen Angeboten.
Dass Verzeichnistreffer gerade für eine hochwertige Suche in algorithmischen
Suchmaschinen geeignet sind, soll in diesem Abschnitt gezeigt werden. Als größtes
Hindernis für die Nutzung der Verzeichnistreffer ist deren bisher nur mangelhafte
Einbindung in die Trefferlisten zu sehen. Damit wird der große Nutzen,
der sich aus diesen intellektuell ausgesuchten Informationsressourcen ziehen
ließe, nicht vollständig ausgenutzt.
Klassisch werden von Suchmaschinen und Web-Verzeichnissen unterschiedliche Such-Paradigmen
erfüllt. Zur Verdeutlichung sollen hier noch einmal kurz die Paradigmen
der Websuche nach Dennis, Bruza u. McArthur (2002) dargestellt werden. Diese
sind
1. die ununterstützte Stichwortsuche (unassisted keyword search)
2. die unterstützte Stichwortsuche (assisted keyword search), wobei die
Unterstützung vor allem durch automatisch generierte Vorschläge zur
Einschränkung der Suche erfolgt.
3. die verzeichnisbasierte Suche (directory-based search)
4. das Auffinden ähnlicher Dokumente (query-by-example)
Suchmaschinen unterstützen Punkt 1, teilweise auch Punkt 2 und Punkt 4.
Punkt 3 betrifft die Web-Verzeichnisse; die Suche mit ihnen wird als eigenständige
Form der Suche aufgefasst. Im Folgenden soll es nach der Beschreibung der bisherigen
Ansätze der Kombination von Suchmaschine und Verzeichnis um die Frage gehen,
wie sich die verzeichnisbasierte Suche vor allem mit der einfachen Stichwortsuche
verbinden lässt. Die Schilderung der Einbindung von Verzeichnistreffern
fällt ausführlicher aus als die Abschnitte über die Einbindung
von Invisible-Web-Quellen, da hier bisher keine entsprechende Literatur vorliegt.
Das hauptsächliche Unterscheidungsmerkmal zwischen Web-Verzeichnissen
und Suchmaschinen ist, dass Web-Verzeichnisse von Menschen erstellt werden,
d.h. dass Redakteure für die Auswahl geeigneter Sites und deren Erschließung
sorgen. Aus diesem Grund kann gegenüber den Suchmaschinen nur eine relativ
geringe Zahl von Sites erfasst werden. Während die Suchmaschinen Indizes
bis zu einer Größe von etwa acht Milliarden Dokumenten aufgebaut
haben , gibt das größte Webverzeichnis an, über vier Millionen
Websites erschlossen zu haben . An dieser Stelle ist es allerdings wichtig,
zwischen der Indexierung von Web-Seiten, wie sie in Suchmaschinen geschieht,
und der Indexierung von Web-Sites, wie sie von Web-Verzeichnissen durchgeführt
wird, zu unterscheiden. Eine einzige Site kann aus tausenden von Seiten bestehen;
die Zahlen der in den Suchmaschinen erschlossenen Dokumente mit denen in Verzeichnissen
erschlossenen Dokumenten lässt sich also nur bedingt vergleichen. Individuelle
Dokumente werden in Verzeichnissen in der Regel nicht erschlossen.
Eine weitere Unterscheidung zwischen Suchmaschinen und Verzeichnissen zeigt
sich in der hierarchischen Anordnung der Dokumente innerhalb von Verzeichnissen.
Jedes Dokument wird hier einer oder mehrerer Klassen zugeordnet. Suchmaschinen
bieten keine vergleichbare Einordnung. Ein weiterer großer Unterschied
zwischen den beiden Formen der Erschließung des Web ist der Grad der Indexierung.
Während Suchmaschinen den Volltext jeder gefundenen Seite indexieren, beschränken
sich die Verzeichnisse auf eine kurze Beschreibung des Inhalts der kompletten
Site. Dafür wird diese Beschreibung intellektuell erstellt und bietet über
den Volltext hinausgehende Metainformationen zu der erfassten Website.
Es gibt sowohl umfassende (allgemeine) als auch themenspezifische Webverzeichnisse.
Allgemeine Verzeichnisse wie das Open Directory Project (ODP) oder das Yahoo-Verzeichnis
versuchen, Sites zu allen möglichen Themen zu erschließen und gehen
weniger in die Tiefe als spezifische Verzeichnisse. Diese enthalten zu ausgesuchten
Themen meist eine wesentlich höhere Anzahl von Quellen und erschließen
diese wesentlich genauer.
Keine der großen Suchmaschinen hat bisher spezifische Verzeichnisse in
seiner Trefferlisten integriert, während eine rudimentäre Integration
allgemeiner Verzeichnisse die Regel ist.
Relativ viele Arbeiten beschäftigen sich mit den Themen automatische Klassifikation
von Webseiten (inkl. der dafür notwendigen Klassenbildung; vgl. u.a. Chung
u. Noh 2003) sowie der automatischen Einordnung von Webseiten in ein bestehendes
Klassifikationssystem (vgl. u.a. Wätjen 1999). Die Integration von bestehenden
Webverzeichnissen in Suchmaschinen wird allerdings in der aktuellen Forschung
nicht diskutiert. Dies mag mit der Annahme zusammenhängen, dass mit der
bisher schon bestehenden rudimentären Integration der Webverzeichnisse
in Suchmaschinen das Problem gelöst sei. Im Folgenden wird jedoch angenommen,
dass durch eine verbesserte Integration der Verzeichnisergebnisse die Websuche
effektiver gestaltet werden kann.
Der Ansatz der Webverzeichnisse, die Quellen durch Menschen erschließen
zu lassen, beschränkt die Erschließung auf ausgewählte Websites.
Alle Verzeichnisse haben Richtlinien für die Aufnahme der Sites in das
Verzeichnis und versuchen, nur Sites, die eine bestimmte Qualität erreichen,
zu listen. Ob es den Verzeichnisbetreibern gelingt, tatsächlich nur Seiten
von hoher Qualität in die Kataloge aufzunehmen, kann hier nicht umfassend
diskutiert werden. Qualitätsprobleme sind allerdings in der Hinsicht vorhanden,
dass auch in Verzeichnissen teilweise Sites von schlechter Qualität oder
sogar Spam-Sites auftauchen, allerdings weit seltener als in den Trefferlisten
der Suchmaschinen. Im Folgenden wird angenommen, dass die Kategorien der Verzeichnisse
in der Regel eine Auswahl qualitativ hochwertiger Sites enthalten und diese
Kategorien deshalb als ein guter Ausgangspunkt für themenbezogene Anfragen
dienen können.
Webverzeichnisse sind vor allem für die folgenden Zwecke nützlich:
• Webverzeichnisse können das Problem mehrdeutiger Anfragen einschränken.
Durch die Benutzung der Klassifikation kann die Anfrage auf eine passende Klasse
(und deren Unterklassen) eingeschränkt werden. Polysemie-Probleme können
dadurch gemindert werden; eine Trennung zwischen kommerziellen und nicht kommerziellen
Treffern kann erfolgen.
• Verzeichnisse können genutzt werden, wenn keine geeigneten Suchbegriffe
für das Themenfeld bekannt sind. Hierzu wird auf die Navigation entlang
der Verzeichnisebenen zurückgegriffen; die Eingabe von Suchbegriffen ist
nicht nötig.
• Mit Hilfe von Webverzeichnissen lassen sich thematisch verwandte Dokumente
finden. Ausgehend von einer bekannten Website, welche in einem Verzeichnis enthalten
ist, können weitere Sites gefunden werden, welche derselben Klasse zugeordnet
sind. Hier zeigt sich ein wesentliches Problem der bisherigen Verzeichnisintegration:
Wenn der Nutzer eine Suche innerhalb aller Quellen einer Verzeichnisklasse ausführen
will, so muss er jede Site einzeln anwählen und mittels der dort vorhandenen
Site-Suche durchsuchen. Die Suchmaschinen bieten ihm keine Möglichkeit,
alle Dokumente einer Klasse direkt zu durchsuchen.
• Die Struktur von Webverzeichnissen kann genutzt werden, um eine hierarchische
Visualisierung zu unterstützen und um Navigationshilfen zu erstellen (Chakrabarti
2003, 126).
Im Folgenden sollen die ersten drei Punkte genauer behandelt werden, die im
letzten Punkt genannten Anwendungen gehen über die Zielsetzung dieser Arbeit
hinaus.
Suchmaschinen binden Verzeichniseinträge auf zwei verschiedene Arten ein.
Am häufigsten wird in den Trefferlisten zu jedem Eintrag eine Verzeichniskategorie
angezeigt, sofern eine solche vorhanden ist. Eine solche Integration findet
sich beispielsweise in den großen Suchmaschinen Google und Yahoo. Damit
lassen sich zu einem Treffer verwandte Seiten finden, die in der gleichen Klasse
des Verzeichnisses einsortiert sind. Ähnliche Sites bzw. Seiten können
teils auch über automatisierte Verfahren („related pages“)
gefunden werden; diese arbeiten jedoch bei weitem nicht so zuverlässig
wie die manuelle Klassifikation.
Die zweite bisher genutzte Möglichkeit ist es, passende Kategorien oberhalb
der Trefferlisten mit den algorithmischen Ergebnissen anzuzeigen. Eine solche
Anwendung findet sich zum Beispiel bei Yahoo, allerdings nur in der Verzeichnis-Suche.
Es erscheint verwunderlich, dass ein solcher Hinweis auf eine passende Kategorie
(also einer Linksammlung zum Thema) – auch bei anderen Suchmaschinen –
nicht in der regulären Suche genutzt wird. Algorithmische Ansätze
wie Kleinbergs HITS (Kleinberg 1999; s.a. Kap. 8.3) versuchen, von Menschen
erstellte Linksammlungen zu finden und an prominenter Stelle auf den Ergebnisseiten
anzuzeigen. Eine Anwendung hierfür ist die Suchmaschine Teoma , die neben
den algorithmischen Ergebnissen im Hauptteil der Trefferliste in einer gesonderten
Spalte Hinweise auf Linksammlungen zum Thema gibt. Diese Linklisten kommen nicht
unbedingt aus den großen Verzeichnissen, sondern sind im Regelfall singuläre
Linklisten, die nicht unbedingt eine systematische Aufarbeitung eines Themenbereichs
bieten.
Schon heutige Anwendungen von Verzeichnisdaten gehen allerdings über die
alleinige Bereitstellung eines kompletten Verzeichnisses innerhalb der Seiten
einer Suchmaschine hinaus. So reichert etwa Google die von ODP übernommenen
Verzeichnisdaten mit seinen eigenen PageRank-Werten an. Die Sites werden innerhalb
einer Kategorie nicht wie in anderen Suchmaschinen oder in ODP selbst in alphabetischer
Ordnung angezeigt, sondern werden nach ihrem PageRank-Wert sortiert. Dies soll
gewährleisten, dass auch innerhalb der Verzeichnisklassen die wichtigsten
Sites zuerst angezeigt werden. Eine solche Qualitätsmessung könnte
auch dafür eingesetzt werden, einen Schwellenwert zu bestimmen, bis zu
welchem Verzeichniseinträge in einer Suche berücksichtigt werden.
Damit könnten beispielsweise aus großen Verzeichnisklassen nur die
besten Einträge für eine weitere Suche verwendet werden, um eine „Qualitätssuche"
durchzuführen.
In den allgemeinen Web-Verzeichnissen werden die einzelnen Websites nur knapp
beschrieben; neben dem Link, der Kategorienzuordnung und der Beschreibung werden
keine weiteren Informationen erfasst. Auch die Beschreibungen selbst sind nicht
einheitlich verfasst, so dass der Informationsgehalt stark variiert. Viele der
Beschreibungen sind von den Anbietern der entsprechenden Websites selbst erstellt
worden und wurden von den Verzeichnissen nach Prüfung einfach übernommen.
Ebenso wird die Kategorie meist von den Website-Betreibern vorgeschlagen, so
dass sich ähnliche Seiten oft in unterschiedlichen Kategorien wiederfinden.
Auch die von den Editoren der Verzeichnisse geschriebenen Beschreibungen der
Sites sind keineswegs einheitlich oder verwenden gar ein kontrolliertes Vokabular.
Vielmehr geht es um kurze, prägnante Beschreibungen, die es dem Nutzer
ermöglichen, schon beim Querlesen der Ergebnisseite die für ihn relevanten
Sites zu erkennen (vgl. Hamdorf 2004, 224).
Stock u. Stock (2000b) kritisieren die bei den großen Verzeichnissen verwendeten
Klassifikationssysteme. Anstatt auf etablierte Systeme zurückzugreifen,
haben sowohl Yahoo als auch Open Directory eigene Klassifikationen entwickelt,
die allerdings mit der Zeit „gewuchert“ seien, so dass von einem
einheitlichen Aufbau nicht mehr gesprochen werden könne. Die Klassifikation
von Yahoo ist zum Teil polyhierarchisch aufgebaut; bei ODP finden sich recht
häufig Klassen, deren Unterklassen schlicht die Buchstaben des Alphabets
tragen. Stock u. Stock (2000b, 30) sehen dies als „Kapitulation vor den
Problemen einer thematischen Ordnung.“
In der Tat ist die Ordnung der Verzeichnisse als problematisch auch für
deren Einbindung in Suchmaschinen zu sehen. Vor allem im Open Directory, das
wegen seiner freien Nutzbarkeit für alle Suchmaschinen als Verzeichnis
attraktiv wäre, finden sich ähnliche bzw. zusammengehörende Einträge
oft in unterschiedlichen Klassen. Dies trifft zum Beispiel bei der Suche nach
den Hochschulinstituten der Informationswissenschaft zu: Diese werden teils
unter „Wissenschaft: Geisteswissenschaften: Fakultäten und Institute“,
teils aber auch unter „Wissenschaft: Informatik: Fakultäten und Institute:
Deutschland“ oder „Wissen: Bildung: Hochschulen: Deutschland: Nordrhein-Westfalen:
Fachhochschule Köln“ gelistet.
Das gleiche Beispiel, diesmal im Yahoo-Verzeichnis, zeigt als weiteres großes
Problem die mangelnde Vollständigkeit. Zwar existiert in diesem Verzeichnis
eine eigene Kategorie, in der die Institute zusammen aufgeführt sind, in
dieser finden sich jedoch nur neun der insgesamt 15 vom Hochschulverband Informationswissenschaft
aufgeführten deutschen Institute wieder.
Fragwürdig ist auch, ob sich die Kategorie an der Stelle in der Hierarchie
findet, an der der Nutzer sie vermuten würde. Bei Yahoo liegt sie auf der
Hierarchieebene „Nachschlagen > Bibliotheken > Bibliotheks- und
Informationswissenschaft > Ausbildung und Beruf > Hochschulinstitute“.
Der Nutzen der Einschränkung der Suche auf Top-Quellen konnte in Abschnitt
12.2 gezeigt werden. Nun soll untersucht werden, wie sich dieses Konzept mittels
der Integration von Daten aus Web-Verzeichnissen in Suchmaschinen umsetzen lässt.
Bei der Suche in einer Suchmaschine mit eingebundenem Web-Verzeichnis können
als Ergebnis direkt Verzeichnisklassen angezeigt werden. Dies kann auf Anfragen
hin erfolgen, die entweder eine exakte Übereinstimmung mit der Klassenbezeichnung
ergeben oder durch erweiterte Verfahren mit den Klassenbezeichnungen abgeglichen
werden. Ein solches Verfahren wird beispielsweise bei Yahoo eingesetzt, um auch
nicht exakte Anfragen mit den Klassen abgleichen zu können (Wu 1999; vgl.
auch Stock u. Stock 2000b). Wichtig ist, dass bei solchen Treffern die weitere
Auswahl von Top-Quellen meist nicht sinnvoll ist, da die Suche in den Quellen
wiederum mit einem Teil der Klassenbezeichnung durchgeführt werden würde.
So ist es zwar sinnvoll, bei einer Anfrage nach „Informationswissenschaft“
die entsprechende Klasse als Ergebnis anzuzeigen, eine Suche in den Sites dieser
Klasse wäre aber nicht sinnvoll, da durch die Klassenbezeichnung ja schon
klar ist, dass alle Quellen für den Begriff relevant sind.
Interessanter ist der Fall, wenn keine Übereinstimmungen zwischen Anfrage
und Klassenbezeichnungen bestehen. Es wird im Folgenden von einer großen
Treffermenge ausgegangen, die zumindest einige Quellen (Server) enthält,
die jeweils viele zur Anfrage passende Dokumente enthalten. Diese würden
in der regulären Trefferliste „geclustert“ werden, d.h. es
würden nur zwei Dokumente pro Server angezeigt werden. Es sollen aber gerade
die Quellen gefunden werden, die sowohl viele Dokumente enthalten als auch durch
die Aufnahme in ein Verzeichnis eine gewisse Qualitätsprüfung durchlaufen
haben. Abb. 12.5 zeigt den Prozess der Quellenauswahl, der im Folgenden erläutert
wird.
Nach der Überprüfung, ob es eine Übereinstimmung zwischen Anfrage
und Verzeichnisklasse gibt, werden in einem ersten Schritt alle Server ermittelt,
die entweder mindestens eine gewisse Anzahl von Dokumenten enthalten oder aber
es werden die n Server mit den meisten Dokumenten ermittelt, wobei n einen Cut-Off-Wert
darstellt, beispielsweise 20. Die ermittelte Menge der Server wird für
die weitere Bearbeitung verwendet. Allerdings enthält diese Menge noch
nicht allein die Top-Quellen, sondern schlicht alle Quellen, die viele Dokumente
zum Thema enthalten. Zu diesen dürften in vielen Fällen auch für
die Anfrage nicht relevante Quellen gehören; zum Beispiel solche, die versuchen,
durch den Aufbau von komplexen Verlinkungsstrukturen in den Suchmaschinen ein
besseres Ranking zu erhalten und deshalb eine hohe Anzahl von Dokumenten, die
einen Suchbegriff enthalten, generieren. Auch muss vermieden werden, dass Quellen
allein aufgrund ihres Umfangs als Top-Quellen angesehen werden.
Abb. 12.5. Automatische Auswahl der Verzeichnisquellen
Die so ausgewählten Quellen können nun mit einem oder mehreren Verzeichnissen
abgeglichen werden. Es bietet sich an, sowohl ein allgemeines Verzeichnis (wie
ODP) einzubinden als auch spezialisierte Verzeichnisse.
Als nächstes wird in jedem verwendeten Verzeichnis für jeden einzelnen
Server geprüft, ob dieser enthalten ist. Die im Verzeichnis enthaltenen
Server werden in der weiteren Auswertung berücksichtigt, die nicht im Verzeichnis
enthaltenen Server werden ausgeschlossen. Durch die Qualitätskontrolle
der Verzeichnisse (der menschlichen Redaktion) werden diejenigen Server ausgeschlossen,
die die Qualitätsstandards des verwendeten Verzeichnisses nicht einhalten
können. Allerdings werden auch alle Server ausgeschlossen, die im Verzeichnis
nicht enthalten sind, etwa weil bisher kein Editor Zeit fand, diese mit aufzunehmen.
Es ist allerdings davon auszugehen, dass die Verzeichnisklassen die wichtigsten
Quellen zum Thema enthalten (vgl. auch Hamdorf 2004 zur Vorgehensweise beim
Aufbau von Verzeichnissen). Des Weiteren wird eine Liste der gefundenen Kategorien
erstellt, die auch die darin enthaltene Anzahl der überprüften Server
enthält.
Die neu ermittelte Servermenge erfüllt nun zwei Bedingungen: Erstens enthält
sie nur Quellen, die eine gewisse Anzahl von Dokumenten, die zur Suchanfrage
passen, enthalten. Zweitens enthält sie nur Quellen, die in einer menschlichen
Qualitätskontrolle für gut befunden wurden.
Die ermittelte Kategorienliste enthält die relevanten Kategorien aus den
ausgewerteten Verzeichnissen mit der Anzahl der dort enthaltenen Server, auf
denen Dokumente gefunden wurden sowie die Anzahl der insgesamt in der jeweiligen
Kategorie enthaltenen Quellen.
Als letzter Schritt bleiben nun noch die Art und der Umfang der Umsetzung der
Verzeichnisquellen in ein Suchergebnis. Dabei stehen vier Möglichkeiten
zur Verfügung:
• Die Auswahl der Server wird beibehalten. Alle ermittelten Server werden
unabhängig von ihrer Stellung im Verzeichnis für die Suche ausgewählt.
• Die Klasse oder diejenigen Klassen, die am meisten relevante Server
enthalten, werden ausgewählt. Alle Server der Klasse werden in der weiteren
Suche berücksichtigt, unabhängig davon, ob sie in der ursprünglichen
Treffermenge enthalten waren. Da der Umfang der Klassen sehr stark variiert,
kann auch innerhalb der Klassen mit einem Cut-Off-Wert gearbeitet werden. Wie
schon bei Google üblich, kann die Liste der Quellen nach einem statischen
Wert ihrer Linkpopularität geordnet werden. Aufgrund dieser Ordnung kann
in Kombination mit dem Cut-Off-Wert die Suche nur auf die populärsten Quellen
beschränkt werden.
• Die Auswahl der zu berücksichtigenden Klassen wird dem Nutzer überlassen.
Ihm werden die Klassenbezeichnungen mit der Anzahl der relevanten Quellen zur
Auswahl angeboten.
• Der Nutzer wählt die zu berücksichtigenden Server selbständig
aus einer Liste aus.
Auf welche Art auch immer dieser Schritt ausgeführt wird, wird letztlich
noch die modifizierte Suchanfrage wieder an den Suchmaschinen-Index gesendet.
Die Anfrage wird dabei auf die ausgewählten Server beschränkt, so
dass nur Treffer von diesen zurückgegeben werden. Dabei sollten die sonst
im Ranking verwendeten statischen Werte für die Linkpopularität nicht
bzw. nur eingeschränkt verwendet werden, da sie häufig grundsätzlich
Dokumente aus einer Quelle gegenüber denen aus einer anderen Quelle bevorzugen
(vgl Kap 8.6).
Das vorgeschlagene Verfahren soll anhand eines Beispiels verdeutlicht werden:
Ein Nutzer sucht nach Informationen über den Lotuseffekt. Eine Suche in
Google erbringt über 30.000 Treffer. Tabelle 12.1 (S. 212) zeigt alle Server
aus den Top-500-Treffern bei Google, die einen Link auf weitere Dokumente, die
auf demselben Server liegen, enthalten.
Die in der Tabelle gezeigten Ergebnisse sind das Resultat des in Abb. 12.5 dargestellten
Verfahrens. Nun stellt sich die Frage, welche Ergebnismenge aus diesem Ergebnis
gezogen werden soll. Gemäß den oben aufgeführten Möglichkeiten
der Umsetzung wären dies:
• Die Auswahl der Server wird beibehalten, alle auf diesen Servern gefundenen
Dokumente bilden die Ergebnismenge. Es erfolgt ein neues Ranking, welches die
Ergebnisse aller dieser Server mischt. Im Beispiel würde es sich anbieten,
alle Server einzubeziehen, die von mindestens einem der Verzeichnisse gefunden
werden. Hier zeigt sich auch die Schwäche der Verzeichnisse: Offensichtlich
sind auch manche hoch relevante Server nicht in beiden Verzeichnissen vorhanden.
Allerdings gibt es auch keine relevanten Quellen, die in beiden Verzeichnissen
fehlen. Irrelevante Sites wie die verschiedenen Ebay-Server mit Auktionsangeboten
werden erfolgreich ausgeschlossen.
• Die gefundenen Server verteilen sich auf relativ viele unterschiedliche
Klassen. Eine Einschränkung auf nur eine Klasse erscheint daher nicht sinnvoll;
die Ausweitung auf alle Server einer Klasse damit auch nicht. Weitere Beispielanfragen
müssen zeigen, ob eine solche Form der Einschränkung in anderen Fällen
sinnvoll ist. Möglich wäre allerdings die Beschränkung der Recherche
auf eine der obersten Hierarchieebenen. Bei ODP zeigt sich eine klare Unterteilung
der Treffer in die Klassen „Wirtschaft“ und „Wissenschaft“.
Dem Nutzer könnte die Wahl gegeben werden, seine Suche auf einen der Bereiche
einzuschränken. Bei Yahoo ergibt sich diese Möglichkeit aufgrund der
Verzeichnisstruktur nicht.
• Die Auswahl der relevanten Klassen und die weitere Recherche in diesen
durch den Nutzer ließe sich für das Beispiel realisieren, auch wenn
der Vorteil für die Recherche hier nicht sicher erscheint.
• Eine Auswahl der relevanten Server durch den Nutzer ist in jedem Fall
sinnvoll. Die in den Verzeichnissen aufgeführten Server könnten nach
der Anzahl der Dokumente oder je nachdem, von wie vielen Verzeichnissen sie
gefunden wurden, gelistet werden.
Ein ähnliches Ergebnis zeigt sich bei einem zweiten Beispiel (s. Tabelle
12.2 auf S. 214), der Suchanfrage „WLAN“. Allerdings zeigt sich
hier bei ODP eine Verzeichnisklasse („Computer und Technik > Zeitschriften
und Online-Magazine“), in der drei hoch relevante Server enthalten sind.
Hier könnte es sinnvoll sein, die Recherche auf alle in dieser Klasse enthaltenen
Server auszuweiten.
Die in diesem Kapitel beschriebenen Ansätze versuchen allesamt, die Qualität
der Treffer durch die prominente Einbindung von Qualitätsquellen zu erhöhen.
Insbesondere für populäre, also häufig gestellte Anfragen erscheint
der Ansatz der manuellen Zusammenstellung und Einbindung von Top-Quellen, auch
solchen aus dem Invisible Web, vielversprechend. Die automatische Abfrage von
Invisible-Web-Quellen hingegen ist wohl eher bei Spezialsuchmaschinen bzw. gesonderten
Bereichen innerhalb der allgemeinen Web-Suchmaschinen sinnvoll.
Letztlich bleibt noch der Ansatz der Verwendung von Daten aus Web-Verzeichnissen.
Zwar haben diese im Lauf der Jahre an Popularität verloren, dies mag allerdings
auch an der mangelhaften Integration ihrer Daten in die algorithmischen Suchmaschinen
liegen. Es wurde ein Ansatz vorgestellt, wie sich das aus der „Datenbank-Welt“
bekannte Konzept der Top-Quellen bzw. der Cross-Suche auf das Web anwenden lässt.
Das vorgestellte Verfahren erscheint vielversprechend, es bedarf jedoch vor
allem noch einer empirischen Überprüfung und ausführlicher Tests
mit echten Nutzern und ihren Suchanfragen. Dies konnte im Rahmen der vorliegenden
konzeptionellen Arbeit noch nicht geleistet werden. Es konnten aber durchaus
anhand der beschriebenen Beispiele mögliche Anwendung des Verfahrens gezeigt
werden. Es wäre wünschenswert, wenn sich die Forschung (wieder) mit
Fragen der Integration von Verzeichnisdaten in Suchmaschinen beschäftigen
würde. Dass für das Suchergebnis die Qualität der zugrunde liegenden
Quellen von großer Bedeutung ist, ist unstrittig. Mit den Verzeichnisdaten
liegt ein Instrument vor, die Qualität der Suchergebnisse zu erhöhen.
Bisher nicht behandelt wurde die Navigation innerhalb des Verzeichnisses auf
Basis der gefundenen Verzeichnistreffer. Durch ein solches den Nutzer leitendes
Verfahren könnte die Qualität der Suchergebnisse in einem weiteren
Suchschritt weiter erhöht werden.
Von besonderer Bedeutung für das vorgestellte Verfahren ist die Qualität
der zugrunde liegenden Verzeichnisse. Schon in den vorgestellten Beispielen
wurde etwa deutlich, dass sich die Treffer aufgrund der inkonsistenten Klassierung
teils nur eingeschränkt verwenden lassen. Insbesondere die Integration
von spezialisierten Verzeichnissen erscheint vielversprechend: Für jede
Abfrage müssten dann allerdings entsprechend viele Einzelverzeichnisse
durchsucht werden.