
Verfahren des Information Retrieval haben in den letzten Jahren eine enorme
Bedeutung erlangt. Während diese Verfahren jahrzehntelang nur Einsatz in
spezialisierten Datenbanken fanden, haben sie durch das Aufkommen von Suchmaschinen
im World Wide Web mittlerweile eine zentrale Bedeutung in der Informationsversorgung
eingenommen. Verfahren des Web Information Retrieval entscheiden darüber,
welche Informationen von Nutzern gefunden werden; man spricht auch von einer
„Gatekeeper“-Funktion der Suchmaschinen. Diese sind zum bedeutendsten
Rechercheinstrument sowohl im privaten, beruflichen als auch wissenschaftlichen
Bereich avanciert.
Google, die berühmteste der „Information-Retrieval-Firmen“,
ist fast täglich in den Schlagzeilen zu finden. Immer neue Innovationen
(nicht nur dieses Anbieters) zeigen die Web-Suche als dynamisches Feld. Vor
allem wird durch die zahlreichen Neuerungen der letzten Jahre, teilweise erst
der letzten Monate, deutlich, dass die Suche im Web trotz ihrer mittlerweile
fast zehnjährigen Geschichte erst am Anfang steht.
Dass dem Web Information Retrieval eine hohe Bedeutung zugemessen wird, zeigt
sich auch im wachsenden Interesse kommerzieller Unternehmen an diesem Thema.
Ein Blick auf die Sponsorenliste der letztjährigen Konferenz der ACM Special
Interest Group on Information Retrieval mag dies verdeutlichen: Neben den wichtigen
Suchmaschinen-Anbietern Google, Microsoft, Yahoo und Ask Jeeves finden sich
auch Großunternehmen wie IBM, Canon und Sharp.
Auch in der gesellschaftlichen Diskussion sind die Suchmaschinen angekommen:
Es findet gegenwärtig eine Diskussion um die „Google-Gesellschaft“
statt, wobei gefragt wird, inwieweit ein einzelner Anbieter bzw. wenige Anbieter
darüber entscheiden sollten, welche Informationen beim Nutzer angelangen.
In dieser Hinsicht befassen sich inzwischen auch politische Parteien mit dem
Thema. So publizierte etwa die Gründe Bundestagsfraktion ein Diskussionspapier
unter dem Titel „Suchmaschinen: Tore zum Netz“, in welchem unter
anderem die Rolle der Suchmaschinen beim Zugang zu Informationen und Probleme
des Datenschutzes bei der Suchmaschinennutzung angesprochen werden.
Die vorliegende Arbeit setzt auf einer eher technischen Ebene an und bietet
die Grundlagen für das Verständnis der Funktionsweise und der Defizite
von Web-Suchmaschinen. Während zum klassischen Information Retrieval eine
breite Auswahl an Literatur vorliegt, gibt es bisher kein Werk, welches eine
umfassende Darstellung des Web Information Retrieval mit seinen Unterscheidungen
und Besonderheiten gegenüber dem „klassischen“ Information
Retrieval bietet. Monographien zum Thema Suchmaschinen behandeln vor allem deren
Suchfunktionen oder konzentrieren sich allein auf algorithmische Aspekte des
Web Information Retrieval. Die Forschungslitertaur liegt zum überwältigenden
Teil nur in englischer Sprache vor; die Forschung selbst findet zu einem großen
Teil in den USA statt. Aus diesem Grund werden Spezifika anderer Sprachen als
des Englischen sowie Besonderheiten auf nationaler oder gar kontinentaler Ebene
vernachlässigt.
Die Konsequenzen, die sich aus den Besonderheiten des Web Information Re¬trieval
ergeben, wurden bisher nur unzureichend erkannt. Suchmaschinen orientieren sich
noch stark am klassischen Information Retrieval, wenn auch teils eigene Rankingkriterien
gefunden wurden, vor allem die Ergänzung der klassischen Faktoren durch
eine Art der Qualitätsbewertung der indexierten Dokumente. Die Arbeit soll
aufzeigen, welche Schritte nötig sind, um Web Information Retrieval vor
allem auch in Hinblick auf die Charakteristika der Suchmaschinen-Nutzer effektiv
zu gestalten. Die Verfahren des klassischen Information Retrieval versagen hier,
da sie einerseits von einer gepflegten Dokumentenkollektion, andererseits von
einem geschulten Nutzer ausgehen. Suchmaschinen haben mit Problemen des sog.
Index-Spamming zu kämpfen: Hierbei werden (oft in kommerziellem Interesse)
inhaltlich wertlose Dokumente erstellt, die in den Trefferlisten der Suchmaschinen
auf den vorderen Rängen angezeigt werden sollen, um Nutzer auf eine bestimmte
Webseite zu lenken. Zwar existieren Verfahren, die ein solches Spamming verhindern
sollen, allerdings können auch diese das Problem lediglich eindämmen,
nicht aber verhindern. Das Problem ließe sich wenigstens zum Teil durch
die Nutzer lösen, wenn diese gezielte Suchanfragen stellen würden,
die solche irrelevanten Treffer ausschließen würden. Allerdings zeigt
die Nutzerforschung einheitlich, dass das Wissen der Nutzer über die von
ihnen verwendeten Suchmaschinen ausgesprochen gering ist; dies gilt sowohl für
ihre Kenntnisse der Funktionsweise der Suchmaschinen als auch die Kenntnis der
Suchfunktionen.
Die Arbeit konzentriert sich neben der Darstellung des Forschungsstands im Bereich
des Web Information Retrieval auf einen nutzerzentrierten Ansatz des Aufbaus
von Suchmaschinen, der sich aus dem Retrieval in klassischen Datenbanken herleitet.
Als zentral für eine erfolgreiche Recherche wird dabei die Möglichkeit
der gezielten Beschränkung der Recherche durch den Nutzer gesehen; die
wichtigsten Faktoren sind hierbei die Einschränkung nach Aktualität,
Qualität und die verbesserte Dokumentauswahl aufgrund einer erweiterten
Dokumentrepräsentation. Alle drei Möglichkeiten sind in bisher verfügbaren
Suchmaschinen nicht zufrieden stellend implementiert.
Ein Problem bei der Bearbeitung des Themas ergab sich aus der Tatsache, dass
die Forschung im Bereich Web Information Retrieval zu einem großen Teil
bei den Anbietern selbst stattfindet, die darauf bedacht sind, ihre Erkenntnisse
nicht zu veröffentlichen und damit der Konkurrenz zu überlassen. Viele
Forschungsergebnisse können daher nur anhand der fertiggestellten Anwendungen
rekonstruiert werden; hilfreich waren in manchen Fällen auch die von den
Suchmaschinenbetreibern angemeldeten Patente, die für die vorliegende Arbeit
ausgewertet wurden.
Insgesamt zeigt sich, dass eine neue Form des Information Retrieval entstanden
ist. Ziele des klassischen Information Retrieval wie die Vollständigkeit
der Treffermenge verlieren ob der schieren Masse der zurückgegebenen Treffer
an Bedeutung; dafür werden Faktoren der Qualitätsbewertung der Dokumente
immer wichtiger. Das Web Information Retrieval setzt auf dem klassischen Information
Retrieval auf und erweitert dieses wo nötig. Das Ziel bleibt aber weitgehend
das gleiche: Dem Nutzer die für die Befriedigung seines Informationsbedürfnisses
besten Ergebnisse zu liefern.
Neben der Informationswissenschaft findet die Information-Retrieval-Forschung
hauptsächlich in der Informatik statt. Der informationswissenschaftlichen
Forschung kommt die Aufgabe zu, den stark technik-zentrierten Ansatz der Informatik
um einen „Blick fürs Ganze“ zu erweitern und insbesondere die
Bedürfnisse der Nutzer in ihren Ansatz einzubinden. Aufgrund der enormen
Bedeutung des Web Information Retrieval, welches in den klassischen informationswissenschaftlichen
Bereich fällt, ergibt sich für die Informationswissenschaft auch die
Chance, sich in diesem Thema gegenüber anderen Disziplinen zu profilieren.
Zum Aufbau der Arbeit
Die Arbeit lässt sich grob in zwei Hauptteile gliedern: Der erste Teil
(Kap. 2-10) beschreibt den Bereich Web Information Retrieval mit allen seinen
Besonderheiten in Abgrenzung zum klassischen Information Retrieval; der zweite
Teil (Kap. 11-13) stellt anhand der Ergebnisse des ersten Teils einen nutzerzentrierten
Ansatz der Rechercheverfeinerung in mehreren Schritten vor.
2 Forschungsumfeld. Einleitend wird das Forschungsumfeld des
Web Information Retrieval vorgestellt und das Thema der Arbeit entsprechend
eingegrenzt. Es wird auf den Suchmaschinen-Markt, die unterschiedlichen Formen
der Suche im WWW (z.B. Web-Verzeichnisse, algorithmische Suchmaschinen, Meta-Suchmaschinen),
den typischen Aufbau der in dieser Arbeit behandelten algorithmischen Suchmaschinen
und deren Abfragesprachen eingegangen. Anhand von Nutzerstudien wird das typische
Verhalten der Suchmaschinen-Nutzer dargestellt und geklärt, welche Arten
von Suchanfragen an Suchmaschinen gestellt werden. Hier wird deutlich, dass
Suchmaschinen aufgrund heterogener Anfragen anderen Anforderungen unterliegen
als klassische Datenbanken.
Abschließend wird in diesem Kapitel ein Überblick der aktuellen Forschungen
gegeben und der Gegenstand der vorliegenden Arbeit entsprechend abgegrenzt.
3 Die Größe des Web und seine Abdeckung durch Suchmaschinen.
Suchmaschinen decken nicht das gesamte indexierbare Web ab. Nach einer Diskussion
der verschiedenen Versuche, die Größe des Web überhaupt zu ermitteln,
wird die Struktur des Web dargestellt und anhand dieser klar gemacht, warum
eine vollständige Abdeckung des Web für Suchmaschinen nicht möglich
ist und die Frage gestellt, ob diese überhaupt erstrebenswert ist. Ausführlich
wird auf den Bereich des Invisible Web eingegangen; vor allem auf den Bereich
des Web, den Suchmaschinen nicht erschließen können.
4 Strukturinformationen. Effektives Retrieval in großen
Datenbeständen wird erst durch die Strukturierung der Dokumente möglich.
Web-Dokumente werden oft als unstrukturiert bezeichnet. Diese Behauptung wird
in dieser Arbeit jedoch verworfen; vielmehr soll von schwach strukturierten
Dokumenten gesprochen werden. Der Strukturierungsgrad der unterschiedlichen
im Web populären Dokumentformate (z.B. HTML, PDF) wird besprochen und Folgerungen
für die Indexierung abgeleitet. Es wird gezeigt, welche Möglichkeiten
sich durch eine Trennung von Navigation, Layout und Inhalt bei der Erschließung
ergeben würden. Letztlich sind Fragen der Repräsentation der Dokumente
entscheidend; hier wird darauf hingewiesen, dass Dokumentrepräsentation
verbessert bzw. erweitert werden muss, um eine bessere Recherche zu ermöglichen.
5 Klassische Verfahren des Information Retrieval und ihre Anwendung
bei Suchmaschinen. In diesem zentralen Kapitel werden die in den letzten
Jahrzehnten entwickelten Information-Retrieval-Verfahren in Hinblick auf ihre
Anwendung bzw. Anwendbarkeit bei Suchmaschinen dargestellt. Die wichtigsten
Unterschiede sind das nur in klassischen Datenbanken vorhandene kontrollierte
Vokabular und die bei den Suchmaschinen nur marginal vorhandenen Kriterien für
die Aufnahme eines Dokuments in den Datenbestand.
Die klassischen Modelle des Information Retrieval (Boolesches Modell, Vektorraummodell,
probabilistisches Modell) werden dargestellt und es wird gezeigt, wie diese
in Web-Suchmaschinen eingesetzt werden.
6 Ranking. Das Ranking ist zentral für den Aufbau und
die Qualität von Web-Suchmaschinen. In der Regel wird auf Suchanfragen
hin eine große Anzahl von Dokumenten zurückgegeben, die für
den Nutzer zu umfangreich ist, um alle Dokumente zu sichten. Eine angemessene
Sortierung der Trefferlisten ist daher wichtig. In diesem Kapitel werden die
eingesetzten Rankingfaktoren aufgezeigt und die grundsätzliche Frage nach
der Messbarkeit von Relevanz gestellt.
7 Informationsstatistische und informationslinguistische Verfahren.
Angelehnt an das klassische IR verwenden auch Suchmaschinen informationsstatistische
Verfahren, um die Relevanz der Dokumente zu einer gegebenen Suchanfrage einzuschätzen,
allerdings können aufgrund der Menge und der heterogenen Qualität
der Dokumente nicht alleine textstatistische Verfahren eingesetzt werden. Ein
weiteres statistisches Verfahren, das das Ranking verbessern soll, ist die Auswertung
des Nutzungsverhaltens.
Informationslinguistische Verfahren werden in Web-Suchmaschinen bisher nur in
einem geringen Maß eingesetzt. Dies hat mit der Sprachenvielfalt des Web
und der zumeist US-zentrierten Sicht der Suchmaschinenbetreiber zu tun. Die
Möglichkeiten informationslinguistischer Verfahren und ihre Limitierungen
im Bereich des Web Information Retrieval werden diskutiert.
8 Linktopologische Rankingverfahren. Neben der Auswertung des
Inhalts der Dokumente hat sich die Auswertung der Verlinkungsstruktur von Dokumenten
als Faktor des Rankings bewährt. Diese stellt eine Möglichkeit dar,
die Autorität von Dokumenten zu bestimmen und basiert auf den klassischen
Verfahren der Zitationsanalyse. Der populärste linktopologische Ansatz
ist sicher der sog. PageRank der Suchmaschine Google. Neben diesem werden weitere
populäre linktopologische Verfahren beschrieben und ihre Stärken und
Beschränkungen herausgearbeitet.
9 Retrievaltests. Die Qualität von Retrievalsystemen wird
klassisch mittels Re¬trievaltests ermittelt, wobei in der Regel die Werte
für Recall und Precision der entsprechenden Systeme berechnet werden. Auf
der Basis dieser Werte werden dann unterschiedliche Systeme miteinander verglichen.
Die wichtigsten Suchmaschinen-Retrievaltests werden vorgestellt und auf ihre
Tauglichkeit für die Ermittlung der tatsächlichen Qualität von
Suchmaschinen hin bewertet. Hierbei wird klar, dass weitere Faktoren hinzuzuziehen
sind, um die Qualität hinreichend bewerten zu können.
10 Verfahren der intuitiven Benutzerführung. Die kommerziell
angebotenen Web-Suchmaschinen konzentrieren sich wesentlich darauf, auf eine
Suchanfrage hin in einem Schritt direkt eine sortierte Trefferliste anzuzeigen,
die die für die Suchanfrage relevanten Dokumente enthält. Allerdings
stellen die normalen Nutzer in hohem Maße unpräzise Anfragen, die
oft in einem Schritt gar nicht sinnvoll beantwortet werden können. Hier
helfen Ansätze weiter, die den Nutzer in einem oder mehreren weiteren Schritt
dahingehend leiten, seine Suchanfrage gemäß seinem Informationsbedürfnis
einzuschränken oder zu erweitern. Weiterhin kann die Benutzerführung
dabei helfen, Probleme hinsichtlich homonymer und synonymer Begriffe zu klären.
Die benutzerführenden Ansätze werden vorgestellt und auf ihre Tauglichkeit
hin bewertet. Insbesondere wird auf den Vorschlag einschränkender Suchbegriffe,
Verfahren des Relevance Feedback, die Einbindung von Klassifikationssystemen
und die Clusterbildung im Suchprozess eingegangen.
Im ersten Teil der Arbeit werden die Grenzen der Umsetzung des klassischen Information
Retrieval im Web-Kontext aufgezeigt. Der zweite Teil stellt nun die zentralen
Anforderungen einer nutzerzentrierten Lösung vor. Ausgehend von den zentralen
Einschränkungsmöglichkeiten der Datenbank-Hosts werden die folgenden
Bereiche identifiziert, die zentral für eine Verbesserung der Rechercheergebnisse
sind: Aktualität, Qualität und die Verbesserung der Dokumentrepräsentation.
Alle drei dienen bei den Hosts mit ihren jeweils zahlreichen Datenbanken (Quellen)
und den wiederum vielen darin enthaltenen Dokumenten als wichtigste Einschränkungsmöglichkeiten.
Mit diesen drei Dimensionen der Beschränkung lassen sich umfangreiche Trefferlisten
auf wenige hoch relevante Treffer herunterbrechen. Für die Anwendung in
Suchmaschinen ist dieser bei den Hosts durch den Nutzer durchzuführende
Prozess durch geeignete Assistenz in einem iterativen Suchprozess durchzuführen.
11 Aktualität. In diesem Kapitel werden die spezifischen
Probleme der Datumsbeschränkung in Suchmaschinen behandelt, die möglichen
Lösungen des Pro¬blems aufgezeigt und der Gewinn für die Recherche
dargelegt. Es kann gezeigt werden, dass eine solche Beschränkung in den
momentan verfügbaren Suchmaschinen nicht befriedigend funktioniert. Als
Lösung bietet sich eine Kombination bisher bereits berücksichtigter
und bisher unberücksichtigter Faktoren an, wobei auch in Zweifelsfällen
das tatsächliche Datum eines Dokuments wenigstens näherungsweise bestimmt
werden kann.
12 Qualität. Suchmaschinen setzen bereits Modelle der
Qualitätsbestimmung einzelner Dokumente ein. Diese wurden im ersten Teil
der Arbeit besprochen. Auch in Hinblick auf Quellen des Invisible Web ist es
allerdings vonnöten, Hinweise auf Einstiegspunkte für eine weitere
Recherche zu geben. Solche Einstiegspunkte können umfangreiche Web-Sites,
die sich mit einem Thema beschäftigen, sein oder aber Datenbanken, in denen
sich weitere Informationen finden lassen. Aus dem Bereich der Online-Hosts soll
die Beschränkung der Suche auf die „Top-Quellen“ zu einem Thema
übernommen und angepasst werden. Hier geht es weniger um ein möglichst
umfangreiches Ergebnis, sondern mehr um ein präzises Ergebnis aus anerkannten
Quellen.
Die Top-Quellen lassen sich durch unterschiedliche Verfahren ermitteln. Neben
der manuellen Einbindung solcher Quellen, die teils bereits praktiziert wird
(etwa bei Yahoo und Google) lassen sich beispielsweise Daten aus Web-Verzeichnissen
einbinden.
13 Verbesserung der Dokumentrepräsentation. Eine feldbeschränkte
Suche lässt sich nur effektiv durchführen, wenn die Dokumente bei
der Indexierung entsprechend in sinnvolle Felder eingeteilt werden. Im ersten
Teil der Arbeit wurden die bisher verwendeten Feldunterteilungen vorgestellt
und diese Einteilung kritisiert. Vonnöten ist eine bessere Dokumentrepräsentation,
die zuverlässig weitere Felder bereitstellt. Ein Modell einer verbesserten
Dokumentrepräsentation wird vorgestellt.
Danksagung
An erster Stelle gedankt sei dem Betreuer dieser Arbeit, Herrn Univ.-Prof. Dr.
Wolfgang G. Stock, der ihre Entstehung nicht nur kritisch begleitete, sondern
auch in vielen Gesprächen wichtige Tipps für deren Gelingen gab. Desweiteren
möchte ich Herrn Univ.-Prof. i.R. Dr. Norbert Henrichs danken, der die
Zweitkorrektur übernahm.
Großen Gewinn konnte ich aus den Gesprächen mit zahlreichen Fachleuten
sowohl aus dem akademischen als auch dem wirtschaftlichen Bereich ziehen. Ihnen
allen sei gedankt, ohne dass ich einzelne Namen hervorheben möchte.