Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 1 Einleitung
< Vorwort  |  Inhaltsverzeichnis  |  2 Forschungsumfeld >
1 Einleitung

Einleitung

Verfahren des Information Retrieval haben in den letzten Jahren eine enorme Bedeutung erlangt. Während diese Verfahren jahrzehntelang nur Einsatz in spezialisierten Datenbanken fanden, haben sie durch das Aufkommen von Suchmaschinen im World Wide Web mittlerweile eine zentrale Bedeutung in der Informationsversorgung eingenommen. Verfahren des Web Information Retrieval entscheiden darüber, welche Informationen von Nutzern gefunden werden; man spricht auch von einer „Gatekeeper“-Funktion der Suchmaschinen. Diese sind zum bedeutendsten Rechercheinstrument sowohl im privaten, beruflichen als auch wissenschaftlichen Bereich avanciert.
Google, die berühmteste der „Information-Retrieval-Firmen“, ist fast täglich in den Schlagzeilen zu finden. Immer neue Innovationen (nicht nur dieses Anbieters) zeigen die Web-Suche als dynamisches Feld. Vor allem wird durch die zahlreichen Neuerungen der letzten Jahre, teilweise erst der letzten Monate, deutlich, dass die Suche im Web trotz ihrer mittlerweile fast zehnjährigen Geschichte erst am Anfang steht.
Dass dem Web Information Retrieval eine hohe Bedeutung zugemessen wird, zeigt sich auch im wachsenden Interesse kommerzieller Unternehmen an diesem Thema. Ein Blick auf die Sponsorenliste der letztjährigen Konferenz der ACM Special Interest Group on Information Retrieval mag dies verdeutlichen: Neben den wichtigen Suchmaschinen-Anbietern Google, Microsoft, Yahoo und Ask Jeeves finden sich auch Großunternehmen wie IBM, Canon und Sharp.
Auch in der gesellschaftlichen Diskussion sind die Suchmaschinen angekommen: Es findet gegenwärtig eine Diskussion um die „Google-Gesellschaft“ statt, wobei gefragt wird, inwieweit ein einzelner Anbieter bzw. wenige Anbieter darüber entscheiden sollten, welche Informationen beim Nutzer angelangen. In dieser Hinsicht befassen sich inzwischen auch politische Parteien mit dem Thema. So publizierte etwa die Gründe Bundestagsfraktion ein Diskussionspapier unter dem Titel „Suchmaschinen: Tore zum Netz“, in welchem unter anderem die Rolle der Suchmaschinen beim Zugang zu Informationen und Probleme des Datenschutzes bei der Suchmaschinennutzung angesprochen werden.
Die vorliegende Arbeit setzt auf einer eher technischen Ebene an und bietet die Grundlagen für das Verständnis der Funktionsweise und der Defizite von Web-Suchmaschinen. Während zum klassischen Information Retrieval eine breite Auswahl an Literatur vorliegt, gibt es bisher kein Werk, welches eine umfassende Darstellung des Web Information Retrieval mit seinen Unterscheidungen und Besonderheiten gegenüber dem „klassischen“ Information Retrieval bietet. Monographien zum Thema Suchmaschinen behandeln vor allem deren Suchfunktionen oder konzentrieren sich allein auf algorithmische Aspekte des Web Information Retrieval. Die Forschungslitertaur liegt zum überwältigenden Teil nur in englischer Sprache vor; die Forschung selbst findet zu einem großen Teil in den USA statt. Aus diesem Grund werden Spezifika anderer Sprachen als des Englischen sowie Besonderheiten auf nationaler oder gar kontinentaler Ebene vernachlässigt.
Die Konsequenzen, die sich aus den Besonderheiten des Web Information Re¬trieval ergeben, wurden bisher nur unzureichend erkannt. Suchmaschinen orientieren sich noch stark am klassischen Information Retrieval, wenn auch teils eigene Rankingkriterien gefunden wurden, vor allem die Ergänzung der klassischen Faktoren durch eine Art der Qualitätsbewertung der indexierten Dokumente. Die Arbeit soll aufzeigen, welche Schritte nötig sind, um Web Information Retrieval vor allem auch in Hinblick auf die Charakteristika der Suchmaschinen-Nutzer effektiv zu gestalten. Die Verfahren des klassischen Information Retrieval versagen hier, da sie einerseits von einer gepflegten Dokumentenkollektion, andererseits von einem geschulten Nutzer ausgehen. Suchmaschinen haben mit Problemen des sog. Index-Spamming zu kämpfen: Hierbei werden (oft in kommerziellem Interesse) inhaltlich wertlose Dokumente erstellt, die in den Trefferlisten der Suchmaschinen auf den vorderen Rängen angezeigt werden sollen, um Nutzer auf eine bestimmte Webseite zu lenken. Zwar existieren Verfahren, die ein solches Spamming verhindern sollen, allerdings können auch diese das Problem lediglich eindämmen, nicht aber verhindern. Das Problem ließe sich wenigstens zum Teil durch die Nutzer lösen, wenn diese gezielte Suchanfragen stellen würden, die solche irrelevanten Treffer ausschließen würden. Allerdings zeigt die Nutzerforschung einheitlich, dass das Wissen der Nutzer über die von ihnen verwendeten Suchmaschinen ausgesprochen gering ist; dies gilt sowohl für ihre Kenntnisse der Funktionsweise der Suchmaschinen als auch die Kenntnis der Suchfunktionen.
Die Arbeit konzentriert sich neben der Darstellung des Forschungsstands im Bereich des Web Information Retrieval auf einen nutzerzentrierten Ansatz des Aufbaus von Suchmaschinen, der sich aus dem Retrieval in klassischen Datenbanken herleitet. Als zentral für eine erfolgreiche Recherche wird dabei die Möglichkeit der gezielten Beschränkung der Recherche durch den Nutzer gesehen; die wichtigsten Faktoren sind hierbei die Einschränkung nach Aktualität, Qualität und die verbesserte Dokumentauswahl aufgrund einer erweiterten Dokumentrepräsentation. Alle drei Möglichkeiten sind in bisher verfügbaren Suchmaschinen nicht zufrieden stellend implementiert.
Ein Problem bei der Bearbeitung des Themas ergab sich aus der Tatsache, dass die Forschung im Bereich Web Information Retrieval zu einem großen Teil bei den Anbietern selbst stattfindet, die darauf bedacht sind, ihre Erkenntnisse nicht zu veröffentlichen und damit der Konkurrenz zu überlassen. Viele Forschungsergebnisse können daher nur anhand der fertiggestellten Anwendungen rekonstruiert werden; hilfreich waren in manchen Fällen auch die von den Suchmaschinenbetreibern angemeldeten Patente, die für die vorliegende Arbeit ausgewertet wurden.
Insgesamt zeigt sich, dass eine neue Form des Information Retrieval entstanden ist. Ziele des klassischen Information Retrieval wie die Vollständigkeit der Treffermenge verlieren ob der schieren Masse der zurückgegebenen Treffer an Bedeutung; dafür werden Faktoren der Qualitätsbewertung der Dokumente immer wichtiger. Das Web Information Retrieval setzt auf dem klassischen Information Retrieval auf und erweitert dieses wo nötig. Das Ziel bleibt aber weitgehend das gleiche: Dem Nutzer die für die Befriedigung seines Informationsbedürfnisses besten Ergebnisse zu liefern.
Neben der Informationswissenschaft findet die Information-Retrieval-Forschung hauptsächlich in der Informatik statt. Der informationswissenschaftlichen Forschung kommt die Aufgabe zu, den stark technik-zentrierten Ansatz der Informatik um einen „Blick fürs Ganze“ zu erweitern und insbesondere die Bedürfnisse der Nutzer in ihren Ansatz einzubinden. Aufgrund der enormen Bedeutung des Web Information Retrieval, welches in den klassischen informationswissenschaftlichen Bereich fällt, ergibt sich für die Informationswissenschaft auch die Chance, sich in diesem Thema gegenüber anderen Disziplinen zu profilieren.
Zum Aufbau der Arbeit
Die Arbeit lässt sich grob in zwei Hauptteile gliedern: Der erste Teil (Kap. 2-10) beschreibt den Bereich Web Information Retrieval mit allen seinen Besonderheiten in Abgrenzung zum klassischen Information Retrieval; der zweite Teil (Kap. 11-13) stellt anhand der Ergebnisse des ersten Teils einen nutzerzentrierten Ansatz der Rechercheverfeinerung in mehreren Schritten vor.
2 Forschungsumfeld. Einleitend wird das Forschungsumfeld des Web Information Retrieval vorgestellt und das Thema der Arbeit entsprechend eingegrenzt. Es wird auf den Suchmaschinen-Markt, die unterschiedlichen Formen der Suche im WWW (z.B. Web-Verzeichnisse, algorithmische Suchmaschinen, Meta-Suchmaschinen), den typischen Aufbau der in dieser Arbeit behandelten algorithmischen Suchmaschinen und deren Abfragesprachen eingegangen. Anhand von Nutzerstudien wird das typische Verhalten der Suchmaschinen-Nutzer dargestellt und geklärt, welche Arten von Suchanfragen an Suchmaschinen gestellt werden. Hier wird deutlich, dass Suchmaschinen aufgrund heterogener Anfragen anderen Anforderungen unterliegen als klassische Datenbanken.
Abschließend wird in diesem Kapitel ein Überblick der aktuellen Forschungen gegeben und der Gegenstand der vorliegenden Arbeit entsprechend abgegrenzt.
3 Die Größe des Web und seine Abdeckung durch Suchmaschinen. Suchmaschinen decken nicht das gesamte indexierbare Web ab. Nach einer Diskussion der verschiedenen Versuche, die Größe des Web überhaupt zu ermitteln, wird die Struktur des Web dargestellt und anhand dieser klar gemacht, warum eine vollständige Abdeckung des Web für Suchmaschinen nicht möglich ist und die Frage gestellt, ob diese überhaupt erstrebenswert ist. Ausführlich wird auf den Bereich des Invisible Web eingegangen; vor allem auf den Bereich des Web, den Suchmaschinen nicht erschließen können.
4 Strukturinformationen. Effektives Retrieval in großen Datenbeständen wird erst durch die Strukturierung der Dokumente möglich. Web-Dokumente werden oft als unstrukturiert bezeichnet. Diese Behauptung wird in dieser Arbeit jedoch verworfen; vielmehr soll von schwach strukturierten Dokumenten gesprochen werden. Der Strukturierungsgrad der unterschiedlichen im Web populären Dokumentformate (z.B. HTML, PDF) wird besprochen und Folgerungen für die Indexierung abgeleitet. Es wird gezeigt, welche Möglichkeiten sich durch eine Trennung von Navigation, Layout und Inhalt bei der Erschließung ergeben würden. Letztlich sind Fragen der Repräsentation der Dokumente entscheidend; hier wird darauf hingewiesen, dass Dokumentrepräsentation verbessert bzw. erweitert werden muss, um eine bessere Recherche zu ermöglichen.
5 Klassische Verfahren des Information Retrieval und ihre Anwendung bei Suchmaschinen. In diesem zentralen Kapitel werden die in den letzten Jahrzehnten entwickelten Information-Retrieval-Verfahren in Hinblick auf ihre Anwendung bzw. Anwendbarkeit bei Suchmaschinen dargestellt. Die wichtigsten Unterschiede sind das nur in klassischen Datenbanken vorhandene kontrollierte Vokabular und die bei den Suchmaschinen nur marginal vorhandenen Kriterien für die Aufnahme eines Dokuments in den Datenbestand.
Die klassischen Modelle des Information Retrieval (Boolesches Modell, Vektorraummodell, probabilistisches Modell) werden dargestellt und es wird gezeigt, wie diese in Web-Suchmaschinen eingesetzt werden.
6 Ranking. Das Ranking ist zentral für den Aufbau und die Qualität von Web-Suchmaschinen. In der Regel wird auf Suchanfragen hin eine große Anzahl von Dokumenten zurückgegeben, die für den Nutzer zu umfangreich ist, um alle Dokumente zu sichten. Eine angemessene Sortierung der Trefferlisten ist daher wichtig. In diesem Kapitel werden die eingesetzten Rankingfaktoren aufgezeigt und die grundsätzliche Frage nach der Messbarkeit von Relevanz gestellt.
7 Informationsstatistische und informationslinguistische Verfahren. Angelehnt an das klassische IR verwenden auch Suchmaschinen informationsstatistische Verfahren, um die Relevanz der Dokumente zu einer gegebenen Suchanfrage einzuschätzen, allerdings können aufgrund der Menge und der heterogenen Qualität der Dokumente nicht alleine textstatistische Verfahren eingesetzt werden. Ein weiteres statistisches Verfahren, das das Ranking verbessern soll, ist die Auswertung des Nutzungsverhaltens.
Informationslinguistische Verfahren werden in Web-Suchmaschinen bisher nur in einem geringen Maß eingesetzt. Dies hat mit der Sprachenvielfalt des Web und der zumeist US-zentrierten Sicht der Suchmaschinenbetreiber zu tun. Die Möglichkeiten informationslinguistischer Verfahren und ihre Limitierungen im Bereich des Web Information Retrieval werden diskutiert.
8 Linktopologische Rankingverfahren. Neben der Auswertung des Inhalts der Dokumente hat sich die Auswertung der Verlinkungsstruktur von Dokumenten als Faktor des Rankings bewährt. Diese stellt eine Möglichkeit dar, die Autorität von Dokumenten zu bestimmen und basiert auf den klassischen Verfahren der Zitationsanalyse. Der populärste linktopologische Ansatz ist sicher der sog. PageRank der Suchmaschine Google. Neben diesem werden weitere populäre linktopologische Verfahren beschrieben und ihre Stärken und Beschränkungen herausgearbeitet.
9 Retrievaltests. Die Qualität von Retrievalsystemen wird klassisch mittels Re¬trievaltests ermittelt, wobei in der Regel die Werte für Recall und Precision der entsprechenden Systeme berechnet werden. Auf der Basis dieser Werte werden dann unterschiedliche Systeme miteinander verglichen. Die wichtigsten Suchmaschinen-Retrievaltests werden vorgestellt und auf ihre Tauglichkeit für die Ermittlung der tatsächlichen Qualität von Suchmaschinen hin bewertet. Hierbei wird klar, dass weitere Faktoren hinzuzuziehen sind, um die Qualität hinreichend bewerten zu können.
10 Verfahren der intuitiven Benutzerführung. Die kommerziell angebotenen Web-Suchmaschinen konzentrieren sich wesentlich darauf, auf eine Suchanfrage hin in einem Schritt direkt eine sortierte Trefferliste anzuzeigen, die die für die Suchanfrage relevanten Dokumente enthält. Allerdings stellen die normalen Nutzer in hohem Maße unpräzise Anfragen, die oft in einem Schritt gar nicht sinnvoll beantwortet werden können. Hier helfen Ansätze weiter, die den Nutzer in einem oder mehreren weiteren Schritt dahingehend leiten, seine Suchanfrage gemäß seinem Informationsbedürfnis einzuschränken oder zu erweitern. Weiterhin kann die Benutzerführung dabei helfen, Probleme hinsichtlich homonymer und synonymer Begriffe zu klären.
Die benutzerführenden Ansätze werden vorgestellt und auf ihre Tauglichkeit hin bewertet. Insbesondere wird auf den Vorschlag einschränkender Suchbegriffe, Verfahren des Relevance Feedback, die Einbindung von Klassifikationssystemen und die Clusterbildung im Suchprozess eingegangen.
Im ersten Teil der Arbeit werden die Grenzen der Umsetzung des klassischen Information Retrieval im Web-Kontext aufgezeigt. Der zweite Teil stellt nun die zentralen Anforderungen einer nutzerzentrierten Lösung vor. Ausgehend von den zentralen Einschränkungsmöglichkeiten der Datenbank-Hosts werden die folgenden Bereiche identifiziert, die zentral für eine Verbesserung der Rechercheergebnisse sind: Aktualität, Qualität und die Verbesserung der Dokumentrepräsentation. Alle drei dienen bei den Hosts mit ihren jeweils zahlreichen Datenbanken (Quellen) und den wiederum vielen darin enthaltenen Dokumenten als wichtigste Einschränkungsmöglichkeiten. Mit diesen drei Dimensionen der Beschränkung lassen sich umfangreiche Trefferlisten auf wenige hoch relevante Treffer herunterbrechen. Für die Anwendung in Suchmaschinen ist dieser bei den Hosts durch den Nutzer durchzuführende Prozess durch geeignete Assistenz in einem iterativen Suchprozess durchzuführen.
11 Aktualität. In diesem Kapitel werden die spezifischen Probleme der Datumsbeschränkung in Suchmaschinen behandelt, die möglichen Lösungen des Pro¬blems aufgezeigt und der Gewinn für die Recherche dargelegt. Es kann gezeigt werden, dass eine solche Beschränkung in den momentan verfügbaren Suchmaschinen nicht befriedigend funktioniert. Als Lösung bietet sich eine Kombination bisher bereits berücksichtigter und bisher unberücksichtigter Faktoren an, wobei auch in Zweifelsfällen das tatsächliche Datum eines Dokuments wenigstens näherungsweise bestimmt werden kann.
12 Qualität. Suchmaschinen setzen bereits Modelle der Qualitätsbestimmung einzelner Dokumente ein. Diese wurden im ersten Teil der Arbeit besprochen. Auch in Hinblick auf Quellen des Invisible Web ist es allerdings vonnöten, Hinweise auf Einstiegspunkte für eine weitere Recherche zu geben. Solche Einstiegspunkte können umfangreiche Web-Sites, die sich mit einem Thema beschäftigen, sein oder aber Datenbanken, in denen sich weitere Informationen finden lassen. Aus dem Bereich der Online-Hosts soll die Beschränkung der Suche auf die „Top-Quellen“ zu einem Thema übernommen und angepasst werden. Hier geht es weniger um ein möglichst umfangreiches Ergebnis, sondern mehr um ein präzises Ergebnis aus anerkannten Quellen.
Die Top-Quellen lassen sich durch unterschiedliche Verfahren ermitteln. Neben der manuellen Einbindung solcher Quellen, die teils bereits praktiziert wird (etwa bei Yahoo und Google) lassen sich beispielsweise Daten aus Web-Verzeichnissen einbinden.
13 Verbesserung der Dokumentrepräsentation. Eine feldbeschränkte Suche lässt sich nur effektiv durchführen, wenn die Dokumente bei der Indexierung entsprechend in sinnvolle Felder eingeteilt werden. Im ersten Teil der Arbeit wurden die bisher verwendeten Feldunterteilungen vorgestellt und diese Einteilung kritisiert. Vonnöten ist eine bessere Dokumentrepräsentation, die zuverlässig weitere Felder bereitstellt. Ein Modell einer verbesserten Dokumentrepräsentation wird vorgestellt.

Danksagung
An erster Stelle gedankt sei dem Betreuer dieser Arbeit, Herrn Univ.-Prof. Dr. Wolfgang G. Stock, der ihre Entstehung nicht nur kritisch begleitete, sondern auch in vielen Gesprächen wichtige Tipps für deren Gelingen gab. Desweiteren möchte ich Herrn Univ.-Prof. i.R. Dr. Norbert Henrichs danken, der die Zweitkorrektur übernahm.
Großen Gewinn konnte ich aus den Gesprächen mit zahlreichen Fachleuten sowohl aus dem akademischen als auch dem wirtschaftlichen Bereich ziehen. Ihnen allen sei gedankt, ohne dass ich einzelne Namen hervorheben möchte.

< Vorwort  |  Inhaltsverzeichnis  |  2 Forschungsumfeld >