
In dieser Arbeit wurden der Aufbau, die Funktionen und die Grenzen von Suchmaschinen
umfassend dargestellt. Dass Suchmaschinen nicht perfekt sind, war zu erwarten
und wurde anhand zahlreicher Beispiele gezeigt. Die bestehenden Probleme lassen
sich dabei in vier Bereiche einteilen: Fragen der Indexqualität, der Recherchemöglichkeiten,
der Nutzerunterstützung und des Rankings. Der Schwerpunkt der in dieser
Arbeit aufgezeigten Lösungen wurde auf den Bereich der Nutzeruntertstützung,
speziell auf die Verbesserung der Recherchemöglichkeiten, gelegt. Die Grundannahme
lautete dabei, dass die bisher bestehenden Suchmöglichkeiten um Elemente
des Browsings erweitert werden sollten, so dass der Nutzer nach dem Abschicken
einer Suchanfrage nicht mit einer (unter Umständen mehrere Millionen Dokumente
umfassenden) Trefferliste alleine gelassen wird. Vielmehr sollten benutzerleitende
Verfahren dabei helfen, die Suchanfrage weiter einzugrenzen.
Ein wesentliches Problem der Erschließung von Web-Dokumenten ist in ihrer
Struktur zu sehen: Es handelt sich um nur schwach strukturierte Dokumente, was
es schwierig macht, überhaupt automatisch Informationen aus ihnen zu extrahieren.
Allerdings lassen sich wenigstens teilweise Strukturinformationen nutzbar machen;
ein Schlüssel hierfür liegt in der vorigen Trennung des Dokumenteninhalts
von Navigations- und Layout-Elementen.
Betrachtet man die klassischen Information-Retrieval-Verfahren, so zeigt sich,
dass die Verbindung von textstatistischen Verfahren für das Ranking mit
linguistischen Verfahren zur Aufbereitung der Dokumente nicht ausreichend ist,
um Web-Dokumente zu erschließen. Von den Suchmaschinen wurden weitere
Faktoren für das Ranking eingeführt, die vor allem die Qualität
der Dokumente als Bewertungsfaktor mit einbeziehen. Dabei werden auch nutzungsstatistische
Verfahren eingesetzt, die Entwicklung konzentriert sich allerdings auf linktopologische
Verfahren. Diese bewerten die Qualität von Dokumenten aufgrund ihrer Popularität,
welche aufgrund der Verlinkungsstruktur innerhalb des Webgraphen gemessen wird.
Letztlich erscheinen aber auch diese Verfahren alleine nicht ausreichend; für
die Zukunft sind verstärkt Bemühungen zu erwarten, Dokumente erst
gar nicht in den Datenbestand der Suchmaschine gelangen zu lassen. Auch heute
schon schließen die Suchmaschinen SPAM aus; aufgrund der massiven Manipulationsversuche
sind jedoch härtere Aufnahmekriterien für die Suchmaschinen-Indizes
zu erwarten.
Die linktopologischen Verfahren, die zu Anfang dafür geeignet erschienen,
diesen Manipulationen ein Ende zu bereiten, werden inzwischen auch so weit manipuliert,
dass bei den meisten Anfragen, die einen kommerziellen Hintergrund haben könnten,
bevorzugt kommerzielle Ergebnisse angezeigt werden. Dieses Problem lässt
sich wohl am ehesten durch erweiterte Steuerungsmöglichkeiten für
den Nutzer lösen. Dieser sollte bestimmen können, ob er für seine
Anfrage eher kommerzielle Ergebnisse erhalten möchte oder nicht. Eine Möglichkeit
sind hier Vorschläge von einschränkenden Suchbegriffen, die Bildung
von Clustern oder eine Quellenbeschränkung.
Aber auch wenn die Treffermenge durch weitere Schritte nach dem Abschicken der
Suchanfrage eingeschränkt wird, dürften oft noch eine relativ große
Anzahl von Treffern übrig bleiben, die durch ein Rankingverfahren in eine
Reihenfolge gebracht werden müssen. Dabei sollen zuvorderst die für
die Suchanfrage relevantesten Treffer angezeigt werden. Der Begriff der Relevanz
ist jedoch selbst umstritten: Was für den einen relevant erscheint, mag
für den anderen irrelevant sein. Daher wird die Unterscheidung von Relevanz
und Pertinenz, also einem objektiv messbaren und einem nur durch den Nutzer
bestimmten Wert, verwendet. Aber auch bei dieser Unterteilung herrschen noch
Unklarheiten. Problematisch ist dies vor allem, weil sich Retrievaltests, die
die Qualität von Suchmaschinen messen sollen, stets auf eine bestimmte
Definition von Relevanz beziehen, die mit über das Ergebnis entscheidet.
Weiterhin problematisch an diesen Tests ist, dass sie sich in der Regel auf
nur ein Qualitätsmerkmal beziehen, nämlich auf die ermittelte Precision.
Diese wird zusätzlich nur für eine bestimmte Menge von ausgegebenen
Dokumenten berechnet, normalerweise nicht mehr als zwanzig. Wie bereits erwähnt,
lässt sich Qualität von Suchmaschinen aber nicht allein auf diesen
Wert beschränken – dazu kommen u.a. Merkmale der Indexqualität
(z.B. Größe und Aktualität des Datenbestands) und der Recherchemöglichkeiten.
Die in den Retrievaltests ermittelte Precision ist durchweg als nicht zufrieden
stellend zu bezeichnen. Neben verbesserten Rankingverfahren versprechen benut¬zerleitende
Verfahren einen Ausweg: Sie können trotz der mäßigen Qualität
der ursprünglichen Trefferliste den Nutzer zu den für ihn passenden
Ergebnissen len¬ken. Besonders vielversprechend sind dabei der Vorschlag
weiterer Suchbegriffe, die Suche nach ähnlichen Dokumenten zu einem bereits
gefundenen Dokument und die Clusterbildung. Letztendlich dürfte eine Verbesserung
der Ergebnisse vor allem dadurch zu erreichen sein, dass sowohl Suchmaschinenbetreiber
als auch -nutzer sich darauf einstellen, dass in vielen Fällen eine Recherche
nicht in einem einzigen Schritt durchführbar ist. Nach dem Schritt der
Suche sollte ein Browsing innerhalb der Treffermenge möglich sein, um die
Suche weiter zu präzi¬sieren.
Um eine solche Kombination sinnvoll zu ermöglichen, müssen Einschränkungen
zuverlässig möglich und in ausreichender Zahl vorhanden sein. Als
wichtigste Einschränkungsmöglichkeiten wurden die Aktualität
und die Qualität herausgearbeitet. Weitere Dokumentattribute lassen sich
durch eine verbesserte Dokumentrepräsentation gewinnen.
Bei der Einschränkung nach der Qualität der Dokumente handelt es sich
um eine „klassische“ Einschränkungsmöglichkeit, die von
nahezu allen Information-Retrieval-Systemen bekannt ist. Bei den Suchmaschinen
tritt allerdings das Problem auf, dass das Datum der Dokumente erst bestimmt
werden muss. Diese Bestimmung können heutige Suchmaschinen nicht zuverlässig
leisten. Ein Ausweg ist in der Ermittlung des Datums durch die Kombination verschiedener
Aktualitätswerte zu sehen, um das tatsächliche Datum des Dokuments
wenigstens näherungsweise bestimmen zu können. Aktualitätswerte
können auch ergänzend zu anderen Faktoren für das Ranking eingesetzt
werden. Umso bedeutender ist allerdings eine zuverlässige Bestimmung des
Änderungsdatums der Dokumente – auch, um Manipulationsversuchen vorzubeugen.
Eine Qualitätsbewertung kommt bei den Suchmaschinen bisher auf Dokumentebene
zum Einsatz, wobei der Nutzer keinen Einfluss auf den Faktor Qualität als
Rankingfaktor hat. Allerdings wäre es zu wünschen, dass der Nutzer
seine Recherche auf die bedeutendsten Quellen zu seinem Thema einschränken
kann. Dazu ist eine Qualitätsbewertung auf Quellenebene nötig; die
für eine Anfrage geeignetsten Quellen lassen sich beispielsweise aus Web-Verzeichnissen
ermitteln. Damit wird die Recherche auf von Menschen ausgewählte und für
gut befundene Quellen beschränkt. Weitere Einbindungsmöglichkeiten
von Qualitätsquellen sind die manuelle Einbindung sowie die Erweiterung
der Recherche auf geeignete Invisible-Web-Datenbanken.
Für die zuverlässige Einschränkungsmöglichkeiten und eine
bessere Informationsverdichtung in den Trefferlisten ist letztlich die Dokumentrepräsentation
entscheidend. Es wurde herausgearbeitet, dass die bisherigen Repräsentationen
unbefriedigend sind und wie sie erweitert werden können. Nach der Extraktion
des tatsächlichen Dokumententexts können der echte Titel des Dokuments,
die Dokumentlänge und die Zahl der im Text enthaltenen Abbildungen und
Tabellen gewonnen werden. Diese Informationen können in die Trefferlisten
eingebunden werden, um die Entscheidung für oder gegen die Einsichtnahme
in ein Dokument weiter zu fundieren.
Im Rahmen dieser Arbeit konnte neben der Darstellung des Forschungsstands im
Bereich Web Information Retrieval vor allem ein konzeptioneller Ansatz verfolgt
werden. Die vorgestellten Lösungsvorschläge sind nicht in Anwendungen
implementiert und können sich daher auch bisher nicht im Einsatz beweisen.
Letztlich ging es aber darum, die Richtung aufzuzeigen, in die sich Web-Suchmaschinen
entwickeln sollten, um dem Nutzer ein besseres Instrument bei seiner Informationsrecherche
zu sein. Natürlich ist es zu wünschen, dass die gemachten Vorschläge
sowohl in der wissenschaftlichen Fachwelt diskutiert als auch in der Praxis
aufgenommen werden.
In vielen Kapiteln dieser Arbeit wurde deutlich, dass das Themenfeld Web Information
Retrieval zu einem beträchtlichen Teil nur wenig erforscht ist. Es klaffen
noch viele Lücken, die es zu füllen gilt. Für die Zukunft ist
zu hoffen, dass eine vermehrte Forschung in diesem mit über den Zugang
zu und den Umgang mit Informationen entscheidenden Bereich stattfinden wird.
Besonders für die Informationswissenschaft bietet sich hier ein auch in
der Öffentlichkeit viel beachtetes Themenfeld, zu dem sie einen wichtigen
Beitrag leisten kann.