Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 14 Fazit und Ausblick
< 13.4 Aufbereitung der Suchergebnisse in den Trefferlisten  |  Inhaltsverzeichnis  |  15 Literaturverzeichnis >
14 Fazit und Ausblick

Fazit und Ausblick

In dieser Arbeit wurden der Aufbau, die Funktionen und die Grenzen von Suchmaschinen umfassend dargestellt. Dass Suchmaschinen nicht perfekt sind, war zu erwarten und wurde anhand zahlreicher Beispiele gezeigt. Die bestehenden Probleme lassen sich dabei in vier Bereiche einteilen: Fragen der Indexqualität, der Recherchemöglichkeiten, der Nutzerunterstützung und des Rankings. Der Schwerpunkt der in dieser Arbeit aufgezeigten Lösungen wurde auf den Bereich der Nutzeruntertstützung, speziell auf die Verbesserung der Recherchemöglichkeiten, gelegt. Die Grundannahme lautete dabei, dass die bisher bestehenden Suchmöglichkeiten um Elemente des Browsings erweitert werden sollten, so dass der Nutzer nach dem Abschicken einer Suchanfrage nicht mit einer (unter Umständen mehrere Millionen Dokumente umfassenden) Trefferliste alleine gelassen wird. Vielmehr sollten benutzerleitende Verfahren dabei helfen, die Suchanfrage weiter einzugrenzen.
Ein wesentliches Problem der Erschließung von Web-Dokumenten ist in ihrer Struktur zu sehen: Es handelt sich um nur schwach strukturierte Dokumente, was es schwierig macht, überhaupt automatisch Informationen aus ihnen zu extrahieren. Allerdings lassen sich wenigstens teilweise Strukturinformationen nutzbar machen; ein Schlüssel hierfür liegt in der vorigen Trennung des Dokumenteninhalts von Navigations- und Layout-Elementen.
Betrachtet man die klassischen Information-Retrieval-Verfahren, so zeigt sich, dass die Verbindung von textstatistischen Verfahren für das Ranking mit linguistischen Verfahren zur Aufbereitung der Dokumente nicht ausreichend ist, um Web-Dokumente zu erschließen. Von den Suchmaschinen wurden weitere Faktoren für das Ranking eingeführt, die vor allem die Qualität der Dokumente als Bewertungsfaktor mit einbeziehen. Dabei werden auch nutzungsstatistische Verfahren eingesetzt, die Entwicklung konzentriert sich allerdings auf linktopologische Verfahren. Diese bewerten die Qualität von Dokumenten aufgrund ihrer Popularität, welche aufgrund der Verlinkungsstruktur innerhalb des Webgraphen gemessen wird. Letztlich erscheinen aber auch diese Verfahren alleine nicht ausreichend; für die Zukunft sind verstärkt Bemühungen zu erwarten, Dokumente erst gar nicht in den Datenbestand der Suchmaschine gelangen zu lassen. Auch heute schon schließen die Suchmaschinen SPAM aus; aufgrund der massiven Manipulationsversuche sind jedoch härtere Aufnahmekriterien für die Suchmaschinen-Indizes zu erwarten.
Die linktopologischen Verfahren, die zu Anfang dafür geeignet erschienen, diesen Manipulationen ein Ende zu bereiten, werden inzwischen auch so weit manipuliert, dass bei den meisten Anfragen, die einen kommerziellen Hintergrund haben könnten, bevorzugt kommerzielle Ergebnisse angezeigt werden. Dieses Problem lässt sich wohl am ehesten durch erweiterte Steuerungsmöglichkeiten für den Nutzer lösen. Dieser sollte bestimmen können, ob er für seine Anfrage eher kommerzielle Ergebnisse erhalten möchte oder nicht. Eine Möglichkeit sind hier Vorschläge von einschränkenden Suchbegriffen, die Bildung von Clustern oder eine Quellenbeschränkung.
Aber auch wenn die Treffermenge durch weitere Schritte nach dem Abschicken der Suchanfrage eingeschränkt wird, dürften oft noch eine relativ große Anzahl von Treffern übrig bleiben, die durch ein Rankingverfahren in eine Reihenfolge gebracht werden müssen. Dabei sollen zuvorderst die für die Suchanfrage relevantesten Treffer angezeigt werden. Der Begriff der Relevanz ist jedoch selbst umstritten: Was für den einen relevant erscheint, mag für den anderen irrelevant sein. Daher wird die Unterscheidung von Relevanz und Pertinenz, also einem objektiv messbaren und einem nur durch den Nutzer bestimmten Wert, verwendet. Aber auch bei dieser Unterteilung herrschen noch Unklarheiten. Problematisch ist dies vor allem, weil sich Retrievaltests, die die Qualität von Suchmaschinen messen sollen, stets auf eine bestimmte Definition von Relevanz beziehen, die mit über das Ergebnis entscheidet. Weiterhin problematisch an diesen Tests ist, dass sie sich in der Regel auf nur ein Qualitätsmerkmal beziehen, nämlich auf die ermittelte Precision. Diese wird zusätzlich nur für eine bestimmte Menge von ausgegebenen Dokumenten berechnet, normalerweise nicht mehr als zwanzig. Wie bereits erwähnt, lässt sich Qualität von Suchmaschinen aber nicht allein auf diesen Wert beschränken – dazu kommen u.a. Merkmale der Indexqualität (z.B. Größe und Aktualität des Datenbestands) und der Recherchemöglichkeiten.
Die in den Retrievaltests ermittelte Precision ist durchweg als nicht zufrieden stellend zu bezeichnen. Neben verbesserten Rankingverfahren versprechen benut¬zerleitende Verfahren einen Ausweg: Sie können trotz der mäßigen Qualität der ursprünglichen Trefferliste den Nutzer zu den für ihn passenden Ergebnissen len¬ken. Besonders vielversprechend sind dabei der Vorschlag weiterer Suchbegriffe, die Suche nach ähnlichen Dokumenten zu einem bereits gefundenen Dokument und die Clusterbildung. Letztendlich dürfte eine Verbesserung der Ergebnisse vor allem dadurch zu erreichen sein, dass sowohl Suchmaschinenbetreiber als auch -nutzer sich darauf einstellen, dass in vielen Fällen eine Recherche nicht in einem einzigen Schritt durchführbar ist. Nach dem Schritt der Suche sollte ein Browsing innerhalb der Treffermenge möglich sein, um die Suche weiter zu präzi¬sieren.
Um eine solche Kombination sinnvoll zu ermöglichen, müssen Einschränkungen zuverlässig möglich und in ausreichender Zahl vorhanden sein. Als wichtigste Einschränkungsmöglichkeiten wurden die Aktualität und die Qualität herausgearbeitet. Weitere Dokumentattribute lassen sich durch eine verbesserte Dokumentrepräsentation gewinnen.
Bei der Einschränkung nach der Qualität der Dokumente handelt es sich um eine „klassische“ Einschränkungsmöglichkeit, die von nahezu allen Information-Retrieval-Systemen bekannt ist. Bei den Suchmaschinen tritt allerdings das Problem auf, dass das Datum der Dokumente erst bestimmt werden muss. Diese Bestimmung können heutige Suchmaschinen nicht zuverlässig leisten. Ein Ausweg ist in der Ermittlung des Datums durch die Kombination verschiedener Aktualitätswerte zu sehen, um das tatsächliche Datum des Dokuments wenigstens näherungsweise bestimmen zu können. Aktualitätswerte können auch ergänzend zu anderen Faktoren für das Ranking eingesetzt werden. Umso bedeutender ist allerdings eine zuverlässige Bestimmung des Änderungsdatums der Dokumente – auch, um Manipulationsversuchen vorzubeugen.
Eine Qualitätsbewertung kommt bei den Suchmaschinen bisher auf Dokumentebene zum Einsatz, wobei der Nutzer keinen Einfluss auf den Faktor Qualität als Rankingfaktor hat. Allerdings wäre es zu wünschen, dass der Nutzer seine Recherche auf die bedeutendsten Quellen zu seinem Thema einschränken kann. Dazu ist eine Qualitätsbewertung auf Quellenebene nötig; die für eine Anfrage geeignetsten Quellen lassen sich beispielsweise aus Web-Verzeichnissen ermitteln. Damit wird die Recherche auf von Menschen ausgewählte und für gut befundene Quellen beschränkt. Weitere Einbindungsmöglichkeiten von Qualitätsquellen sind die manuelle Einbindung sowie die Erweiterung der Recherche auf geeignete Invisible-Web-Datenbanken.
Für die zuverlässige Einschränkungsmöglichkeiten und eine bessere Informationsverdichtung in den Trefferlisten ist letztlich die Dokumentrepräsentation entscheidend. Es wurde herausgearbeitet, dass die bisherigen Repräsentationen unbefriedigend sind und wie sie erweitert werden können. Nach der Extraktion des tatsächlichen Dokumententexts können der echte Titel des Dokuments, die Dokumentlänge und die Zahl der im Text enthaltenen Abbildungen und Tabellen gewonnen werden. Diese Informationen können in die Trefferlisten eingebunden werden, um die Entscheidung für oder gegen die Einsichtnahme in ein Dokument weiter zu fundieren.
Im Rahmen dieser Arbeit konnte neben der Darstellung des Forschungsstands im Bereich Web Information Retrieval vor allem ein konzeptioneller Ansatz verfolgt werden. Die vorgestellten Lösungsvorschläge sind nicht in Anwendungen implementiert und können sich daher auch bisher nicht im Einsatz beweisen. Letztlich ging es aber darum, die Richtung aufzuzeigen, in die sich Web-Suchmaschinen entwickeln sollten, um dem Nutzer ein besseres Instrument bei seiner Informationsrecherche zu sein. Natürlich ist es zu wünschen, dass die gemachten Vorschläge sowohl in der wissenschaftlichen Fachwelt diskutiert als auch in der Praxis aufgenommen werden.
In vielen Kapiteln dieser Arbeit wurde deutlich, dass das Themenfeld Web Information Retrieval zu einem beträchtlichen Teil nur wenig erforscht ist. Es klaffen noch viele Lücken, die es zu füllen gilt. Für die Zukunft ist zu hoffen, dass eine vermehrte Forschung in diesem mit über den Zugang zu und den Umgang mit Informationen entscheidenden Bereich stattfinden wird. Besonders für die Informationswissenschaft bietet sich hier ein auch in der Öffentlichkeit viel beachtetes Themenfeld, zu dem sie einen wichtigen Beitrag leisten kann.

< 13.4 Aufbereitung der Suchergebnisse in den Trefferlisten  |  Inhaltsverzeichnis  |  15 Literaturverzeichnis >