2.7 Forschungsbereiche
Forschungsbereiche
Dieser Abschnitt soll einen knappen Überblick der Forschungsbereiche im Rahmen
des Web Information Retrieval geben. Neben der Evaluierung von Suchmaschinen,
welche in der Regel mittels Retrievaltests stattfindet (vgl. Kap. 9) und der Erforschung
des Nutzerverhaltens (wie im vorangegangenen Abschnitt beschrieben) liegen die
Schwerpunkte der Forschung vor allem auf neuen algorithmischen Ansätzen,
die die Suche und das Ranking der Trefferlisten verbessern sollen und auf der
Arbeit am Semantic Web.
Das Semantic Web (Berners-Lee et al. 2001) erweitert das bisherige WWW um semantische
Auszeichnungen, die insbesondere die Kommunikation zwischen Rechnern ermöglichen
bzw. erleichtern soll. Das bisherige Web ist vor allem auf die Kommunikation zwischen
Mensch und Maschine ausgelegt, während dem Austausch von Informationen zwischen
Maschinen für die Zukunft eine tragende Rolle zugemessen wird.
Die Forschung zum Semantic Web wird in dieser Arbeit ausgeklammert, da sich die
Entwicklung in diesem Bereich trotz großer Anstrengungen noch in einer frühen
Phase befindet und die Auswertung semantischer Auszeichnungen zumindest auf absehbare
Zeit für Suchmaschinen nicht in Frage kommt. Technologien des Semantic Web
müssen sich noch in größeren und vor allem allgemeineren als speziellen
Fachumgebungen bewähren, bevor sie im großen Stil im „allgemeinen
Web" ausgewertet werden können.
Eine Zusammenfassung der Kernprobleme im Bereich Web Information Retrie¬val
auf algorithmischer Ebene bieten Henzinger, Motwani und Silverstein (2002). Dabei
geht es um die Felder, auf denen bisher nicht oder nur wenig geforscht wird. Die
fünf angeführten Punkte lauten:
Spam: eine Besonderheit des Web Information Retrieval ist es,
dass den Dokumenten nicht per se vertraut werden kann. Es gibt massive Bestrebungen
von Inhalteanbietern und Werbetreibenden, die Indizes der Suchmaschinen mit von
diesen unerwünschten Inhalten zu überfluten. Aufgabe der Suchmaschinen
ist es, diese Spam-Seiten gezielt auszufiltern. Das Problem ist den Suchmaschinen-Betreibern
inzwischen bewusst; verschiedene Techniken werden mehr oder weniger erfolgreich
eingesetzt. Die Zunahme des Spam-Problems wird auch von den Suchmaschinen-Betreibern
bestätigt (Machill, Welp 2003, 82).
Qualität der Inhalte (Content Quality): Selbst wenn das
Spam-Problem nicht existierte, wäre die Frage des Vertrauens in die Dokumente
nicht gelöst. Das Web sei voll von Dokumenten von zweifelhafter Qualität.
Gute Suchmaschinen müssten von der Annahme ausgehen, dass den Dokumenten
erst einmal nicht zu trauen sei. Erst durch das Erkennen von Zusammenhängen
zwischen den Dokumenten kann deren Qualität bewertet werden. Bisherige Ansätze
nutzen dazu Verfahren der Link-Topologie (s. Kap. 8). Henzinger, Motwani und Silverstein
fordern erweiterte Ansätze, die sowohl die Auswertung von Informationen im
Dokument selbst als auch von Beziehungen der Dokumente untereinander vornehmen.
Projekte wie AQUAINT (Mandl 2005) beschäftigen sich inzwischen mit der Qualität
der Inhalte.
Web-Konventionen (Web Conventions): Unter den Autoren von Web-Seiten
haben sich gewisse Konventionen herausgebildet, die aber nicht unbedingt explizit
bekannt sind. Beispielsweise werden Ankertexte eingesetzt, um die Seite, auf die
verwiesen wird, zu beschreiben. Bisher gibt es nur wenig Forschung über diese
Konventionen und Methoden, deren Verletzung zuverlässig zu erkennen.
Gespiegelte Hosts (Duplicate Hosts): Hier ist nicht das Problem
der Dublettenkontrolle von bereits durch den Crawler angeforderter Seiten gemeint,
sondern Methoden, die eine Überprüfung gesamter Server ohne den vorherigen
Download sämtlicher Dokumente möglich machen.
Schwach strukturierte Daten (Vaguely-Structured Data): Web-Inhalte
stehen hinsichtlich ihrer Struktur in der Regel zwischen Fließtext (unstrukturiert)
und den Inhalten von Datenbanken (stark strukturiert). Da die Textauszeichnungssprache
HTML nur wenige strukturbeschreibende Informationen liefert (siehe Kapitel 4.2.1),
müssen die Layout-Angaben aus HTML-Dokumenten ausgewertet werden.
Auffällig an dieser Aufstellung der Forschungsgebiete ist die Konzentration
auf die rein algorithmischen Aspekte von Suchmaschinen. Und hier ist wohl auch
ein Kernproblem der bisherigen Forschung zu sehen: Das Vertrauen darauf, dass
eine algorithmische Lösung der Web-Suche gefunden werden wird. Wie in dieser
Arbeit allerdings gezeigt werden wird, wird eine vollkommene, rein algorithmische
Lösung nicht nur nicht möglich sein, sondern ist auch gar nicht unbedingt
als wünschenswert zu betrachten. Algorithmische Lösungen gehen davon
aus, dass eine Suchanfrage in einem Schritt beantwortet werden könnte; nach
der Eingabe der Suchanfrage erscheinen direkt die Ergebnisse und auf den ersten
Trefferplätzen sollen diejenigen Dokumente stehen, die der Nutzer benötigt.
Unberücksichtigt bleibt hier allerdings der Nutzer selbst: Von ihm wird angenommen,
dass er in der Lage ist, sein Informationsbedürfnis adäquat auszudrücken.
Dass dies nur in den wenigsten Fällen der Fall ist, konnte bereits im letzten
Abschnitt gezeigt werden. Es sind daher Lösungen zu finden, die den Nutzer
besser in die Recherche einbinden und ihm die Möglichkeiten aufzeigen, eine
„perfekte" Suchanfrage zu stellen.