Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 2.7 Forschungsbereiche
< 2.6 Nutzerstudien  |  Inhaltsverzeichnis  |  3 Die Größe des Web und seine Abdeckung durch Suchmaschinen >
2.7 Forschungsbereiche

Forschungsbereiche

Dieser Abschnitt soll einen knappen Überblick der Forschungsbereiche im Rahmen des Web Information Retrieval geben. Neben der Evaluierung von Suchmaschinen, welche in der Regel mittels Retrievaltests stattfindet (vgl. Kap. 9) und der Erforschung des Nutzerverhaltens (wie im vorangegangenen Abschnitt beschrieben) liegen die Schwerpunkte der Forschung vor allem auf neuen algorithmischen Ansätzen, die die Suche und das Ranking der Trefferlisten verbessern sollen und auf der Arbeit am Semantic Web.
Das Semantic Web (Berners-Lee et al. 2001) erweitert das bisherige WWW um semantische Auszeichnungen, die insbesondere die Kommunikation zwischen Rechnern ermöglichen bzw. erleichtern soll. Das bisherige Web ist vor allem auf die Kommunikation zwischen Mensch und Maschine ausgelegt, während dem Austausch von Informationen zwischen Maschinen für die Zukunft eine tragende Rolle zugemessen wird.
Die Forschung zum Semantic Web wird in dieser Arbeit ausgeklammert, da sich die Entwicklung in diesem Bereich trotz großer Anstrengungen noch in einer frühen Phase befindet und die Auswertung semantischer Auszeichnungen zumindest auf absehbare Zeit für Suchmaschinen nicht in Frage kommt. Technologien des Semantic Web müssen sich noch in größeren und vor allem allgemeineren als speziellen Fachumgebungen bewähren, bevor sie im großen Stil im „allgemeinen Web" ausgewertet werden können.
Eine Zusammenfassung der Kernprobleme im Bereich Web Information Retrie¬val auf algorithmischer Ebene bieten Henzinger, Motwani und Silverstein (2002). Dabei geht es um die Felder, auf denen bisher nicht oder nur wenig geforscht wird. Die fünf angeführten Punkte lauten:
Spam: eine Besonderheit des Web Information Retrieval ist es, dass den Dokumenten nicht per se vertraut werden kann. Es gibt massive Bestrebungen von Inhalteanbietern und Werbetreibenden, die Indizes der Suchmaschinen mit von diesen unerwünschten Inhalten zu überfluten. Aufgabe der Suchmaschinen ist es, diese Spam-Seiten gezielt auszufiltern. Das Problem ist den Suchmaschinen-Betreibern inzwischen bewusst; verschiedene Techniken werden mehr oder weniger erfolgreich eingesetzt. Die Zunahme des Spam-Problems wird auch von den Suchmaschinen-Betreibern bestätigt (Machill, Welp 2003, 82).
Qualität der Inhalte (Content Quality): Selbst wenn das Spam-Problem nicht existierte, wäre die Frage des Vertrauens in die Dokumente nicht gelöst. Das Web sei voll von Dokumenten von zweifelhafter Qualität. Gute Suchmaschinen müssten von der Annahme ausgehen, dass den Dokumenten erst einmal nicht zu trauen sei. Erst durch das Erkennen von Zusammenhängen zwischen den Dokumenten kann deren Qualität bewertet werden. Bisherige Ansätze nutzen dazu Verfahren der Link-Topologie (s. Kap. 8). Henzinger, Motwani und Silverstein fordern erweiterte Ansätze, die sowohl die Auswertung von Informationen im Dokument selbst als auch von Beziehungen der Dokumente untereinander vornehmen. Projekte wie AQUAINT (Mandl 2005) beschäftigen sich inzwischen mit der Qualität der Inhalte.
Web-Konventionen (Web Conventions): Unter den Autoren von Web-Seiten haben sich gewisse Konventionen herausgebildet, die aber nicht unbedingt explizit bekannt sind. Beispielsweise werden Ankertexte eingesetzt, um die Seite, auf die verwiesen wird, zu beschreiben. Bisher gibt es nur wenig Forschung über diese Konventionen und Methoden, deren Verletzung zuverlässig zu erkennen.
Gespiegelte Hosts (Duplicate Hosts): Hier ist nicht das Problem der Dublettenkontrolle von bereits durch den Crawler angeforderter Seiten gemeint, sondern Methoden, die eine Überprüfung gesamter Server ohne den vorherigen Download sämtlicher Dokumente möglich machen.
Schwach strukturierte Daten (Vaguely-Structured Data): Web-Inhalte stehen hinsichtlich ihrer Struktur in der Regel zwischen Fließtext (unstrukturiert) und den Inhalten von Datenbanken (stark strukturiert). Da die Textauszeichnungssprache HTML nur wenige strukturbeschreibende Informationen liefert (siehe Kapitel 4.2.1), müssen die Layout-Angaben aus HTML-Dokumenten ausgewertet werden.
Auffällig an dieser Aufstellung der Forschungsgebiete ist die Konzentration auf die rein algorithmischen Aspekte von Suchmaschinen. Und hier ist wohl auch ein Kernproblem der bisherigen Forschung zu sehen: Das Vertrauen darauf, dass eine algorithmische Lösung der Web-Suche gefunden werden wird. Wie in dieser Arbeit allerdings gezeigt werden wird, wird eine vollkommene, rein algorithmische Lösung nicht nur nicht möglich sein, sondern ist auch gar nicht unbedingt als wünschenswert zu betrachten. Algorithmische Lösungen gehen davon aus, dass eine Suchanfrage in einem Schritt beantwortet werden könnte; nach der Eingabe der Suchanfrage erscheinen direkt die Ergebnisse und auf den ersten Trefferplätzen sollen diejenigen Dokumente stehen, die der Nutzer benötigt. Unberücksichtigt bleibt hier allerdings der Nutzer selbst: Von ihm wird angenommen, dass er in der Lage ist, sein Informationsbedürfnis adäquat auszudrücken. Dass dies nur in den wenigsten Fällen der Fall ist, konnte bereits im letzten Abschnitt gezeigt werden. Es sind daher Lösungen zu finden, die den Nutzer besser in die Recherche einbinden und ihm die Möglichkeiten aufzeigen, eine „perfekte" Suchanfrage zu stellen.
< 2.6 Nutzerstudien  |  Inhaltsverzeichnis  |  3 Die Größe des Web und seine Abdeckung durch Suchmaschinen >