Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 5.1 Unterschiede zwischen klassischem Information Retrieval und Web Information Retrieval
< 5 Klassische Verfahren des Information Retrieval und ihre Anwendung bei WWW-Suchmaschinen  |  Inhaltsverzeichnis  |  5.2 Kontrolliertes Vokabular >
5.1 Unterschiede zwischen klassischem Information Retrieval und Web Information Retrieval

Unterschiede zwischen „klassischem" Information Retrieval und Web Information Retrieval

Mit den Unterschieden zwischen klassischen Information Retrieval und dem Web-Retrieval haben sich bereits viele Autoren beschäftigt (vgl. u.a. Huang 2000; Chowdhury 1999; Brooks 2003; Chu 2003, 128-139; Ferber 2003, 285-292; Savoy 2002). Auf Basis dieser Untersuchungen sollen die Unterschiede systematisch herausgearbeitet und beschrieben werden.
Die Unterschiede zwischen klassischem Information Retrieval und Web-Retrieval lassen sich in vier Klassen unterteilen. Dies sind Unterschiede hinsichtlich des zugrunde liegenden Dokumentenkorpus, hinsichtlich der Inhalte, der Nutzer und hinsichtlich der Eigenarten des IR-Systems selbst.
In Kapitel 3 wurde die Struktur des Web beschrieben. Es wurde insbesondere bereits dargelegt, dass die genaue Dokumentenmenge des WWW nicht bekannt ist und auch nicht ermittelt werden kann und dass Hyperlink-Strukturen einer gewissen Form existieren, die die vollständige Erfassung erschweren. Diese Probleme liegen bei der Erschließung von Dokumenten in klassischen Datenbanken nicht vor. Hier ist die zu erfassende Datenmenge aufgrund der schon bei der Planung der Datenbank gemachten Einschränkung der Dokumentenmenge (beispielsweise „alle Dokumente aus deutschsprachigen informationswissenschaftlichen Zeitschriften") bekannt. Probleme des Auffindens von neuen Dokumenten bestehen nicht in der gleichen Form; um bei dem oben angeführten Beispiel zu bleiben: die Erfassungsmenge ändert sich nur, wenn Zeitschriften aus dem Bestand genommen werden oder neue Zeitschriften erscheinen. Die einmal definierte Menge der Zeitschriften vollständig zu erfassen bereitet dagegen keine Probleme.
In Bezug auf die Sprache der zu erschließenden Dokumente besteht im Web das Problem, dass Dokumente in potentiell allen Sprachen vorkommen können. Da von Seiten der Suchmaschinen kein einheitliches Indexierungsvokabular vorliegt, sondern auf die Volltexterschließung gesetzt wird, können die Dokumente auch jeweils nur bei Eingabe der Suchbegriffe in der Sprache der zu findenden Dokumente gefunden werden. Im Bereich der Online-Datenbanken sind in einer Datenbank entweder nur Dokumente in einer Sprache enthalten, oder aber die in unterschiedlichen Sprachen verfassten Dokumente werden mittels eines einheitlichen Vokabulars in der Zielsprache der Datenbank erschlossen. Als weitere Hilfsmittel existieren Klassifikationssysteme und mono- oder multilinguale Thesauri.
Ein weiteres Problem der Vielfalt des Web taucht in Form unterschiedlicher Medienarten bzw. Dateiformate auf. Das Web ist nicht auf Textdokumente beschränkt, sondern enthält beispielsweise viele Multimedia-Informationen. Die Erschließung dieser Informationen muss aufgrund der mangelnden Textmenge grundsätzlich anders erfolgen als die der Textdokumente. In Online-Datenbanken sind entweder keine Multimedia-Informationen enthalten oder aber diese sind durch spezielle Metadaten erschlossen, so dass die Recherche über Texteingaben einfacher möglich ist.
Probleme bei Web-Dokumenten bereitet auch die stark differierende Länge der Dokumente und deren eventuell bestehende Granularität (Ferber 2003, 287). Zwar sind auch die in den Online-Datenbanken erschlossenen Dokumente von unterschiedlicher Länge, die Spannbreite ist jedoch weit geringer. Im Web finden sich hingegen aus nur wenigen Wörtern bestehende Dokumente ebenso wie komplette Bücher, die als einzelnes Dokument verfügbar gemacht wurden. Teils werden längere Dokumente jedoch auch in Teile zerlegt, um den Zugriff zu verbessern. Dabei kann unter einem langen Dokument schon ein solches verstanden werden, welches sich nicht ohne Scrollen am Bildschirm lesen lässt.
Insbesondere journalistische Angebote unterteilen ihre Dokumente oft in kleinere Bestandteile (so zum Beispiel populäre Angebote Handelsblatt.com oder Welt.de). Die Probleme der im Gegensatz zu den Online-Datenbanken mangelnden Strukturierung der Web-Dokumente wurden in Kapitel 4.2 beschrieben.
Während in Online-Datenbanken jedes Dokument nur einmal abgelegt wird und klare Kriterien für die Aufnahme von Dokumenten in die Datenbank bestehen (Xie 2004), findet sich im Web aufgrund der dezentralen Struktur eine hohe Anzahl an Dubletten. Einerseits werden komplette Server gespiegelt (mirror hosts), andererseits werden die gleichen Texte in unterschiedliche Angebote integriert. Für die Suchmaschinen ist die Eliminierung jeglicher Dubletten von besonderer Bedeutung, da sie die gerankten Trefferlisten verstopfen können. Weiterhin besteht das Problem unterschiedlicher Versionen des gleichen Texts. Während in Datenbanken in der Regel nur eine, nämlich die endgültige Fassung eines Dokuments abgelegt wird (beispielsweise ein Artikel in der Form, in der er in einer Print-Version erschienen ist), existieren von vielen Dokumenten im Web unterschiedliche Versionen, die nicht leicht durch automatische Verfahren als solche erkannt werden können.
Ein besonderes Problem der Dokumentenkollektion betrifft die Zuverlässigkeit der zu erschließenden Dokumente. Während im klassischen Information Retrieval nur in Einzelfällen das Problem bestand, jedes zu erfassende Dokument auf seine Qualität hin zu kontrollieren, ist dies für die Aufnahme in einen Suchmaschinen-Index essentiell. Nur Dokumente, die tatsächlich für den Benutzer von Bedeutung für die Lösung eines Informationsproblems sinnvoll sind, sollen in den Datenbestand aufgenommen werden (Chu 2003, 128); alle Suchmaschinen bestimmen inzwischen einen Wert für die Autorität jedes Dokuments (s. Kap. 8).
Hier ist zu ergänzen, dass die Suchmaschinen sehr wohl Verfahren einsetzen, die unterscheiden sollen, ob ein Dokument in den Datenbestand aufgenommen wird oder nicht. Richtig ist allerdings, dass keine intellektuelle Auswahl stattfindet, die definiert, welchen Anforderungen ein Dokument genügen muss, um in den Datenbestand aufgenommen zu werden. In der Regel werden alle Dokumente, die nicht durch automatische Verfahren als Spam erkannt werden, in den Datenbestand aufgenommen. Eine ausführlichere Diskussion der Kriterien für die Aufnahme in den Index wird in Kapitel 5.3 geführt.
Auch in Bezug auf die Nutzer gibt es wesentlich Unterschiede zwischen den Online-Datenbanken und dem Web. Die Web-Nutzer wurden bereits in Kapitel 2.6 charakterisiert. Als Fazit war dort festgestellt worden, dass die Suchmaschinen-Nutzer nur geringe Kenntnisse über die Möglichkeiten und den Suchprozess der Suchmaschinen haben und die Systeme aus diesen Gründen an diese Nutzer angepasst sind bzw. angepasst werden müssen. Vergleicht man die Art der gestellten Anfragen von Web-Nutzern und den Nutzern von Online-Datenbanken, so lässt sich klar feststellen, dass die Datenbank-Nutzer mit den Abfragesprachen und komplexen Suchmöglichkeiten dieser Systeme umgehen können und entsprechend genau formulierte Suchanfragen verwenden. Dazu kommt, dass das Nutzerinteresse bei Online-Datenbanken aufgrund der Homogenität der Inhalte klar fokussiert ist; an Suchmaschinen werden hingegen Anfragen unterschiedlichster Ausrichtung gestellt (vgl. Kapitel 2.5).

Als letzte Klasse der Unterschiede zwischen den beiden Typen von IR-Systemen sind schließlich die Eigenarten der jeweiligen Systeme zu nennen. Dieser Bereich ist allerdings am ehesten Veränderungen unterworfen, da sich die Funktionen des Systems relativ leicht ändern bzw. verbessern lassen. Allerdings haben sich bei den Suchmaschinen bestimmte Standards in Bezug auf die Funktionalitäten herausgebildet (vgl. Kapitel 2.3), die sich wesentlich von denen bei den Online-Datenbanken unterscheiden.
Wie schon beschrieben, sind die Suchanfragen bei Web-Suchmaschinen weit weniger komplex als die in Online-Datenbanken. Während frühe Suchmaschinen wie AltaVista noch versuchten, die komplexen Abfragemöglichkeiten der klassischen IR-Systeme nachzubilden, verzichten neuere Suchmaschinen weitgehend auf diese, da solche Funktionen von den Nutzern nur in sehr geringem Umfang angenommen werden. Suchmaschinen bieten also keine den klassischen IR-Systemen vergleichbare Suchmöglichkeiten. Dies gilt sowohl für die Standard-Abfragemöglichkeiten wie boolesche Suche, Abstandsoperatoren und Trunkierung als auch für speziellere Abfragemöglichkeiten wie gewichtetes Retrieval oder Fuzzy-Suche (Chu 2003, 130f.; s. a. Stock 2000a; Lewandowski 2004a).
Die Standards für die Interfaces bei Suchmaschinen wurden in Kapitel 2.3 beschrieben, wobei als großer Vorteil der Suchmaschinen hervorzuheben ist, dass sich die Interfaces stark ähneln und ein Wechsel von einem zum anderen System daher in der Regel problemlos möglich ist. Online-Datenbanken verfügen in der Regel über weit komplexere Interfaces, die oft auch gezielt auf die speziellen Inhalte der jeweiligen Datenbank ausgerichtet sind. Es existieren allerdings auch Interfaces von kommerziellen Hosts, die auf die Suche in sehr großen Datenbeständen ausgerichtet sind. Hier erfolgt die Suche jedoch in mehreren Schritten, so dass die Treffermenge schon in der Vorbereitung der eigentlichen Suche entsprechend eingeschränkt werden kann. Vor allem geschieht dies durch eine gezielte Auswahl der zu durchsuchenden Quellen. Auch die Möglichkeiten der Modifikation einer bereits gestellten Suchanfrage sind bei den Suchmaschinen außerordentlich beschränkt. In der Regel wird nur die Option angeboten, nochmals in den bereits gefundenen Ergebnissen zu suchen. Eine Eigenheit der Suchmaschinen ist der automatische Vorschlag von weiteren Suchbegriffen, um die Suche entsprechend einzuschränken, zu erweitern oder zu verändern (Chu 134f.).
Alle Suchmaschinen setzen bei der Sortierung der Trefferlisten auf Ranking-Mechanismen. Auch in klassischen IR-Systemen werden teils Ranking-Verfahren eingesetzt, allerdings ist dies nur selten der Fall. Wenn, dann verwenden in der Regel Faktoren wie term frequency, term proximity, term location und inverse document frequency, bei WWW-Suchmaschinen kommen weitere Faktoren hinzu: linktopologische Verfahren, Verfahren auf Basis der Auswertung von Seitenbesuchen (Klicks) und Mischverfahren aus klassischem Ranking und linktopologischen Verfahren.
Alle genannten Unterschiede zwischen Web Information Retrieval und dem Retrieval in Online-Datenbanken sind in Tabelle 5.1 zusammengefasst.

< 5 Klassische Verfahren des Information Retrieval und ihre Anwendung bei WWW-Suchmaschinen  |  Inhaltsverzeichnis  |  5.2 Kontrolliertes Vokabular >