
Mit den Unterschieden zwischen klassischen Information Retrieval und dem Web-Retrieval
haben sich bereits viele Autoren beschäftigt (vgl. u.a. Huang 2000; Chowdhury
1999; Brooks 2003; Chu 2003, 128-139; Ferber 2003, 285-292; Savoy 2002). Auf
Basis dieser Untersuchungen sollen die Unterschiede systematisch herausgearbeitet
und beschrieben werden.
Die Unterschiede zwischen klassischem Information Retrieval und Web-Retrieval
lassen sich in vier Klassen unterteilen. Dies sind Unterschiede hinsichtlich
des zugrunde liegenden Dokumentenkorpus, hinsichtlich der Inhalte, der Nutzer
und hinsichtlich der Eigenarten des IR-Systems selbst.
In Kapitel 3 wurde die Struktur des Web beschrieben. Es wurde insbesondere bereits
dargelegt, dass die genaue Dokumentenmenge des WWW nicht bekannt ist und auch
nicht ermittelt werden kann und dass Hyperlink-Strukturen einer gewissen Form
existieren, die die vollständige Erfassung erschweren. Diese Probleme liegen
bei der Erschließung von Dokumenten in klassischen Datenbanken nicht vor.
Hier ist die zu erfassende Datenmenge aufgrund der schon bei der Planung der
Datenbank gemachten Einschränkung der Dokumentenmenge (beispielsweise „alle
Dokumente aus deutschsprachigen informationswissenschaftlichen Zeitschriften")
bekannt. Probleme des Auffindens von neuen Dokumenten bestehen nicht in der
gleichen Form; um bei dem oben angeführten Beispiel zu bleiben: die Erfassungsmenge
ändert sich nur, wenn Zeitschriften aus dem Bestand genommen werden oder
neue Zeitschriften erscheinen. Die einmal definierte Menge der Zeitschriften
vollständig zu erfassen bereitet dagegen keine Probleme.
In Bezug auf die Sprache der zu erschließenden Dokumente besteht im Web
das Problem, dass Dokumente in potentiell allen Sprachen vorkommen können.
Da von Seiten der Suchmaschinen kein einheitliches Indexierungsvokabular vorliegt,
sondern auf die Volltexterschließung gesetzt wird, können die Dokumente
auch jeweils nur bei Eingabe der Suchbegriffe in der Sprache der zu findenden
Dokumente gefunden werden. Im Bereich der Online-Datenbanken sind in einer Datenbank
entweder nur Dokumente in einer Sprache enthalten, oder aber die in unterschiedlichen
Sprachen verfassten Dokumente werden mittels eines einheitlichen Vokabulars
in der Zielsprache der Datenbank erschlossen. Als weitere Hilfsmittel existieren
Klassifikationssysteme und mono- oder multilinguale Thesauri.
Ein weiteres Problem der Vielfalt des Web taucht in Form unterschiedlicher Medienarten
bzw. Dateiformate auf. Das Web ist nicht auf Textdokumente beschränkt,
sondern enthält beispielsweise viele Multimedia-Informationen. Die Erschließung
dieser Informationen muss aufgrund der mangelnden Textmenge grundsätzlich
anders erfolgen als die der Textdokumente. In Online-Datenbanken sind entweder
keine Multimedia-Informationen enthalten oder aber diese sind durch spezielle
Metadaten erschlossen, so dass die Recherche über Texteingaben einfacher
möglich ist.
Probleme bei Web-Dokumenten bereitet auch die stark differierende Länge
der Dokumente und deren eventuell bestehende Granularität (Ferber 2003,
287). Zwar sind auch die in den Online-Datenbanken erschlossenen Dokumente von
unterschiedlicher Länge, die Spannbreite ist jedoch weit geringer. Im Web
finden sich hingegen aus nur wenigen Wörtern bestehende Dokumente ebenso
wie komplette Bücher, die als einzelnes Dokument verfügbar gemacht
wurden. Teils werden längere Dokumente jedoch auch in Teile zerlegt, um
den Zugriff zu verbessern. Dabei kann unter einem langen Dokument schon ein
solches verstanden werden, welches sich nicht ohne Scrollen am Bildschirm lesen
lässt.
Insbesondere journalistische Angebote unterteilen ihre Dokumente oft in kleinere
Bestandteile (so zum Beispiel populäre Angebote Handelsblatt.com oder Welt.de).
Die Probleme der im Gegensatz zu den Online-Datenbanken mangelnden Strukturierung
der Web-Dokumente wurden in Kapitel 4.2 beschrieben.
Während in Online-Datenbanken jedes Dokument nur einmal abgelegt wird und
klare Kriterien für die Aufnahme von Dokumenten in die Datenbank bestehen
(Xie 2004), findet sich im Web aufgrund der dezentralen Struktur eine hohe Anzahl
an Dubletten. Einerseits werden komplette Server gespiegelt (mirror hosts),
andererseits werden die gleichen Texte in unterschiedliche Angebote integriert.
Für die Suchmaschinen ist die Eliminierung jeglicher Dubletten von besonderer
Bedeutung, da sie die gerankten Trefferlisten verstopfen können. Weiterhin
besteht das Problem unterschiedlicher Versionen des gleichen Texts. Während
in Datenbanken in der Regel nur eine, nämlich die endgültige Fassung
eines Dokuments abgelegt wird (beispielsweise ein Artikel in der Form, in der
er in einer Print-Version erschienen ist), existieren von vielen Dokumenten
im Web unterschiedliche Versionen, die nicht leicht durch automatische Verfahren
als solche erkannt werden können.
Ein besonderes Problem der Dokumentenkollektion betrifft die Zuverlässigkeit
der zu erschließenden Dokumente. Während im klassischen Information
Retrieval nur in Einzelfällen das Problem bestand, jedes zu erfassende
Dokument auf seine Qualität hin zu kontrollieren, ist dies für die
Aufnahme in einen Suchmaschinen-Index essentiell. Nur Dokumente, die tatsächlich
für den Benutzer von Bedeutung für die Lösung eines Informationsproblems
sinnvoll sind, sollen in den Datenbestand aufgenommen werden (Chu 2003, 128);
alle Suchmaschinen bestimmen inzwischen einen Wert für die Autorität
jedes Dokuments (s. Kap. 8).
Hier ist zu ergänzen, dass die Suchmaschinen sehr wohl Verfahren einsetzen,
die unterscheiden sollen, ob ein Dokument in den Datenbestand aufgenommen wird
oder nicht. Richtig ist allerdings, dass keine intellektuelle Auswahl stattfindet,
die definiert, welchen Anforderungen ein Dokument genügen muss, um in den
Datenbestand aufgenommen zu werden. In der Regel werden alle Dokumente, die
nicht durch automatische Verfahren als Spam erkannt werden, in den Datenbestand
aufgenommen. Eine ausführlichere Diskussion der Kriterien für die
Aufnahme in den Index wird in Kapitel 5.3 geführt.
Auch in Bezug auf die Nutzer gibt es wesentlich Unterschiede zwischen den Online-Datenbanken
und dem Web. Die Web-Nutzer wurden bereits in Kapitel 2.6 charakterisiert. Als
Fazit war dort festgestellt worden, dass die Suchmaschinen-Nutzer nur geringe
Kenntnisse über die Möglichkeiten und den Suchprozess der Suchmaschinen
haben und die Systeme aus diesen Gründen an diese Nutzer angepasst sind
bzw. angepasst werden müssen. Vergleicht man die Art der gestellten Anfragen
von Web-Nutzern und den Nutzern von Online-Datenbanken, so lässt sich klar
feststellen, dass die Datenbank-Nutzer mit den Abfragesprachen und komplexen
Suchmöglichkeiten dieser Systeme umgehen können und entsprechend genau
formulierte Suchanfragen verwenden. Dazu kommt, dass das Nutzerinteresse bei
Online-Datenbanken aufgrund der Homogenität der Inhalte klar fokussiert
ist; an Suchmaschinen werden hingegen Anfragen unterschiedlichster Ausrichtung
gestellt (vgl. Kapitel 2.5).
Als letzte Klasse der Unterschiede zwischen den beiden Typen von IR-Systemen
sind schließlich die Eigenarten der jeweiligen Systeme zu nennen. Dieser
Bereich ist allerdings am ehesten Veränderungen unterworfen, da sich die
Funktionen des Systems relativ leicht ändern bzw. verbessern lassen. Allerdings
haben sich bei den Suchmaschinen bestimmte Standards in Bezug auf die Funktionalitäten
herausgebildet (vgl. Kapitel 2.3), die sich wesentlich von denen bei den Online-Datenbanken
unterscheiden.
Wie schon beschrieben, sind die Suchanfragen bei Web-Suchmaschinen weit weniger
komplex als die in Online-Datenbanken. Während frühe Suchmaschinen
wie AltaVista noch versuchten, die komplexen Abfragemöglichkeiten der klassischen
IR-Systeme nachzubilden, verzichten neuere Suchmaschinen weitgehend auf diese,
da solche Funktionen von den Nutzern nur in sehr geringem Umfang angenommen
werden. Suchmaschinen bieten also keine den klassischen IR-Systemen vergleichbare
Suchmöglichkeiten. Dies gilt sowohl für die Standard-Abfragemöglichkeiten
wie boolesche Suche, Abstandsoperatoren und Trunkierung als auch für speziellere
Abfragemöglichkeiten wie gewichtetes Retrieval oder Fuzzy-Suche (Chu 2003,
130f.; s. a. Stock 2000a; Lewandowski 2004a).
Die Standards für die Interfaces bei Suchmaschinen wurden in Kapitel 2.3
beschrieben, wobei als großer Vorteil der Suchmaschinen hervorzuheben
ist, dass sich die Interfaces stark ähneln und ein Wechsel von einem zum
anderen System daher in der Regel problemlos möglich ist. Online-Datenbanken
verfügen in der Regel über weit komplexere Interfaces, die oft auch
gezielt auf die speziellen Inhalte der jeweiligen Datenbank ausgerichtet sind.
Es existieren allerdings auch Interfaces von kommerziellen Hosts, die auf die
Suche in sehr großen Datenbeständen ausgerichtet sind. Hier erfolgt
die Suche jedoch in mehreren Schritten, so dass die Treffermenge schon in der
Vorbereitung der eigentlichen Suche entsprechend eingeschränkt werden kann.
Vor allem geschieht dies durch eine gezielte Auswahl der zu durchsuchenden Quellen.
Auch die Möglichkeiten der Modifikation einer bereits gestellten Suchanfrage
sind bei den Suchmaschinen außerordentlich beschränkt. In der Regel
wird nur die Option angeboten, nochmals in den bereits gefundenen Ergebnissen
zu suchen. Eine Eigenheit der Suchmaschinen ist der automatische Vorschlag von
weiteren Suchbegriffen, um die Suche entsprechend einzuschränken, zu erweitern
oder zu verändern (Chu 134f.).
Alle Suchmaschinen setzen bei der Sortierung der Trefferlisten auf Ranking-Mechanismen.
Auch in klassischen IR-Systemen werden teils Ranking-Verfahren eingesetzt, allerdings
ist dies nur selten der Fall. Wenn, dann verwenden in der Regel Faktoren wie
term frequency, term proximity, term location und inverse document frequency,
bei WWW-Suchmaschinen kommen weitere Faktoren hinzu: linktopologische Verfahren,
Verfahren auf Basis der Auswertung von Seitenbesuchen (Klicks) und Mischverfahren
aus klassischem Ranking und linktopologischen Verfahren.
Alle genannten Unterschiede zwischen Web Information Retrieval und dem Retrieval
in Online-Datenbanken sind in Tabelle 5.1 zusammengefasst.