
Mitentscheidend für ein erfolgreiches Retrieval ist die Möglichkeit,
exakte Suchanfragen zu formulieren. Im Bereich der klassischen Datenbanken haben
sich im Lauf der Jahre komplexe Abfragesprachen entwickelt, die von den frühen
Suchmaschinen nachgebildet wurden. Hier ist vor allem die Suchmaschine AltaVista
zu nennen, die sich an professionellen Ansprüchen orientierte und bis zu
ihrer Umstellung auf die Yahoo-Datenbank im Jahr 2004 die umfangreichsten Suchmöglichkeiten
bot.
Neuere Suchmaschinen wie etwa Google (gestartet 1998) legen weniger Wert auf
erweiterte Suchfunktionen. Dies ist wohl insbesondere auf die recht seltene
Nutzung spezieller Funktionen zurückzuführen, so dass in diesem Bereich
nur wenig Bedarf gesehen wird.
Tabellarische Vergleiche der Abfragesprachen wichtiger Suchmaschinen bieten
unter anderem Hock (2001), Ojala (2002), Hock (2004), Lewandowski (2004a) und
Notess (2004b). Lewandowski (2004a) bietet eine Diskussion der Abfragesprachen
der wichtigsten Suchmaschinen. Es wird darauf hingewiesen, dass Suchmaschinen
die aus der „Datenbank-Welt" bekannten Standardfunktionen nicht umgesetzt
haben, dafür aber viele web-spezifische Kommandos bieten. Aus der Untersuchung
lässt sich folgern, dass Suchmaschinen zunehmend eigene Abfragemöglichkeiten
bieten, die auf die Besonderheiten des Web Information Retrieval zugeschnitten
sind, während im Information Retrieval bewährte Funktionen vernachlässigt
werden.
Die zweite Auffälligkeit besteht in der Vielfalt der Kommandosprachen.
Wie im Datenbank-Umfeld auch hat jede Suchmaschine ihre eigene Syntax, die sich
bei anderen Suchmaschinen nicht anwenden lässt. Während von professionellen
Nutzern erwartet werden kann, sich in unterschiedliche Abfragesprachen einzuarbeiten,
ist im Suchmaschinen-Bereich hierin ein besonderes Problem zu sehen. Zu einem
Teil lässt sich damit sicher auch der hohe Anteil der falsch gestellten
Suchanfragen in Suchmaschinen erklären (vgl. Jansen, Spink u. Saracevic
2000).
Tabelle 2.1. Gebräuchliche Retrieval-Funktionen in professionellen Datenbanken
und ihre (mögliche) Anwendung bei Suchmaschinen
| Funktion in professionellen Datenbanken | Anwendung in Suchmaschinen |
| Boolesche Operatoren | ja, oft keine vollständige Unterstützung |
| Phrasensuche | ja |
| Exaktes Matching | ja; Standard |
| Feldsuche | eingeschränkt |
| Klammern (nesting) | nicht in allen Suchmaschinen |
| Suche speichern | nein |
| Suchhistorie | nein |
| Trunkierung | in keiner der großen Suchmaschinen |
| Platzhalter | in keiner der großen Suchmaschinen |
| Reihenfolge der Operatorenverarbeitung erfolgt nach klaren Regeln | teilweise |
| Abstandsoperatoren | in keiner der großen Suchmaschinen |
| Bereichssuche bei numerischen Angaben | eingeschränkt; bei Datumseinschränkung |
| Einsatz eines Thesaurus o.ä. in der Suche | nein |
| Thematische Suche | eingeschränkt; Zugriff über Verzeichnis |
| Stemming | eingeschränkt; wenn vorhanden, dann in der Regel nur für die englische Sprache |
Dass Suchmaschinen auf im Information Retrieval bewährte Funktionen verzichten,
lässt sich auch anhand einer Untersuchung über die bei professionellen
Datenbanken angebotenen Suchfunktionen verdeutlichen. Othman u. Halim (2004)
unterteilen die Retrieval-Funktionen der von ihnen untersuchten 25 Datenbank-Anbieter
in zwei Kategorien: gebräuchliche (common) und vereinzelt vorkommende (unique).
Gebräuchlich ist eine Funktion dann, wenn mindestens fünf der untersuchten
Datenbanken diese Funktion anbieten; unique ist sie, wenn sie bei weniger als
fünf der untersuchten Datenbanken vorhanden ist. Vor allem die Liste der
gebräuchlichen Funktionen kann als Orientierung für Funktionen und
Operatoren bei Web-Suchmaschinen dienen. Die gebräuchlichsten Funktionen
der Datenbanken sind in Tabelle 2.1 mit ihren Anwendungen im Suchmaschinen-Umfeld
dargestellt.
Deutlich wird, dass viele der bei Datenbanken selbstverständlichen Funktionen
bei den gängigen Suchmaschinen nicht vorhanden oder nur unzureichend implementiert
sind. Während sich frühe Suchmaschinen wie AltaVista noch an den Retrieval-Funktionen
der professionellen Datenbanken orientierten, bieten neuere Suchmaschinen in
der Regel weniger Möglichkeiten. Für eine professionelle Recherche
sind die gebotenen Möglichkeiten nicht ausreichend.
Eine weitere wichtige Frage ist die nach der Nützlichkeit bzw. Funktionstüchtigkeit
der angebotenen Operatoren, speziell in einem Umfeld, in dem nicht mit einem
ausgefeilten Umgang mit diesen gerechnet werden kann.
Eastman und Jansen (2003) gehen der Frage nach, inwieweit Operatoren bei der
Suche im Web überhaupt nützlich sind. Dafür ermitteln sie aus
einem query log der Suchmaschine Excite jeweils 25 Anfragen, die den Operator
AND, OR, MUST APPEAR (+) bzw. eine Phrasensuche enthalten. Die Anfragen werden
jeweils mit und ohne Operator an die drei Suchmaschinen MSN, AOL und Google
gestellt. Dabei kann keine durchgängige Verbesserung der Suchergebnisse
durch den Einsatz von Operatoren festgestellt werden.
Dieses auf den ersten Blick erstaunliche Ergebnis lässt sich wohl aus dem
Umstand erklären, dass Suchanfragen an Web-Suchmaschinen in der Regel sehr
große Treffermengen ergeben, also in der Regel auch eine relativ große
Menge an relevanten Treffern vorhanden ist. In der Untersuchung von Eastman
und Jansen wurden die ersten zehn Treffer jeder Suchanfrage ausgewählt.
Es kann angenommen werden, dass schlicht genug relevante Treffer vorhanden waren,
um die Top 10 damit „aufzufüllen", auch wenn die Operatoren
weggelassen wurden.
Bei der Durchsicht der von Eastman u. Jansen verwendeten Suchanfragen fällt
auf, dass insbesondere den mit OR verknüpften Anfragen oft eine gegenteilige
Intention unterstellt werden kann. Eine Anfrage nach „microsoft OR office
OR 2000" sollte wohl eher mit AND verknüpft sein. Aus diesem Grund
verändert sich das durchschnittliche Ergebnis bei Weglassen der Operatoren
auch nicht zum Negativen.
Dass Verknüpfungen mit AND nicht besser abschneiden als solche ohne den
Operator, ist auf die Standardeinstellung der Suchmaschinen zurückzuführen,
die mehrere Begriffe in der Regel automatisch durch AND verknüpfen. Ähnliches
gilt für den MUST APPEAR (+) Operator: Die meisten Suchmaschinen suchen
exakt die eingegebene Wortform (und nur diese), so dass sich das Plus-Zeichen
nur bei der Verwendung von Stoppworten für deren Berücksichtigung
auswirkt.
Die seltene Anwendung von Operatoren und erweiterten Suchfunktionen ist auf
die schiere Menge der Suchanfragen zurückzuführen. Den Suchmaschinen
gelingt es, auch undifferenzierte Suchanfragen oft mit hoher Qualität zu
beantworten. Durch die Festlegung eines Standardoperators (in der Regel AND)
zur Verknüpfung mehrerer eingegebener Suchbegriffe wird dem Nutzer in den
meisten Fällen die eigene Kombinationsleistung erspart. Bei einer rein
mengenmäßigen Betrachtung der Suchanfragen und dem Anteil der Suchanfragen
mit Operatoren (wie in Silverstein et al. 1999, Spink u. Jansen 2004) und dem
Schluss daraus, diese nur noch eingeschränkt anzubieten, wird allerdings
vergessen, dass umfangreiche Abfragesprachen für einige Suchanfragen essentiell
sind. Soll mit den Suchmaschinen eine Recherche auf hohem Niveau möglich
sein, sind auch komplexe Abfragesprachen anzubieten. Wünschenswert (und
deren Verwendung sicher förderlich) wäre die Angleichung der Kommandos
zwischen verschiedenen Suchmaschinen, so dass diese vom Nutzer nur einmal erlernt
werden müssten.