Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 2.4 Abfragesprachen
< 2.3 Aufbau algorithmischer Suchmaschinen  |  Inhaltsverzeichnis  |  2.5 Arten von Suchanfragen >
2.4 Abfragesprachen

Abfragesprachen


Mitentscheidend für ein erfolgreiches Retrieval ist die Möglichkeit, exakte Suchanfragen zu formulieren. Im Bereich der klassischen Datenbanken haben sich im Lauf der Jahre komplexe Abfragesprachen entwickelt, die von den frühen Suchmaschinen nachgebildet wurden. Hier ist vor allem die Suchmaschine AltaVista zu nennen, die sich an professionellen Ansprüchen orientierte und bis zu ihrer Umstellung auf die Yahoo-Datenbank im Jahr 2004 die umfangreichsten Suchmöglichkeiten bot.
Neuere Suchmaschinen wie etwa Google (gestartet 1998) legen weniger Wert auf erweiterte Suchfunktionen. Dies ist wohl insbesondere auf die recht seltene Nutzung spezieller Funktionen zurückzuführen, so dass in diesem Bereich nur wenig Bedarf gesehen wird.
Tabellarische Vergleiche der Abfragesprachen wichtiger Suchmaschinen bieten unter anderem Hock (2001), Ojala (2002), Hock (2004), Lewandowski (2004a) und Notess (2004b). Lewandowski (2004a) bietet eine Diskussion der Abfragesprachen der wichtigsten Suchmaschinen. Es wird darauf hingewiesen, dass Suchmaschinen die aus der „Datenbank-Welt" bekannten Standardfunktionen nicht umgesetzt haben, dafür aber viele web-spezifische Kommandos bieten. Aus der Untersuchung lässt sich folgern, dass Suchmaschinen zunehmend eigene Abfragemöglichkeiten bieten, die auf die Besonderheiten des Web Information Retrieval zugeschnitten sind, während im Information Retrieval bewährte Funktionen vernachlässigt werden.
Die zweite Auffälligkeit besteht in der Vielfalt der Kommandosprachen. Wie im Datenbank-Umfeld auch hat jede Suchmaschine ihre eigene Syntax, die sich bei anderen Suchmaschinen nicht anwenden lässt. Während von professionellen Nutzern erwartet werden kann, sich in unterschiedliche Abfragesprachen einzuarbeiten, ist im Suchmaschinen-Bereich hierin ein besonderes Problem zu sehen. Zu einem Teil lässt sich damit sicher auch der hohe Anteil der falsch gestellten Suchanfragen in Suchmaschinen erklären (vgl. Jansen, Spink u. Saracevic 2000).

Tabelle 2.1. Gebräuchliche Retrieval-Funktionen in professionellen Datenbanken und ihre (mögliche) Anwendung bei Suchmaschinen

Funktion in professionellen Datenbanken Anwendung in Suchmaschinen
Boolesche Operatoren ja, oft keine vollständige Unterstützung
Phrasensuche ja
Exaktes Matching ja; Standard
Feldsuche eingeschränkt
Klammern (nesting) nicht in allen Suchmaschinen
Suche speichern nein
Suchhistorie nein
Trunkierung in keiner der großen Suchmaschinen
Platzhalter in keiner der großen Suchmaschinen
Reihenfolge der Operatorenverarbeitung erfolgt nach klaren Regeln teilweise
Abstandsoperatoren in keiner der großen Suchmaschinen
Bereichssuche bei numerischen Angaben eingeschränkt; bei Datumseinschränkung
Einsatz eines Thesaurus o.ä. in der Suche nein
Thematische Suche eingeschränkt; Zugriff über Verzeichnis
Stemming eingeschränkt; wenn vorhanden, dann in der Regel nur für die englische Sprache

Dass Suchmaschinen auf im Information Retrieval bewährte Funktionen verzichten, lässt sich auch anhand einer Untersuchung über die bei professionellen Datenbanken angebotenen Suchfunktionen verdeutlichen. Othman u. Halim (2004) unterteilen die Retrieval-Funktionen der von ihnen untersuchten 25 Datenbank-Anbieter in zwei Kategorien: gebräuchliche (common) und vereinzelt vorkommende (unique). Gebräuchlich ist eine Funktion dann, wenn mindestens fünf der untersuchten Datenbanken diese Funktion anbieten; unique ist sie, wenn sie bei weniger als fünf der untersuchten Datenbanken vorhanden ist. Vor allem die Liste der gebräuchlichen Funktionen kann als Orientierung für Funktionen und Operatoren bei Web-Suchmaschinen dienen. Die gebräuchlichsten Funktionen der Datenbanken sind in Tabelle 2.1 mit ihren Anwendungen im Suchmaschinen-Umfeld dargestellt.
Deutlich wird, dass viele der bei Datenbanken selbstverständlichen Funktionen bei den gängigen Suchmaschinen nicht vorhanden oder nur unzureichend implementiert sind. Während sich frühe Suchmaschinen wie AltaVista noch an den Retrieval-Funktionen der professionellen Datenbanken orientierten, bieten neuere Suchmaschinen in der Regel weniger Möglichkeiten. Für eine professionelle Recherche sind die gebotenen Möglichkeiten nicht ausreichend.
Eine weitere wichtige Frage ist die nach der Nützlichkeit bzw. Funktionstüchtigkeit der angebotenen Operatoren, speziell in einem Umfeld, in dem nicht mit einem ausgefeilten Umgang mit diesen gerechnet werden kann.
Eastman und Jansen (2003) gehen der Frage nach, inwieweit Operatoren bei der Suche im Web überhaupt nützlich sind. Dafür ermitteln sie aus einem query log der Suchmaschine Excite jeweils 25 Anfragen, die den Operator AND, OR, MUST APPEAR (+) bzw. eine Phrasensuche enthalten. Die Anfragen werden jeweils mit und ohne Operator an die drei Suchmaschinen MSN, AOL und Google gestellt. Dabei kann keine durchgängige Verbesserung der Suchergebnisse durch den Einsatz von Operatoren festgestellt werden.
Dieses auf den ersten Blick erstaunliche Ergebnis lässt sich wohl aus dem Umstand erklären, dass Suchanfragen an Web-Suchmaschinen in der Regel sehr große Treffermengen ergeben, also in der Regel auch eine relativ große Menge an relevanten Treffern vorhanden ist. In der Untersuchung von Eastman und Jansen wurden die ersten zehn Treffer jeder Suchanfrage ausgewählt. Es kann angenommen werden, dass schlicht genug relevante Treffer vorhanden waren, um die Top 10 damit „aufzufüllen", auch wenn die Operatoren weggelassen wurden.
Bei der Durchsicht der von Eastman u. Jansen verwendeten Suchanfragen fällt auf, dass insbesondere den mit OR verknüpften Anfragen oft eine gegenteilige Intention unterstellt werden kann. Eine Anfrage nach „microsoft OR office OR 2000" sollte wohl eher mit AND verknüpft sein. Aus diesem Grund verändert sich das durchschnittliche Ergebnis bei Weglassen der Operatoren auch nicht zum Negativen.
Dass Verknüpfungen mit AND nicht besser abschneiden als solche ohne den Operator, ist auf die Standardeinstellung der Suchmaschinen zurückzuführen, die mehrere Begriffe in der Regel automatisch durch AND verknüpfen. Ähnliches gilt für den MUST APPEAR (+) Operator: Die meisten Suchmaschinen suchen exakt die eingegebene Wortform (und nur diese), so dass sich das Plus-Zeichen nur bei der Verwendung von Stoppworten für deren Berücksichtigung auswirkt.
Die seltene Anwendung von Operatoren und erweiterten Suchfunktionen ist auf die schiere Menge der Suchanfragen zurückzuführen. Den Suchmaschinen gelingt es, auch undifferenzierte Suchanfragen oft mit hoher Qualität zu beantworten. Durch die Festlegung eines Standardoperators (in der Regel AND) zur Verknüpfung mehrerer eingegebener Suchbegriffe wird dem Nutzer in den meisten Fällen die eigene Kombinationsleistung erspart. Bei einer rein mengenmäßigen Betrachtung der Suchanfragen und dem Anteil der Suchanfragen mit Operatoren (wie in Silverstein et al. 1999, Spink u. Jansen 2004) und dem Schluss daraus, diese nur noch eingeschränkt anzubieten, wird allerdings vergessen, dass umfangreiche Abfragesprachen für einige Suchanfragen essentiell sind. Soll mit den Suchmaschinen eine Recherche auf hohem Niveau möglich sein, sind auch komplexe Abfragesprachen anzubieten. Wünschenswert (und deren Verwendung sicher förderlich) wäre die Angleichung der Kommandos zwischen verschiedenen Suchmaschinen, so dass diese vom Nutzer nur einmal erlernt werden müssten.

< 2.3 Aufbau algorithmischer Suchmaschinen  |  Inhaltsverzeichnis  |  2.5 Arten von Suchanfragen >