Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 10.2 Vorschläge zur Erweiterung und Einschränkung der Suchanfrage
< 10.1 Relevance Feedback  |  Inhaltsverzeichnis  |  10.3 Klassifikation und Thesaurus >
10.2 Vorschläge zur Erweiterung und Einschränkung der Suchanfrage

Vorschläge zur Erweiterung und Einschränkung der Suchanfrage

Die in diesem Abschnitt beschriebenen Verfahren zur Erweiterung bzw. Einschränkung von Suchanfragen kommen dem Nutzerverhalten eher entgegen als die komplexeren Verfahren des Relevance Feedback. Sie schlagen dem Nutzer Suchbegriffe vor, die er entweder zu seiner Anfrage hinzunehmen oder in einer neuen Suchanfrage verwenden kann.
Solche Vorschläge werden mittlerweile von einigen Suchmaschinen gemacht. Größtenteils sind die hierfür verwendeten Verfahren nicht dokumentiert, so dass sie hier nicht im Detail beschrieben werden können. Unterschiede zeigen sich jedoch in den gelieferten Ergebnissen. Abb. 10.4 zeigt die Vorschläge für die Suchanfrage „cars“ bei All the Web. Hier werden dem Nutzer Zwei- und Drei-Wort-Phrasen, die den ursprünglichen Suchausdruck enthalten, vorgeschlagen.
Bei der Suchmaschine Teoma werden die Vorschläge auch als Phrasen generiert, allerdings werden hier auch mit dem Suchbegriff häufig zusammen vorkommende Begriffe berücksichtigt (s. Abb. 10.5). So werden für das Beispiel „cars“ neben den Phrasen auch weitere einzelne Begriffe vorgeschlagen („Lamborghini“, „BMW“) sowie Phrasen, die den ursprünglichen Suchbegriff nicht enthalten („Official Site“).


Abb. 10.4. Verfeinerungsvorschläge bei All the Web



Abb. 10.5. Verfeinerungsvorschläge bei Teoma

Abb. 10.6. Modifikationsvorschläge bei AltaVista Prisma, erster Schritt (Anick 2003, 89)

Abb. 10.7. Modifikationsvorschläge bei AltaVista Prisma, zweiter Schritt (Anick 2003, 89)


Anick (2003) untersucht die Nutzung von AltaVista Prisma, einem weiteren System, das automatisch Vorschläge zur Modifikation von Suchanfragen macht. Das System geht davon aus, dass Verfahren des Relevance Feedback zwar die Präzision der Trefferlisten wesentlich verbessern können, diese Verfahren jedoch von den Nutzern nur schlecht angenommen werden, da sie als zu umständlich empfunden werden oder schlicht nicht verstanden werden. AltaVista Prisma zeigt auf Basis einer Auswertung der im normalen Rankingverfahren als am bedeutendsten ausgegebenen Dokumente in diesen häufig auftretende Begriffe bzw. Phrasen zur Modifikation der Suchanfrage an. Dabei werden bevorzugt Phrasen angezeigt, die den bereits in der ursprünglichen Suchanfrage vorkommenden Begriff enthalten. Danach folgen Phrasen, die den Suchbegriff nicht enthalten und schließlich einzelne Begriffe. Abbildung 10.6 zeigt die Vorschläge nach Eingabe einer einfachen Suchanfrage, Abbildung weitere Vorschläge nach der ersten Modifikation. Das System erlaubt sowohl die Einschränkung der Suchanfrage durch Anklicken eines Modifikationsvorschlags (wobei dieser Vorschlag mit AND mit der ursprünglichen Anfrage verbunden wird) als auch die Generierung einer neuen Suchanfrage (wenn auf einen neben einem Vorschlag stehenden Pfeil geklickt wird).
Die Untersuchung der Nutzung des Systems erfolgt auf Basis einer Logfile-Untersuchung, wobei zwei Vergleichsgruppen gebildet werden: Die erste Gruppe bekommt die Verfeinerungsmöglichkeiten angezeigt, die zweite erhält die Ergebnislisten ohne Verfeinerungsmöglichkeit. In der Untersuchung kann keine gesteigerte Effektivität durch den Einsatz von Prisma festgestellt werden; diese könnte jedoch auch auf die Nutzer zurückzuführen sein, die sich bekanntermaßen leicht mit Suchergebnissen zufrieden geben. Im Kontext der vorliegenden Arbeit besonders interessant sind allerdings die verwendeten Arten der Modifikation. Anick teilt diese in elf Kategorien (Tabelle 10.1).
Bei der Untersuchung des Klickverhaltens der Nutzer zeigt sich, dass 68 Prozent der verwendeten Modifikationen sich auf nur drei der angegebenen Formen beschränken: Oberbegriff, Modifikation und Kontexterweiterung. Diese Befunde decken sich mit denen vorangegangener Untersuchungen (Anick 2003, 93) und geben die Richtung vor, in die weitere Arbeiten auf dem Feld der Anfragemodifikation gehen sollten.
Schließlich stellt sich die Frage, wie die von den Nutzern angeklickten Begriffe mit der ursprünglichen Suchanfrage verbunden werden sollen. Im Experiment mit AltaVista Prisma kann nur schlecht zwischen den beiden Formen Übernahme der Begriffe zusätzlich zur ursprünglichen Anfrage und Verwendung des Begriffsvorschlags zur Erstellung einer neuen Suchanfrage unterschieden werden, da die beiden Formen unterschiedlich prominent platziert sind. Unterschiede ergeben sich aber bei der Verbindung der ursprünglichen Suchanfrage mit einem Vorschlag: Während es in einigen Fällen sinnvoll ist, beide mit AND zu verbinden, gibt es auch Fälle, in denen eine Verbindung mit ODER sinnvoll ist. Da die Begriffe für die Modifikationsvorschläge allerdings auf rein statistischer Basis gewonnen werden, kann zwischen diesen Formen nicht unterschieden werden.
Verfahren der Anfragemodifikation sind vielversprechend vor allem für die Einschränkung von Suchanfragen und bieten für den Nutzer eine einfache Möglichkeit, zur Befriedigung seines Informationsbedürfnisses zu gelangen. Dass die Effektivität des Verfahrens in der Untersuchung von Anick nicht nachgewiesen werden konnte, mag daran liegen, dass Modifikationen nicht bei allen Anfragen nötig sind. Bei zu allgemein gestellten Anfragen, die viele Treffer produzieren, können sie allerdings sehr hilfreich sein. Sie werden inzwischen auch bei einigen anderen Suchmaschinen eingesetzt und dürften sich in Zukunft noch weiter verbreiten.

Tabelle 10.1. Kategorien der Anfragemodifikation (nach Anick 2003, 93)

Kategorie Beschreibung Beispiel
Head (Oberbegriff) Phrase, die der Originalanfrage einen Oberbegriff hinzufügt triassic / traissic period
Modifier (Modifizierer) Hinzufügung einer sprachlich unterschiedlichen Modifikation buckets wholesale / plastic buckets
Elaboration (Kontexterweiterung) Erweiterung des Kontexts durch Hinzufügung von im Kontext stehender Phrasen Jackson Pollack / museum of modern art
Location (Ortsbezug) Phrase, die einen Ortsbezug ergänzt vietnam / ho chi minh city
Alternative (Synonymer Ausdruck) Synonymer oder ähnlicher Ausdruck wird ergänzt job listings / job postings
Hyponym (Unterbegriff) Ergänzung um einen Unterbegriff, ohne dass dieser in der ursprünglichen Anfrage enthalten ist. birds of prey / falcons
Morphological variant (morphologische Variante) Morphologisch unterschiedliche Form der ursprünglichen Anfrage, z.B. Pluralform norse myth / norse myths
Syntactic variant (syntaktische Variante) Umstellung der Begriffe aus der ursprünglichen Suchanfrage map of sudan / sudan map
Acronym (Akronym) Ausflösung bzw. Ergänzung eines Akronyms usa maps / united states of America
Spelling (Schreibweise)

Rechtschreibkorrektur oder alternative Schreibweise

stationary catalog / stationery
Change (Veränderung) Angabe eines neuen Themas basierend auf der Suchanfrage skateboards / mountainboards

Khan und Khor (2004) stellen einen Algorithmus vor, der "Key Phrases" (wichtige Ausdrücke) aus Dokumenten extrahiert. Mit diesen Ausdrücken wird die ursprüngliche Suchanfrage des Nutzers erweitert, wobei davon ausgegangen wird, dass die Suchanfragen der Nutzer in der Regel zu kurz und ungenau sind (siehe Kapitel 2.6). Dabei erfolgt keine einfache disjunktive Verknüpfung dieser Suchargumente, sondern jede Anfrage wird einzeln gestellt und die Ergebnisse werden neu gerankt. Der Vorteil dieses Verfahrens liegt darin, dass damit diejenigen Dokumente auf hohen Rangplätzen auftauchen, die zu vielen Aspekten der ursprünglichen Suchanfrage passen.
Khan und Khor sehen diesen Ansatz als Möglichkeit, Suchanfragen automatisch zu erweitern und dem Nutzer so die Formulierung genauer Suchanfragen zu ersparen. In ihrem eigenen Experiment können sie jedoch einen solchen Nutzen nicht durchgehend nachweisen. Im Gegenteil führt das Verfahren zu durchschnittlich niedrigeren Relevanzwerten im Vergleich zur ursprünglichen Suchanfrage (Khan, Khor 2004, 37-39); allerdings gibt es durchaus extrahierte Key Phrases, die den Relevanzwert signifikant erhöhen. Daraus lässt sich schließen, dass das Verfahren nicht für die automatische Reformulierung von Suchanfragen geeignet ist, wohl aber dafür, dem Nutzer eine Auswahl zu präsentieren, wie er seine Anfrage erweitern bzw. verändern könnte.
Neben der Generierung von Phrasen, die den Suchbegriff enthalten und weiteren zur ursprünglichen Suchanfrage passenden Begriffen wäre speziell im Deutschen auch die Ermittlung von Komposita sinnvoll. Durch die Linkstrunkierung ließen sich aus Begriffen Komposita ermitteln, die zur Einschränkung der Suchanfrage verwendet werden könnten. So würden beispielsweise bei einer Anfrage nach „Schule“ nicht nur die dieses Wort enthaltenden Phrasen (wie „weiterführende Schule“) gezeigt werden können, sondern auch Komposita wie „Grundschule“, „Hauptschule“ und „Realschule“. Eine solche Kompositaermittlung wird bisher von keiner der bekannten Suchmaschinen eingesetzt.

< 10.1 Relevance Feedback  |  Inhaltsverzeichnis  |  10.3 Klassifikation und Thesaurus >