
Prinzipiell lassen sich zwei Wege einschlagen, wenn die Vergleichbarkeit von
Inhalten durch Repräsentationen verbessert werden soll. Diese sind nach
Ferber (2003, 40)
• Versuche, die natürliche Sprache so zu repräsentieren und
zu verarbeiten, dass inhaltliche Ähnlichkeiten erkennbar werden.
• Versuche, die zulässigen Mittel zur inhaltlichen Beschreibung so
einzuschränken, dass sie Ähnlichkeiten abbilden.
Bei der Suche in Information-Retrieval-Systemen, die keine informationslinguistischen
Verfahren anwenden, entstehen zahlreiche Probleme. So muss das Vokabular, welches
der Autor bzw. in Referenzdatenbanken der Indexer verwendet hat, nicht mit dem
des Rechercheurs übereinstimmen. Die Lösung für dieses Problem
kann einerseits die Anwendung eines kontrollierten Vokabulars sein. Hier würden
die zulässigen Mittel der inhaltlichen Beschreibung entsprechend beschränkt
werden. Dieser Ansatz wurde jedoch bereits in einem vorangegangenen Kapitel
(5.2) für die Erschließung von Dokumenten durch Suchmaschinen verworfen.
Das zentrale Anliegen linguistischer Verfahren im Information Retrieval „is
the translation of potentially ambiguous natural language queries and documents
into unambiguous internal representations on which matching and retrieval can
take place" (Liddy 1998, 15). Liddy sieht als ein ideales IR-System ein
solches an, das Anfragen so entgegennehmen kann, wie dies ein Auskunftsbibliothekar
tun würde. Es würde die Anfrage in ihrer Komplexität verstehen.
Hinzuzufügen ist allerdings, dass die Orientierung am Bibliothekar (bzw.
dem, so Kuhlen (1999) „personalen Informationsassistenten") die Dialogfähigkeit
des Systems voraussetzt. Hier klingt schon an, dass es notwendig werden wird,
sich von der Gewohnheit der - mehr oder minder guten - Beantwortung der Suchanfrage
in einem Schritt zu verabschieden.
Die linguistischen Probleme, welche im Information Retrieval auftreten, entstehen
nach Liddy (1998, 14f.) auf folgenden Ebenen: Worterkennung, Morphologie, Lexikon,
Syntax, Semantik, Diskursanalyse und Pragmatik.
Diese Ebenen werden im Folgenden kurz erläutert. Dabei werden die grundsätzlichen
Anwendungsmöglichkeiten erwähnt, wobei die für die gegenwärtige
Suchmaschinen-Entwicklung als besonders bedeutend anzusehenden Anwendungen herausgegriffen
und in den folgenden Abschnitten ausführlicher diskutiert werden.
Worterkennung. Fragen der Worterkennung ergeben sich bei Information-Retrieval-Systemen
auf der Ebene der gesprochenen Sprache, der geschriebenen Sprache sowie auf
der Ebene der bereits digital vorliegenden Dokumente. Die beiden ersten Fälle
sind im Kontext dieser Arbeit zu vernachlässigen, im dritten Fall handelt
es sich um die Wortidentifikation innerhalb von Texten. Dabei werden Wörter
durch Trennzeichen wie Leerstellen und Satzzeichen erkennbar.
Alternativ zur Worterkennung können auf kleinerer Ebene auch Zeichenketten
erfasst werden. Dabei werden Texte in sog. N-Gramme, zum Beispiel in alle Elemente
des Texts zu jeweils fünf Zeichen, zerlegt. Der Text wird so in Bestandteile
zerlegt, die zwar teilweise unsinnig sind –andererseits bilden viele der
gefundenen Teilwörter aber sinnvolle weitere Sucheinstiege.
Morphologie. Auf der Wortebene werden unterschiedliche Flexionsformen
zusammengefasst sowie Prä- und Suffixe entfernt. Die Wörter werden
so für das Ranking aufbereitet, unterschiedliche Retrievalergebnisse für
den gleichen Suchbegriff beispielsweise in seiner Singular- und seiner Pluralform
werden vermieden. Die im Information Retrieval bedeutendste morphologische Anwendung,
das Stemming, wird im folgenden Kapitel ausführlich behandelt.
Lexikon. Auf der Ebene des Lexikons werden Begriffe durch Lemmatisierung
auf ihre lexikalische Grundform zurückgeführt. Allerdings wird die
Lemmatisierung im Information Retrieval meist mit dem Stemming zusammengefasst,
wobei unter diesen Begriff alle Reduzierungen von Wörtern auf eine Grund-
oder Stammform fallen. Eine weitere wichtige Anwendung auf lexikalischer Ebene
ist das Finden von Synonymen sowie Ober- und Unterbegriffen, um diese eventuell
in die Suchanfrage mit einzubinden (s. Abschnitt 7.3.3).
Syntax. Hierbei handelt es sich um die Analyse der grammatischen
Struktur eines Satzes. Für den Kontext des Information Retrieval ist die
Phrasenerkennung innerhalb von Sätzen von besonderer Bedeutung (Liddy 1998,
16). Auch diese wird in einem eigenen Abschnitt (7.3.2) behandelt.
Semantik. Auf der Satzebene wird die Bedeutung des Satzes geklärt.
Dabei sollen mögliche Mehrdeutigkeiten erkannt werden.
Diskursanalyse. Hier soll die Struktur und Bedeutung über
Satzgrenzen hinweg erkannt werden, so dass erkannt werden kann, um was für
eine Art von Aussage es sich bei einem Textteil handelt, also zum Beispiel um
eine Schlussfolgerung, eine Meinung, eine Vermutung oder ein Faktum (Liddy 1998,16).
Außerdem fällt unter die Diskursanalyse die Erkennung von Anaphern,
also beispielsweise die Verwendung von Pronomen, die sich auf einen bereits
verwendeten Begriff beziehen. Solche Anaphern könnten ebenso wie die Begriffe
selbst, auf die sie sich beziehen, als Vorkommen des entsprechenden Begriffs
gezählt werden und entsprechend in das Ranking eingehen.
Pragmatik. Hier soll der Zweck des Texts erkannt werden und
der Text so entsprechend in einen Kontext eingeordnet werden. Denkbar ist etwa
die Zuteilung eines Themenbereichs zu einem Text oder die automatische Einordnung
in ein Klassifikationssystem. Ein Beispiel für eine Anwendung ist die Suchmaschine
Seekport, welche versucht, jedes Dokument einem von acht vorgegebenen Themenbereichen
zuzuordnen.
Betrachtet man die bisherigen Anwendungen linguistischer Verfahren im Information
Retrieval, so fällt auf, dass die Verfahren auf niedrigerer Ebene (Wortebene,
Lexikon) eher Anwendung finden als auf höheren Ebenen (Liddy 1998, 16).
Im Bereich der Suchmaschinen ist oft nicht ersichtlich, ob bzw. welche Verfahren
Anwendung finden. Auch hier halten sich die Suchmaschinen-Betreiber bedeckt,
um der Manipulation ihrer Ergebnisse und dem Interesse der Konkurrenz entgegenzuwirken.
Unter Stemming versteht man die Reduzierung von Wörtern auf ihre Grund-
bzw. Stammform. In linguistischer Sicht ist weiter je nach eingesetzter Methode
zwischen Stemming und Lemmatisierung zu unterscheiden; im informationswissenschaftlichen
Kontext können beide Arten der Wortformveränderung unter Stemming
zusammengefasst werden. Stemming ist die im informationswissenschaftlichen Kontext
bedeutendste Anwendung auf morphologischer Ebene.
Wenn ein Wort in einem Dokument in unterschiedlichen Formen vorkommt, so würde
ohne Stemming jede Form einzeln gezählt und in das Ranking eingehen; durch
die Reduzierung auf eine Grundform werden alle Formen eines Wort gemeinsam gewertet.
Außerdem sollen bei einem entsprechenden Abgleich mit den ebenfalls auf
die Grundform reduzierten Suchbegriffen mehr Dokumente gefunden werden.
In der Regel besteht bei der Suche im Web allerdings nicht das Problem, dass
zu wenige Dokumente gefunden werden; eher ist das Gegenteil der Fall. Allerdings
können bei einer fehlenden Grundformreduktion eigentlich relevante Dokumente
nicht gefunden werden, wenn sie den Suchbegriff in einer anderen Flexionsform
enthalten.
Das Stemming kann nach verschiedenen Ansätzen erfolgen (vgl. Frakes 1992);
von Bedeutung sind insbesondere affix removal (Entfernung von Prä- und
Suffixen), table lookup (wörterbuchbasierter Ansatz) und die N-Gram-Methode.
Verfahren, die Suffixe entfernen, wurden vor allem für die englische Sprache
entwickelt (zu nennen ist hier vor allem Porter 1980, aber auch Kuhlen 1977).
Ihre Aufgabe ist es, Pluralformen auf die jeweilige Grundform des Worts zu reduzieren.
Dies geschieht mittels Regeln, die die regelmäßige Pluralbildung
erkennen und die Wörter entsprechend bearbeiten. Alle Varianten des Worts
gelten dann als ein Begriff und gehen entsprechend in das Ranking ein.
Für die deutsche Sprache eignen sich solche regelbasierten Verfahren aufgrund
der komplexeren Wortbildungen allerdings nicht. Hier sind allein wörterbuchbasierte
Verfahren erfolgreich, da sie die zahlreichen Ausnahmen berücksichtigen
können. Solche Verfahren speichern eine Liste aller Terme mit dem jeweils
zugehörigen Stem. Sie arbeiten zuverlässig, problematisch ist allerdings
die Pflege des Wörterbuchs. Neu auftretende Wörter müssen mit
ihren jeweiligen Wortformen eingepflegt werden, was in der Regel nur manuell
geleistet werden kann.
Die bereits erwähnte N-Gram-Methode bietet den Vorteil, dass die Wörter
automatisch in kleinere Bestandteile zerlegt werden und auch Komposita in ihre
Bestandteile zerlegt werden können. Allerdings werden bei dieser automatischen
Methode auch N-Gramme ermittelt, die auf einen Begriff verweisen, der im Ausgangswort
nur durch seine Buchstabenfolge, nicht jedoch vom Sinn her enthalten ist. Stock
(2000b, 150f.) gibt als Beispiel die Zerlegung des Begriffs „Widerspruchsfreiheitsbeweis"
in Pentagramme. Während der Begriff durchaus korrekt zerlegt wird, entsteht
allerdings auch das Pentagram „Reihe", welches mit dem Inhalt des
Ursprungsbegriffs semantisch nichts zu tun hat.
In der Regel werden in Information-Retrieval-Systemen regelbasierte oder wörterbuchbasierte
Verfahren eingesetzt. Die unterschiedliche Anwendbarkeit dieser Verfahren für
unterschiedliche Sprachen verdeutlicht das Problem, welches sich für die
Betreiber internationaler Suchmaschinen ergibt. Für jede Sprache muß
ein eigenes Verfahren angewendet werden, was den Entwicklungsaufwand und die
-kosten entsprechend erhöht. Es ist davon auszugehen - und wird durch die
bestehenden Anwendungen bestätigt -, dass Stemming-Verfahren nur für
einige populäre Sprachen angewendet werden. An erster Stelle ist hier das
Englische zu nennen; nicht nur, weil die meisten Suchmaschinen im englischen
Sprachraum entwickelt werden, sondern auch, weil sich für diese Sprache
Stemming-Algorithmen relativ leicht implementieren lassen.
Unabhängig von der gewählten Methode des Stemmings stellt sich die
Frage nach der Anwendbarkeit bzw. dem Nutzen. Hinsichtlich der Frage, ob sich
durch den Einsatz von Stemming-Verfahren tatsächlich die Anzahl der gefundenen
Dokumente erhöht, gibt es unterschiedliche Ansichten. Ferber (2003, 41)
sieht die Ergebnisse der vorliegenden Studien als uneinheitlich an; eine klare
Aussage scheint ihm nicht möglich. Wie bereits erwähnt, erscheint
dieser Punkt jedoch in Bezug auf Suchmaschinen auch nur eine sekundäre
Bedeutung zu haben. Es ist zu fragen, ob bei der Recherche in Suchmaschinen
(zumindest im Kontext der Bedürfnisse eines Laiennutzers) überhaupt
noch die im klassischen Information Retrieval angestrebte Vollständigkeit
als Ziel angesehen werden sollte. Es erscheint einleuchtend, dass für die
meisten Themen eine solch große Dokumentenmenge vorhanden ist, dass für
alle Wortformen eine befriedigend hohe Anzahl an relevanten Dokumenten gefunden
wird, auch wenn dies unter Umständen nicht dieselben Dokumente sind. Ein
empirischer Beleg für diese These steht allerdings bislang noch aus.
Braschler und Ripplinger (2004) untersuchen unterschiedliche Verfahren des Stemmings
und der Zerlegung von Mehrwortbegriffen auf ihre Tauglichkeit für deutschsprachige
Wörter. Sie kommen zu dem Schluss, dass die Zerlegung von Mehrwortbegriffen
zur Steigerung der Precision offensichtlich wichtiger ist als das Stemming.
Allerdings schneiden unterschiedliche Verfahren der Zerlegung von Mehrwortbegriffen
ähnlich gut ab, so dass die Autoren keine Empfehlung für die Benutzung
eines speziellen Verfahrens geben können. Insgesamt am schlechtesten schneidet
in der Untersuchung das N-Gram-Verfahren ab, welches als sprach¬unabhängiges
Verfahren mit aufgenommen wurde. Als Ergebnis ist also festzuhalten, dass -
wie hier am Beispiel des Deutschen gezeigt - Stemming-Verfahren und Verfahren
der Zerlegung von Mehrwortbegriffen für jede Sprache einzeln entwickelt
werden müssen. Bei der grundsätzlich internationalen Orientierung
der meisten Suchmaschinen bedeutet dies einen hohen Aufwand, der nur für
die „populärsten" Sprachen zu leisten ist. Informationslinguistische
Verfahren auf morphologischer Ebene werden von den großen Suchmaschinen
eingesetzt, über die genauen Verfahren liegen jedoch keine Veröffentlichungen
vor. Dies geht so weit, dass zwar bekannt ist, dass die Firma Google für
diesen Zweck Software der Firma Canoo nutzt, wie und in welchem Maß dies
geschieht, ist jedoch selbst dem Canoo-Geschäftsführer unbekannt:
„Wie Google unsere Software genau einsetzt, wissen wir nicht. [...] Sehr
wahrscheinlich nutzt Google unsere Software schon während des Indexierungsprozesses,
vielleicht auch während der Abfrage durch den Nutzer. Wir wissen es nicht"
(Schmid 2003). Dieses Zitat soll verdeutlichen, wie problematisch die Untersuchung
des Einsatzes (nicht nur) der linguistischen Verfahren in kommerziellen Suchmaschinen
ist. Oft kann eben nur festgestellt werden, dass bestimmte Verfahren eingesetzt
werden, jedoch nicht, wie dies geschieht.
Gänzlich gegen Stemming-Verfahren im Web-Kontext wendet sich Chakrabarti
(2003, 49). Er sieht das Problem insbesondere in der hohen Anzahl von Abkürzungen
und Parallelbezeichnungen, wobei hier auch Akronyme mit einbezogen werden, die
natürlich nicht gestemmt werden dürfen. Bei der Anwendung von Stemming-Verfahren
im Web dürfte daher die Fehlerquote erheblich höher liegen als bei
der Anwendung auf einen traditionellen Korpus. Soll Stemming angewendet werden,
so sollte dem Nutzer auf jeden Fall die Möglichkeit gegeben werden, diese
Funktion selbst an- bzw. abzuschalten.
Die (automatische) Phrasenerkennung wird im klassischen Information Retrieval
dazu verwendet, potentielle Deskriptoren, welche aus mehreren Wörtern bestehen,
zu gewinnen. Da Web-Suchmaschinen sich bei der Erschließung auf die Volltexte
beschränken und die Gewinnung gesonderter Deskriptoren außer acht
lassen, stellt sich die Frage nach dem Sinn der Phrasenerkennung durch Web-IR-Systeme.
Als weiteres Argument gegen die Phrasenerkennung kann angeführt werden,
dass alle Suchmaschinen im Ranking Dokumente bevorzugen, in denen die eingegebenen
Suchbegriffe möglichst nahe beieinander stehen, so dass Übereinstimmungen
von Phrasen in Anfrage und Dokument bevorzugt werden. Allerdings gehen verschiedene
Suchmaschinen unterschiedlich mit der Nähe der Suchbegriffe zueinander
um; dazu kommt, dass der Abstand nur ein Kriterium unter vielen ist bei der
Bewertung innerhalb des Rankingvorgangs. Wird eine größere Anzahl
von Suchbegriffen eingegeben, ist es sinnvoll, automatisch zu ermitteln, welcher
Teil der Anfrage eine Phrase darstellt, um so die Suchanfrage automatisch zu
verbessern, ohne dem Nutzer Kenntnisse in der Suchsyntax der Suchmaschine abzuverlangen.
Die Suchmaschine All the Web bot bis zu ihrer Umstellung auf den Yahoo-Index
eine solche Funktion an.
Im Folgenden soll beispielhaft eine bei Lexis-Nexis eingesetzte Methode zur
Phrasenerkennung beschrieben werden, die prototypisch für solche Verfahren
angesehen werden kann. Diese ist weitgehend sprachunabhängig und wird im
Patent von Lu et al. beschrieben. Einsatz findet dieses Verfahren zur Deskriptorengewinnung.
Ziel ist die Identifizierung u.a. von Personen-, Firmen- und Produktnamen.
Das Verfahren identifiziert die Phrasen in vier Schritten (Lu et al., 4):
1. Satzzeichen im Text werden durch Trennzeichen ersetzt.
2. Die Wörter im Text werden mit Stoppwortlisten abgeglichen. Stoppwörter
werden durch Trennzeichen ersetzt.
3. Übrig bleiben nun sog. Textklumpen (chunks). Diese können aus einem
Wort oder aus mehreren Wörtern bestehen. Interessant sind hier aber nur
die Mehrwortausdrücke, die stets Konzepte ausdrücken. Lu et al. können
so aus einem vorliegenden Beispieltext u.a. die Ausdrücke „United
States" und „Irish Republican Army" herausfiltern, welche bei
der konventionellen Volltextinvertierung in einzelne Wörter zerlegt worden
wären.
4. Im letzten Schritt wird die Häufigkeit des Auftretens der Phrasen gezählt.
Die Häufigkeit wird einerseits für die Indexierung verwendet (bspw.
Indexierung erst bei mehrmaligem Vorkommen im Text; Lu et al. 1998, 11), kann
natürlich aber auch als Gewichtungsfaktor verwendet werden.
Das Verfahren identifiziert sechs Arten von Textklumpen:
1. Einzelwörter in Kleinschreibung (lower case single-words).
2. Mit einem Großbuchstaben beginnende Einzelwörter.
3. Namen (proper names).
4. Phrasen in Kleinschreibung (lower case phrases): mehr als ein Wort, Vorkommen
im Text häufiger als einmal.
5. Phrasen in Kleinschreibung (lower case phrases): mehr als ein Wort, Vorkommen
im Text exakt einmal.
6. Akronyme.
Der fünfte Fall wird für die Auswertung nicht weiter herangezogen.
Der Grund dürfte sein, dass hier die Fehlerwahrscheinlichkeit relativ hoch
liegt. Allerdings wird in diesem Fall untersucht, ob der entsprechende Textklumpen
Teil eines anderen, umfangreicheren Textklumpens ist (subphrase). Ist dies der
Fall, so wird er diesem zugerechnet (Lu et al. 1998, 9). Liegt kein entsprechend
umfangreicherer Textklumpen vor, so wird der einmalig vorkommende Textklumpen
in Einzelwörter zerlegt und diese werden der Einzelwort-Liste zugefügt.
Lu et al. schlagen auch die Verwendung eines Synonym-Thesaurus vor, mit dem
die Textklumpen abgeglichen werden. Allerdings weisen sie selbst auf die hohe
Fehleranfälligkeit solcher Zuordnungen hin (Lu et al. 1998, 11). Für
Suchmaschinen eignet sich die Thesaurus-Methode auf keinen Fall, da die Dokumentenkollektion
zu heterogen ist und die Konzepte dadurch erst recht nicht zuverlässig
zugeordnet werden können.
Das Verfahren besticht durch Einfachheit. Problematisch erscheint allein die
Erstellung zuverlässiger Stoppwortlisten. Diese müssen relativ umfangreich
sein, um nur tatsächlich bedeutungstragende Textklumpen zu identifizieren,
dürfen jedoch auch nicht zu umfangreich sein, da sonst zu wenige Textklumpen
gebildet werden würden und damit bedeutungstragende Elemente verloren gehen
würden.
Um nun für jeden Textklumpen festzustellen, welcher Art von Konzept er
zugehörig ist, werden unterschiedliche Verfahren eingesetzt. Die Phrasen
werden im Patent unterteilt in Firmennamen, geographische Namen, Namen von Organisationen
und Produktbezeichnungen (Lu et al. 1998, 11). Zur Erschließung werden
im Fall der Firmennamen Indikator-Ausdrücke verwendet. Endet der Textklumpen
beispielsweise mit „Ltd.", so deutet dies auf ein Unternehmen hin.
Ähnliches gilt für Organisationen: hier dient das erste oder letzte
Wort des Textklumpens als Indikator. Lexis-Nexis verfügt über umfangreiche
Listen mit solchen Indikator-Ausdrücken (Beispiele im Patent: Lu et al.
1998, 15-30).
Bei geographischen Ausdrücken und Produktnamen gibt es allerdings keine
Indikator-Begriffe; hier muss vollständig auf Wortlisten zurückgegriffen
werden. Dies macht die Anwendung auf den gesamten Web-Korpus ausgesprochen schwierig.
Praktikabel scheint der Listenabgleich eher bei den Personennamen: hier wird
eine Liste mit Vornamen hinterlegt. Das Vorkommen eines Vornamens gilt als Indikator
einer Namensangabe, der Rest des Textklumpens gilt als Nachname.
Zwar können Phrasen potentiell in allen Sprachen erkannt werden, allerdings
geschieht die Bildung von Mehrwortausdrücken in Sprachen wie dem Englischen
durch die Bildung von Phrasen („operating system"), während
in anderen Sprachen wie etwa dem Deutschen zusammengesetzte Begriffe gebildet
werden („Betriebssystem"). Hier würde sich also zusätzlich
das bereits angesprochene Problem der Zerlegung dieser Komposita ergeben. Jeder
Phrasenerkennung vorangestellt werden muss auf jeden Fall die Erkennung der
Sprache des Dokuments, um auf die entsprechenden Stoppwortlisten und die Listen
der Indikatorbegriffe zurückgreifen zu können.
Ein Verfahren zur Ermittlung von Phrasen findet auch in der Newssuche von Google
Anwendung. Wie bei den kommerziellen Suchmaschinen üblich, ist die Funktion
nicht dokumentiert, weshalb keine Aussagen über das verwendete Verfahren
möglich sind. Allerdings kann das Verfahren nicht nur aus Vor- und Nachnamen
bestehende Namen erkennen, sondern auch Phrasen wie „Borussia Dortmund"
oder „Sierra Nevada“. Diese Funktion deutet bereits auf eine weitere
sinnvolle Anwendungsmöglichkeit hin, nämlich dem Nutzer Suchanfragen
vorzuschlagen. Dies kann ein allgemeiner Vorschlag (wie im Falle der News) sein,
von noch größerer Bedeutung ist dieses Verfahren allerdings bei den
Vorschlägen zur Verbesserung der Suchanfrage anzusehen (siehe Kap. 10.2).
Bei der Recherche ergeben sich Probleme durch Suchbegriffe, zu denen Synonyme
vorhanden sind, durch Homonyme bzw. Polyseme und durch die Verwendung von Akronymen.
Weiterhin sind sich viele Nutzer bei der Wahl ihrer Suchbegriffe nicht sicher,
so dass eine Einschränkung bzw. Erweiterung der Suchanfrage durch Unter-
bzw. Oberbegriffe sinnvoll wäre.
Werden Suchbegriffe verwendet, zu denen es Synonyme gibt, werden potentiell
nicht alle relevanten Dokumente gefunden. Zwar ist es möglich, dass in
den Dokumenten mehrere Synonyme verwendet werden und so das entsprechende Dokument
für Anfragen nach allen Synonymen des Begriffs gefunden wird. Allerdings
ist dies nicht grundsätzlich anzunehmen, und andererseits entsteht hier
wieder das Problem der Wortzählung, welche für das Ranking benötigt
wird. Keine der heute eingesetzten Suchmaschinen arbeitet mit hinterlegten Synonymwörterbüchern.
Dokumente, die für einen Begriff unterschiedliche Synonyme verwenden (beispielsweise
aus sprachlichen Gründen), werden so zwar bei Suchanfragen zu den entsprechenden
Synonymen gefunden, werden im Ranking jedoch benachteiligt. Wünschenswert
wäre hier der Abgleich mit Synonymwörterbüchern; allerdings müssten
diese wiederum für jede unterstützte Sprache separat implementiert
werden, was zu einem hohen Aufwand führen würde. Bei den potentiell
großen Treffermengen der Suchmaschinen und der Unmöglichkeit für
den Nutzer, alle Treffer zu sichten, stellt sich auch die Frage, ob es überhaupt
notwendig ist, die Synonyme zu berücksichtigen oder ob nicht die Anfrage
nach jeweils einer Form in den meisten Fällen schon genügend befriedigende
Ergebnisse liefert.
Im Umfeld der Suchmaschinen erscheint der Umgang mit Homonymen als wesentlich
problematischer. Unter Homonymen werden gleichlautende Wörter verstanden,
die unterschiedliche Begriffe bezeichnen. Zum Beispiel bezeichnet das Wort Bank
sowohl ein Kreditinstitut als auch ein Sitzmöbel, das Wort Flügel
sowohl einen Körperteil eines Vogels als auch ein Musikinstrument.
Suchanfragen, die Wörter enthalten, welche homonyme Bedeutungen haben,
erhöhen die Anzahl der gefundenen Treffer und blähen die Treffermenge
durch Ballast auf. Heute eingesetzte Suchmaschinen können keine Homonyme
erkennen; allerdings bestünde einerseits die Möglichkeit, die Suchanfrage
auf Homonyme zu prüfen und dem Nutzer entsprechende Einschränkungsmöglichkeiten
durch weitere Begriffe anzubieten, andererseits bestünde die Möglichkeit,
eine Erkennung innerhalb der Dokumente durchzuführen. Letzteres wird von
manchen Suchmaschinen versucht; eine Hilfe bei der Trennung von Dokumenten mit
Homonymen bietet auch die Clusteranalyse (vgl. Kap. 10.4).
Werden in einem Dokument oder in einer Suchanfrage Akronyme verwendet, so beeinflusst
auch dies in der Regel die Bewertung der Dokumente aufgrund der Worthäufigkeiten.
So werden Akronym und ausgeschriebene Form als eigene Begriffe gezählt
und nicht zu einem Begriff zusammengefasst. Weiterhin problematisch ist, dass
Akronyme oft so gewählt werden, dass sie wiederum ein gebräuchliches
Wort ergeben, welches einfacher zu merken ist. Suchmaschinen unterscheiden dann
nicht zwischen Akronym und dem durch die gleiche Buchstabenfolge gekennzeichneten
Wort. Das Problem kann durch die Unterscheidung zwischen Groß- und Kleinschreibung
in Dokumenten und Anfragen gemildert werden. Akronyme werden in den meisten
Fällen in Großbuchstaben geschrieben; allerdings unterscheidet keine
der gebräuchlichen Suchmaschinen mehr nach Groß- und Kleinschreibung,
so dass diese Lösung wenigstens zur Zeit nicht verfügbar ist. Da jedoch
eine „echte" Akronymunterscheidung inklusive Auflösung des jeweiligen
Akronyms in die ausgeschriebene Form aufgrund der großen Zahl der im Web
vorhandenen (und teils gleichlautenden) Akronyme nur sehr schwer möglich
sein dürfte, ist wenigstens diese „Behelfslösung" anzustreben.
Bei Nutzung von Information-Retrieval-Systemen kommt es - wie bei allen anderen
Systemen, in denen Begriffe durch den Nutzer eingegeben werden - zu Schreibfehlern.
Im klassischen Information Retrieval werden solche Fehler oft dadurch erkannt,
dass keine Treffer gefunden werden. Bei der Arbeit mit Suchmaschinen verschärft
sich das Problem der Rechtschreibfehler allerdings. Hier ist auch bei den indexierten
Dokumenten anzunehmen, dass sie eine hohe Anzahl von Schreibfehlern enthalten,
da keine redaktionelle Kontrolle gesichert ist. Es kann davon ausgegangen werden,
dass der Nutzer auch in Fällen falscher Eingaben eine gewisse Anzahl von
Treffern bekommt, so dass Schreibfehler nicht so stark auffallen wie in klassischen
Information-Retrieval-Systemen. Bei den in der Laboruntersuchung von Machill
et al. (2003, 287) untersuchten Anfragen lag der Anteil der fehlerhaften Anfragen
bei 9,2 Prozent, wobei die Web-„Experten“ erstaunlicherweise deutlich
mehr fehlerhafte Anfragen abschickten als die Novizen (10,9 Prozent vs. 7,2
Prozent). Die Autoren führen dies auf Flüchtigkeitsfehler zurück.
Die Fehlerquote der Suchmaschinennutzer liegt damit etwa gleich hoch wie die
der Laiennutzer anderer Information-Retrieval-Systeme. Die Auswertung von Suchanfragen
eines elektronischen Bibliothekskatalogs ergab, dass dort zwischen acht und
zwölf Prozent aller Suchanfragen Tippfehler enthalten (Walker u. Jones
1987, zit. nach Stock 2000b, 157). Klar wird daraus, dass eine Notwendigkeit
zur fehlertoleranten Behandlung von Suchanfragen besteht.
Nach Nohr (2003, 50) lassen sich 80 Prozent aller Schreibfehler auf die Klassen
Auslassung, Einfügung, Substitution und Vertauschung zurückführen
(Nohr 2003, 50). Beispiele für diese Fehlerklassen zeigt Tabelle 7.1.
Tabelle 7.1. Beispiele für Tippfehler nach Fehlerklassen (Nohr 2003, 50)
| Auslassung | Chmical |
| Einfügung | Chemeical |
| Substitution | Chemecal |
| Vertauschung | Chmeical |
Bei der automatischen Ermittlung von Korrekturvorschlägen ist zwischen
wörtberbuchbasierten und statistischen Ansätzen zu unterscheiden,
bei den statistischen wiederum zwischen den auf einzelnen Wörtern basierenden
und denen, die Phrasen als Grundlage nehmen.
Wörterbuchbasierte Verfahren vergleichen den eingegebenen Suchbegriff mit
einem Wörterbuch und suchen, falls der Suchbegriff nicht im Wörterbuch
eingetragen ist, nach ähnlichen Begriffen. Der Nachteil dieser Verfahren
ist, dass Wörterbücher für unterschiedliche Sprachen verwendet
werden müssen und vor allem, dass auf Begriffe, die nicht im Wörterbuch
vorhanden sind, auch nicht verwiesen werden kann. Das Vokabular des Wörterbuchs
hinkt also dem tatsächlich im Web verwendeten Vokabular hinterher und muss
entsprechend gepflegt werden.
Statistische Verfahren verweisen bei Fehlschreibweisen, die zu keinen oder nur
wenigen Treffern führen, auf die in der Datenbank am häufigsten vorkommende
ähnliche Schreibweise. Um die Ähnlichkeit zu bestimmen, werden Wörter
auf einen Code reduziert, der bei ähnlichen Wörtern gleich lautet.
Das wohl bekannteste Beispiel eines solchen Verfahrens ist der Soundex-Algorithmus
(Jacobs 1982). Ähnliche Wörter werden mit diesem Algorithmus auf den
gleichen Code reduziert; Tabelle 7.2 zeigt als Beispiel die Reduzierung des
Worts economics. Würde ein Nutzer versehentlich econmic eingeben, würde
der Algorithmus dies zum gleichen Code reduzieren und einen entsprechenden Korrekturvorschlag
ausgeben. Es kann durchaus der Fall sein, dass sich mehrere Korrekturvorschläge
aus einer Eingabe ergeben. Daher ist es stets notwendig, den Nutzer mit einzubeziehen
und nicht automatisch zu korrigieren.
Eine Erweiterung dieser Art von Korrekturverfahren wird bei der Suchmaschine
Google angewendet. Die Annahme ist hier, dass durch die alleinige Analyse eines
Wortes nicht zwingend ein Schreibfehler ermittelt und ein entsprechender Korrekturvorschlag
unterbreitet werden kann. Als Beispiel wird von Google eine Anfrage nach der
Sängerin Britney Spears angegeben.
Tabelle 7.2. Soundex-Algorithmus am Beispiel von „economics" (Walker
u. Jones 1987, 151, Übersetzung nach Stock 2000b, 158)
| Schritt | Vorgehen | Ergebnis |
| (1) | Der erste Buchstabe des Wortes bleibt erhalten | E |
| (2) | Falls der zweite Buchstabe identisch mit dem ersten ist, übergehe ihn | |
| (3) | Falls zwei aufeinanderfolgende Buchstaben im Ausgangswort identisch sind, übergehe den jeweils zweiten | |
| (4) | Falls zwei aufeinanderfolgende Buchstaben im entstehenden Codewort identisch sind, notiere beide | |
| (5) | Übergehe die Buchstaben AEIOUYWH | Ecnmcs |
| (6) | Falls ein Buchstabe CGJKQSXZ ist, notiere C | ECnmC |
| (7) | Falls ein Buchstabe BFPV ist, notiere B | |
| (8) | Falls ein Buchstabe DT ist, notiere D | |
| (9) | Falls ein Buchstabe MN ist, notiere M | ECMMC |
| (10) | Die Buchstaben L und R bleiben erhalten | |
| (11) | Falls der letzte Buchstabe AIOUY, notiere Y |
Der Auszug aus dem query log zeigt über 500 verschiedene Schreibweisen,
die tatsächlich von Nutzern eingegeben wurden. Da es sich um einen Eigennamen
handelt, könnten verschiedene Schreibweisen durchaus korrekt sein; wenn
allerdings „die" Britney Spears gemeint ist, gibt es nur eine gültige
Schreibweise, auf die verwiesen werden soll. Dies kann nur geschehen, wenn vorher
der Vor- und Nachname als eine Phrase identifiziert wird und der Abgleich mit
ähnlichen Schreibweisen auf dieser Basis erfolgt. Welcher Algorithmus bei
Google eingesetzt wird, ist nicht dokumentiert, allerdings dürfte es sich
um den Soundex-Algorithmus handeln, der mit einem statistischen Abgleich der
Häufigkeiten unterschiedlicher Schreibweisen kombiniert wird.
Mittlerweile bieten alle größeren Suchmaschinen Korrekturvorschläge
an. Die dahinter stehenden Verfahren sind relativ leicht zu implementieren und
der Nutzen ist als hoch anzusehen. Davon können auch einige Beispiele fehlerhafter
Korrekturvorschläge nicht ablenken.
Bei allen informationslinguistischen Anwendungen wurde deutlich, dass diese
auf eine einzelne Sprache bezogen sind und die Anpassung an andere Sprachen
selten ohne Probleme erfolgen kann. Fraglich ist deshalb, ob sich linguistische
Ansätze in großem Maße für den Einsatz bei den international
ausgerichteten Universalsuchmaschinen eignen. Auf der anderen Seite bestünde
gerade hier für national orientierte Suchmaschinen ein Ansatzpunkt, Dienste
aufzubauen, die sie von den großen Konkurrenten abheben. Bisher jedenfalls
werden informationslinguistische Verfahren bei Suchmaschinen nur in geringem
Umfang eingesetzt. Allerdings ist deren Nützlichkeit auf der theoretischen
Ebene bisher auch nicht eindeutig belegt. Folgt man etwa der Zusammenfassung
der Anwendungen linguistischer Verfahren und ihrer Nützlichkeit bei Ruge
u. Goeser (1998), so zeigt sich, dass die dort dargestellten Untersuchungen
nicht belegen können, dass linguistische Verfahren das Retrieval grundsätzlich
verbessern, auch wenn dies von Ruge u. Goesner zumindest zum Teil auf die Bedingungen
der jeweiligen Evaluierung zurückgeführt wird.