Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 7.3 Informationslinguistische Verfahren
< 7.2 Nutzungsstatistische Verfahren  |  Inhaltsverzeichnis  |  8 Linktopologische Rankingverfahren >
7.3 Informationslinguistische Verfahren

Informationslinguistische Verfahren

Prinzipiell lassen sich zwei Wege einschlagen, wenn die Vergleichbarkeit von Inhalten durch Repräsentationen verbessert werden soll. Diese sind nach Ferber (2003, 40)
• Versuche, die natürliche Sprache so zu repräsentieren und zu verarbeiten, dass inhaltliche Ähnlichkeiten erkennbar werden.
• Versuche, die zulässigen Mittel zur inhaltlichen Beschreibung so einzuschränken, dass sie Ähnlichkeiten abbilden.
Bei der Suche in Information-Retrieval-Systemen, die keine informationslinguistischen Verfahren anwenden, entstehen zahlreiche Probleme. So muss das Vokabular, welches der Autor bzw. in Referenzdatenbanken der Indexer verwendet hat, nicht mit dem des Rechercheurs übereinstimmen. Die Lösung für dieses Problem kann einerseits die Anwendung eines kontrollierten Vokabulars sein. Hier würden die zulässigen Mittel der inhaltlichen Beschreibung entsprechend beschränkt werden. Dieser Ansatz wurde jedoch bereits in einem vorangegangenen Kapitel (5.2) für die Erschließung von Dokumenten durch Suchmaschinen verworfen.
Das zentrale Anliegen linguistischer Verfahren im Information Retrieval „is the translation of potentially ambiguous natural language queries and documents into unambiguous internal representations on which matching and retrieval can take place" (Liddy 1998, 15). Liddy sieht als ein ideales IR-System ein solches an, das Anfragen so entgegennehmen kann, wie dies ein Auskunftsbibliothekar tun würde. Es würde die Anfrage in ihrer Komplexität verstehen. Hinzuzufügen ist allerdings, dass die Orientierung am Bibliothekar (bzw. dem, so Kuhlen (1999) „personalen Informationsassistenten") die Dialogfähigkeit des Systems voraussetzt. Hier klingt schon an, dass es notwendig werden wird, sich von der Gewohnheit der - mehr oder minder guten - Beantwortung der Suchanfrage in einem Schritt zu verabschieden.
Die linguistischen Probleme, welche im Information Retrieval auftreten, entstehen nach Liddy (1998, 14f.) auf folgenden Ebenen: Worterkennung, Morphologie, Lexikon, Syntax, Semantik, Diskursanalyse und Pragmatik.
Diese Ebenen werden im Folgenden kurz erläutert. Dabei werden die grundsätzlichen Anwendungsmöglichkeiten erwähnt, wobei die für die gegenwärtige Suchmaschinen-Entwicklung als besonders bedeutend anzusehenden Anwendungen herausgegriffen und in den folgenden Abschnitten ausführlicher diskutiert werden.
Worterkennung. Fragen der Worterkennung ergeben sich bei Information-Retrieval-Systemen auf der Ebene der gesprochenen Sprache, der geschriebenen Sprache sowie auf der Ebene der bereits digital vorliegenden Dokumente. Die beiden ersten Fälle sind im Kontext dieser Arbeit zu vernachlässigen, im dritten Fall handelt es sich um die Wortidentifikation innerhalb von Texten. Dabei werden Wörter durch Trennzeichen wie Leerstellen und Satzzeichen erkennbar.
Alternativ zur Worterkennung können auf kleinerer Ebene auch Zeichenketten erfasst werden. Dabei werden Texte in sog. N-Gramme, zum Beispiel in alle Elemente des Texts zu jeweils fünf Zeichen, zerlegt. Der Text wird so in Bestandteile zerlegt, die zwar teilweise unsinnig sind –andererseits bilden viele der gefundenen Teilwörter aber sinnvolle weitere Sucheinstiege.
Morphologie. Auf der Wortebene werden unterschiedliche Flexionsformen zusammengefasst sowie Prä- und Suffixe entfernt. Die Wörter werden so für das Ranking aufbereitet, unterschiedliche Retrievalergebnisse für den gleichen Suchbegriff beispielsweise in seiner Singular- und seiner Pluralform werden vermieden. Die im Information Retrieval bedeutendste morphologische Anwendung, das Stemming, wird im folgenden Kapitel ausführlich behandelt.
Lexikon. Auf der Ebene des Lexikons werden Begriffe durch Lemmatisierung auf ihre lexikalische Grundform zurückgeführt. Allerdings wird die Lemmatisierung im Information Retrieval meist mit dem Stemming zusammengefasst, wobei unter diesen Begriff alle Reduzierungen von Wörtern auf eine Grund- oder Stammform fallen. Eine weitere wichtige Anwendung auf lexikalischer Ebene ist das Finden von Synonymen sowie Ober- und Unterbegriffen, um diese eventuell in die Suchanfrage mit einzubinden (s. Abschnitt 7.3.3).
Syntax. Hierbei handelt es sich um die Analyse der grammatischen Struktur eines Satzes. Für den Kontext des Information Retrieval ist die Phrasenerkennung innerhalb von Sätzen von besonderer Bedeutung (Liddy 1998, 16). Auch diese wird in einem eigenen Abschnitt (7.3.2) behandelt.
Semantik. Auf der Satzebene wird die Bedeutung des Satzes geklärt. Dabei sollen mögliche Mehrdeutigkeiten erkannt werden.
Diskursanalyse. Hier soll die Struktur und Bedeutung über Satzgrenzen hinweg erkannt werden, so dass erkannt werden kann, um was für eine Art von Aussage es sich bei einem Textteil handelt, also zum Beispiel um eine Schlussfolgerung, eine Meinung, eine Vermutung oder ein Faktum (Liddy 1998,16). Außerdem fällt unter die Diskursanalyse die Erkennung von Anaphern, also beispielsweise die Verwendung von Pronomen, die sich auf einen bereits verwendeten Begriff beziehen. Solche Anaphern könnten ebenso wie die Begriffe selbst, auf die sie sich beziehen, als Vorkommen des entsprechenden Begriffs gezählt werden und entsprechend in das Ranking eingehen.
Pragmatik. Hier soll der Zweck des Texts erkannt werden und der Text so entsprechend in einen Kontext eingeordnet werden. Denkbar ist etwa die Zuteilung eines Themenbereichs zu einem Text oder die automatische Einordnung in ein Klassifikationssystem. Ein Beispiel für eine Anwendung ist die Suchmaschine Seekport, welche versucht, jedes Dokument einem von acht vorgegebenen Themenbereichen zuzuordnen.
Betrachtet man die bisherigen Anwendungen linguistischer Verfahren im Information Retrieval, so fällt auf, dass die Verfahren auf niedrigerer Ebene (Wortebene, Lexikon) eher Anwendung finden als auf höheren Ebenen (Liddy 1998, 16). Im Bereich der Suchmaschinen ist oft nicht ersichtlich, ob bzw. welche Verfahren Anwendung finden. Auch hier halten sich die Suchmaschinen-Betreiber bedeckt, um der Manipulation ihrer Ergebnisse und dem Interesse der Konkurrenz entgegenzuwirken.


Stemming

Unter Stemming versteht man die Reduzierung von Wörtern auf ihre Grund- bzw. Stammform. In linguistischer Sicht ist weiter je nach eingesetzter Methode zwischen Stemming und Lemmatisierung zu unterscheiden; im informationswissenschaftlichen Kontext können beide Arten der Wortformveränderung unter Stemming zusammengefasst werden. Stemming ist die im informationswissenschaftlichen Kontext bedeutendste Anwendung auf morphologischer Ebene.
Wenn ein Wort in einem Dokument in unterschiedlichen Formen vorkommt, so würde ohne Stemming jede Form einzeln gezählt und in das Ranking eingehen; durch die Reduzierung auf eine Grundform werden alle Formen eines Wort gemeinsam gewertet. Außerdem sollen bei einem entsprechenden Abgleich mit den ebenfalls auf die Grundform reduzierten Suchbegriffen mehr Dokumente gefunden werden.
In der Regel besteht bei der Suche im Web allerdings nicht das Problem, dass zu wenige Dokumente gefunden werden; eher ist das Gegenteil der Fall. Allerdings können bei einer fehlenden Grundformreduktion eigentlich relevante Dokumente nicht gefunden werden, wenn sie den Suchbegriff in einer anderen Flexionsform enthalten.
Das Stemming kann nach verschiedenen Ansätzen erfolgen (vgl. Frakes 1992); von Bedeutung sind insbesondere affix removal (Entfernung von Prä- und Suffixen), table lookup (wörterbuchbasierter Ansatz) und die N-Gram-Methode.
Verfahren, die Suffixe entfernen, wurden vor allem für die englische Sprache entwickelt (zu nennen ist hier vor allem Porter 1980, aber auch Kuhlen 1977). Ihre Aufgabe ist es, Pluralformen auf die jeweilige Grundform des Worts zu reduzieren. Dies geschieht mittels Regeln, die die regelmäßige Pluralbildung erkennen und die Wörter entsprechend bearbeiten. Alle Varianten des Worts gelten dann als ein Begriff und gehen entsprechend in das Ranking ein.
Für die deutsche Sprache eignen sich solche regelbasierten Verfahren aufgrund der komplexeren Wortbildungen allerdings nicht. Hier sind allein wörterbuchbasierte Verfahren erfolgreich, da sie die zahlreichen Ausnahmen berücksichtigen können. Solche Verfahren speichern eine Liste aller Terme mit dem jeweils zugehörigen Stem. Sie arbeiten zuverlässig, problematisch ist allerdings die Pflege des Wörterbuchs. Neu auftretende Wörter müssen mit ihren jeweiligen Wortformen eingepflegt werden, was in der Regel nur manuell geleistet werden kann.
Die bereits erwähnte N-Gram-Methode bietet den Vorteil, dass die Wörter automatisch in kleinere Bestandteile zerlegt werden und auch Komposita in ihre Bestandteile zerlegt werden können. Allerdings werden bei dieser automatischen Methode auch N-Gramme ermittelt, die auf einen Begriff verweisen, der im Ausgangswort nur durch seine Buchstabenfolge, nicht jedoch vom Sinn her enthalten ist. Stock (2000b, 150f.) gibt als Beispiel die Zerlegung des Begriffs „Widerspruchsfreiheitsbeweis" in Pentagramme. Während der Begriff durchaus korrekt zerlegt wird, entsteht allerdings auch das Pentagram „Reihe", welches mit dem Inhalt des Ursprungsbegriffs semantisch nichts zu tun hat.
In der Regel werden in Information-Retrieval-Systemen regelbasierte oder wörterbuchbasierte Verfahren eingesetzt. Die unterschiedliche Anwendbarkeit dieser Verfahren für unterschiedliche Sprachen verdeutlicht das Problem, welches sich für die Betreiber internationaler Suchmaschinen ergibt. Für jede Sprache muß ein eigenes Verfahren angewendet werden, was den Entwicklungsaufwand und die -kosten entsprechend erhöht. Es ist davon auszugehen - und wird durch die bestehenden Anwendungen bestätigt -, dass Stemming-Verfahren nur für einige populäre Sprachen angewendet werden. An erster Stelle ist hier das Englische zu nennen; nicht nur, weil die meisten Suchmaschinen im englischen Sprachraum entwickelt werden, sondern auch, weil sich für diese Sprache Stemming-Algorithmen relativ leicht implementieren lassen.
Unabhängig von der gewählten Methode des Stemmings stellt sich die Frage nach der Anwendbarkeit bzw. dem Nutzen. Hinsichtlich der Frage, ob sich durch den Einsatz von Stemming-Verfahren tatsächlich die Anzahl der gefundenen Dokumente erhöht, gibt es unterschiedliche Ansichten. Ferber (2003, 41) sieht die Ergebnisse der vorliegenden Studien als uneinheitlich an; eine klare Aussage scheint ihm nicht möglich. Wie bereits erwähnt, erscheint dieser Punkt jedoch in Bezug auf Suchmaschinen auch nur eine sekundäre Bedeutung zu haben. Es ist zu fragen, ob bei der Recherche in Suchmaschinen (zumindest im Kontext der Bedürfnisse eines Laiennutzers) überhaupt noch die im klassischen Information Retrieval angestrebte Vollständigkeit als Ziel angesehen werden sollte. Es erscheint einleuchtend, dass für die meisten Themen eine solch große Dokumentenmenge vorhanden ist, dass für alle Wortformen eine befriedigend hohe Anzahl an relevanten Dokumenten gefunden wird, auch wenn dies unter Umständen nicht dieselben Dokumente sind. Ein empirischer Beleg für diese These steht allerdings bislang noch aus.
Braschler und Ripplinger (2004) untersuchen unterschiedliche Verfahren des Stemmings und der Zerlegung von Mehrwortbegriffen auf ihre Tauglichkeit für deutschsprachige Wörter. Sie kommen zu dem Schluss, dass die Zerlegung von Mehrwortbegriffen zur Steigerung der Precision offensichtlich wichtiger ist als das Stemming. Allerdings schneiden unterschiedliche Verfahren der Zerlegung von Mehrwortbegriffen ähnlich gut ab, so dass die Autoren keine Empfehlung für die Benutzung eines speziellen Verfahrens geben können. Insgesamt am schlechtesten schneidet in der Untersuchung das N-Gram-Verfahren ab, welches als sprach¬unabhängiges Verfahren mit aufgenommen wurde. Als Ergebnis ist also festzuhalten, dass - wie hier am Beispiel des Deutschen gezeigt - Stemming-Verfahren und Verfahren der Zerlegung von Mehrwortbegriffen für jede Sprache einzeln entwickelt werden müssen. Bei der grundsätzlich internationalen Orientierung der meisten Suchmaschinen bedeutet dies einen hohen Aufwand, der nur für die „populärsten" Sprachen zu leisten ist. Informationslinguistische Verfahren auf morphologischer Ebene werden von den großen Suchmaschinen eingesetzt, über die genauen Verfahren liegen jedoch keine Veröffentlichungen vor. Dies geht so weit, dass zwar bekannt ist, dass die Firma Google für diesen Zweck Software der Firma Canoo nutzt, wie und in welchem Maß dies geschieht, ist jedoch selbst dem Canoo-Geschäftsführer unbekannt: „Wie Google unsere Software genau einsetzt, wissen wir nicht. [...] Sehr wahrscheinlich nutzt Google unsere Software schon während des Indexierungsprozesses, vielleicht auch während der Abfrage durch den Nutzer. Wir wissen es nicht" (Schmid 2003). Dieses Zitat soll verdeutlichen, wie problematisch die Untersuchung des Einsatzes (nicht nur) der linguistischen Verfahren in kommerziellen Suchmaschinen ist. Oft kann eben nur festgestellt werden, dass bestimmte Verfahren eingesetzt werden, jedoch nicht, wie dies geschieht.
Gänzlich gegen Stemming-Verfahren im Web-Kontext wendet sich Chakrabarti (2003, 49). Er sieht das Problem insbesondere in der hohen Anzahl von Abkürzungen und Parallelbezeichnungen, wobei hier auch Akronyme mit einbezogen werden, die natürlich nicht gestemmt werden dürfen. Bei der Anwendung von Stemming-Verfahren im Web dürfte daher die Fehlerquote erheblich höher liegen als bei der Anwendung auf einen traditionellen Korpus. Soll Stemming angewendet werden, so sollte dem Nutzer auf jeden Fall die Möglichkeit gegeben werden, diese Funktion selbst an- bzw. abzuschalten.

Phrasenerkennung

Die (automatische) Phrasenerkennung wird im klassischen Information Retrieval dazu verwendet, potentielle Deskriptoren, welche aus mehreren Wörtern bestehen, zu gewinnen. Da Web-Suchmaschinen sich bei der Erschließung auf die Volltexte beschränken und die Gewinnung gesonderter Deskriptoren außer acht lassen, stellt sich die Frage nach dem Sinn der Phrasenerkennung durch Web-IR-Systeme. Als weiteres Argument gegen die Phrasenerkennung kann angeführt werden, dass alle Suchmaschinen im Ranking Dokumente bevorzugen, in denen die eingegebenen Suchbegriffe möglichst nahe beieinander stehen, so dass Übereinstimmungen von Phrasen in Anfrage und Dokument bevorzugt werden. Allerdings gehen verschiedene Suchmaschinen unterschiedlich mit der Nähe der Suchbegriffe zueinander um; dazu kommt, dass der Abstand nur ein Kriterium unter vielen ist bei der Bewertung innerhalb des Rankingvorgangs. Wird eine größere Anzahl von Suchbegriffen eingegeben, ist es sinnvoll, automatisch zu ermitteln, welcher Teil der Anfrage eine Phrase darstellt, um so die Suchanfrage automatisch zu verbessern, ohne dem Nutzer Kenntnisse in der Suchsyntax der Suchmaschine abzuverlangen. Die Suchmaschine All the Web bot bis zu ihrer Umstellung auf den Yahoo-Index eine solche Funktion an.
Im Folgenden soll beispielhaft eine bei Lexis-Nexis eingesetzte Methode zur Phrasenerkennung beschrieben werden, die prototypisch für solche Verfahren angesehen werden kann. Diese ist weitgehend sprachunabhängig und wird im Patent von Lu et al. beschrieben. Einsatz findet dieses Verfahren zur Deskriptorengewinnung. Ziel ist die Identifizierung u.a. von Personen-, Firmen- und Produktnamen.
Das Verfahren identifiziert die Phrasen in vier Schritten (Lu et al., 4):
1. Satzzeichen im Text werden durch Trennzeichen ersetzt.
2. Die Wörter im Text werden mit Stoppwortlisten abgeglichen. Stoppwörter werden durch Trennzeichen ersetzt.
3. Übrig bleiben nun sog. Textklumpen (chunks). Diese können aus einem Wort oder aus mehreren Wörtern bestehen. Interessant sind hier aber nur die Mehrwortausdrücke, die stets Konzepte ausdrücken. Lu et al. können so aus einem vorliegenden Beispieltext u.a. die Ausdrücke „United States" und „Irish Republican Army" herausfiltern, welche bei der konventionellen Volltextinvertierung in einzelne Wörter zerlegt worden wären.
4. Im letzten Schritt wird die Häufigkeit des Auftretens der Phrasen gezählt. Die Häufigkeit wird einerseits für die Indexierung verwendet (bspw. Indexierung erst bei mehrmaligem Vorkommen im Text; Lu et al. 1998, 11), kann natürlich aber auch als Gewichtungsfaktor verwendet werden.
Das Verfahren identifiziert sechs Arten von Textklumpen:
1. Einzelwörter in Kleinschreibung (lower case single-words).
2. Mit einem Großbuchstaben beginnende Einzelwörter.
3. Namen (proper names).
4. Phrasen in Kleinschreibung (lower case phrases): mehr als ein Wort, Vorkommen im Text häufiger als einmal.
5. Phrasen in Kleinschreibung (lower case phrases): mehr als ein Wort, Vorkommen im Text exakt einmal.
6. Akronyme.
Der fünfte Fall wird für die Auswertung nicht weiter herangezogen. Der Grund dürfte sein, dass hier die Fehlerwahrscheinlichkeit relativ hoch liegt. Allerdings wird in diesem Fall untersucht, ob der entsprechende Textklumpen Teil eines anderen, umfangreicheren Textklumpens ist (subphrase). Ist dies der Fall, so wird er diesem zugerechnet (Lu et al. 1998, 9). Liegt kein entsprechend umfangreicherer Textklumpen vor, so wird der einmalig vorkommende Textklumpen in Einzelwörter zerlegt und diese werden der Einzelwort-Liste zugefügt.
Lu et al. schlagen auch die Verwendung eines Synonym-Thesaurus vor, mit dem die Textklumpen abgeglichen werden. Allerdings weisen sie selbst auf die hohe Fehleranfälligkeit solcher Zuordnungen hin (Lu et al. 1998, 11). Für Suchmaschinen eignet sich die Thesaurus-Methode auf keinen Fall, da die Dokumentenkollektion zu heterogen ist und die Konzepte dadurch erst recht nicht zuverlässig zugeordnet werden können.
Das Verfahren besticht durch Einfachheit. Problematisch erscheint allein die Erstellung zuverlässiger Stoppwortlisten. Diese müssen relativ umfangreich sein, um nur tatsächlich bedeutungstragende Textklumpen zu identifizieren, dürfen jedoch auch nicht zu umfangreich sein, da sonst zu wenige Textklumpen gebildet werden würden und damit bedeutungstragende Elemente verloren gehen würden.
Um nun für jeden Textklumpen festzustellen, welcher Art von Konzept er zugehörig ist, werden unterschiedliche Verfahren eingesetzt. Die Phrasen werden im Patent unterteilt in Firmennamen, geographische Namen, Namen von Organisationen und Produktbezeichnungen (Lu et al. 1998, 11). Zur Erschließung werden im Fall der Firmennamen Indikator-Ausdrücke verwendet. Endet der Textklumpen beispielsweise mit „Ltd.", so deutet dies auf ein Unternehmen hin. Ähnliches gilt für Organisationen: hier dient das erste oder letzte Wort des Textklumpens als Indikator. Lexis-Nexis verfügt über umfangreiche Listen mit solchen Indikator-Ausdrücken (Beispiele im Patent: Lu et al. 1998, 15-30).
Bei geographischen Ausdrücken und Produktnamen gibt es allerdings keine Indikator-Begriffe; hier muss vollständig auf Wortlisten zurückgegriffen werden. Dies macht die Anwendung auf den gesamten Web-Korpus ausgesprochen schwierig. Praktikabel scheint der Listenabgleich eher bei den Personennamen: hier wird eine Liste mit Vornamen hinterlegt. Das Vorkommen eines Vornamens gilt als Indikator einer Namensangabe, der Rest des Textklumpens gilt als Nachname.
Zwar können Phrasen potentiell in allen Sprachen erkannt werden, allerdings geschieht die Bildung von Mehrwortausdrücken in Sprachen wie dem Englischen durch die Bildung von Phrasen („operating system"), während in anderen Sprachen wie etwa dem Deutschen zusammengesetzte Begriffe gebildet werden („Betriebssystem"). Hier würde sich also zusätzlich das bereits angesprochene Problem der Zerlegung dieser Komposita ergeben. Jeder Phrasenerkennung vorangestellt werden muss auf jeden Fall die Erkennung der Sprache des Dokuments, um auf die entsprechenden Stoppwortlisten und die Listen der Indikatorbegriffe zurückgreifen zu können.
Ein Verfahren zur Ermittlung von Phrasen findet auch in der Newssuche von Google Anwendung. Wie bei den kommerziellen Suchmaschinen üblich, ist die Funktion nicht dokumentiert, weshalb keine Aussagen über das verwendete Verfahren möglich sind. Allerdings kann das Verfahren nicht nur aus Vor- und Nachnamen bestehende Namen erkennen, sondern auch Phrasen wie „Borussia Dortmund" oder „Sierra Nevada“. Diese Funktion deutet bereits auf eine weitere sinnvolle Anwendungsmöglichkeit hin, nämlich dem Nutzer Suchanfragen vorzuschlagen. Dies kann ein allgemeiner Vorschlag (wie im Falle der News) sein, von noch größerer Bedeutung ist dieses Verfahren allerdings bei den Vorschlägen zur Verbesserung der Suchanfrage anzusehen (siehe Kap. 10.2).

Synonyme, Homonyme, Akronyme

Bei der Recherche ergeben sich Probleme durch Suchbegriffe, zu denen Synonyme vorhanden sind, durch Homonyme bzw. Polyseme und durch die Verwendung von Akronymen. Weiterhin sind sich viele Nutzer bei der Wahl ihrer Suchbegriffe nicht sicher, so dass eine Einschränkung bzw. Erweiterung der Suchanfrage durch Unter- bzw. Oberbegriffe sinnvoll wäre.
Werden Suchbegriffe verwendet, zu denen es Synonyme gibt, werden potentiell nicht alle relevanten Dokumente gefunden. Zwar ist es möglich, dass in den Dokumenten mehrere Synonyme verwendet werden und so das entsprechende Dokument für Anfragen nach allen Synonymen des Begriffs gefunden wird. Allerdings ist dies nicht grundsätzlich anzunehmen, und andererseits entsteht hier wieder das Problem der Wortzählung, welche für das Ranking benötigt wird. Keine der heute eingesetzten Suchmaschinen arbeitet mit hinterlegten Synonymwörterbüchern. Dokumente, die für einen Begriff unterschiedliche Synonyme verwenden (beispielsweise aus sprachlichen Gründen), werden so zwar bei Suchanfragen zu den entsprechenden Synonymen gefunden, werden im Ranking jedoch benachteiligt. Wünschenswert wäre hier der Abgleich mit Synonymwörterbüchern; allerdings müssten diese wiederum für jede unterstützte Sprache separat implementiert werden, was zu einem hohen Aufwand führen würde. Bei den potentiell großen Treffermengen der Suchmaschinen und der Unmöglichkeit für den Nutzer, alle Treffer zu sichten, stellt sich auch die Frage, ob es überhaupt notwendig ist, die Synonyme zu berücksichtigen oder ob nicht die Anfrage nach jeweils einer Form in den meisten Fällen schon genügend befriedigende Ergebnisse liefert.
Im Umfeld der Suchmaschinen erscheint der Umgang mit Homonymen als wesentlich problematischer. Unter Homonymen werden gleichlautende Wörter verstanden, die unterschiedliche Begriffe bezeichnen. Zum Beispiel bezeichnet das Wort Bank sowohl ein Kreditinstitut als auch ein Sitzmöbel, das Wort Flügel sowohl einen Körperteil eines Vogels als auch ein Musikinstrument.
Suchanfragen, die Wörter enthalten, welche homonyme Bedeutungen haben, erhöhen die Anzahl der gefundenen Treffer und blähen die Treffermenge durch Ballast auf. Heute eingesetzte Suchmaschinen können keine Homonyme erkennen; allerdings bestünde einerseits die Möglichkeit, die Suchanfrage auf Homonyme zu prüfen und dem Nutzer entsprechende Einschränkungsmöglichkeiten durch weitere Begriffe anzubieten, andererseits bestünde die Möglichkeit, eine Erkennung innerhalb der Dokumente durchzuführen. Letzteres wird von manchen Suchmaschinen versucht; eine Hilfe bei der Trennung von Dokumenten mit Homonymen bietet auch die Clusteranalyse (vgl. Kap. 10.4).
Werden in einem Dokument oder in einer Suchanfrage Akronyme verwendet, so beeinflusst auch dies in der Regel die Bewertung der Dokumente aufgrund der Worthäufigkeiten. So werden Akronym und ausgeschriebene Form als eigene Begriffe gezählt und nicht zu einem Begriff zusammengefasst. Weiterhin problematisch ist, dass Akronyme oft so gewählt werden, dass sie wiederum ein gebräuchliches Wort ergeben, welches einfacher zu merken ist. Suchmaschinen unterscheiden dann nicht zwischen Akronym und dem durch die gleiche Buchstabenfolge gekennzeichneten Wort. Das Problem kann durch die Unterscheidung zwischen Groß- und Kleinschreibung in Dokumenten und Anfragen gemildert werden. Akronyme werden in den meisten Fällen in Großbuchstaben geschrieben; allerdings unterscheidet keine der gebräuchlichen Suchmaschinen mehr nach Groß- und Kleinschreibung, so dass diese Lösung wenigstens zur Zeit nicht verfügbar ist. Da jedoch eine „echte" Akronymunterscheidung inklusive Auflösung des jeweiligen Akronyms in die ausgeschriebene Form aufgrund der großen Zahl der im Web vorhandenen (und teils gleichlautenden) Akronyme nur sehr schwer möglich sein dürfte, ist wenigstens diese „Behelfslösung" anzustreben.

Rechtschreibkontrolle

Bei Nutzung von Information-Retrieval-Systemen kommt es - wie bei allen anderen Systemen, in denen Begriffe durch den Nutzer eingegeben werden - zu Schreibfehlern. Im klassischen Information Retrieval werden solche Fehler oft dadurch erkannt, dass keine Treffer gefunden werden. Bei der Arbeit mit Suchmaschinen verschärft sich das Problem der Rechtschreibfehler allerdings. Hier ist auch bei den indexierten Dokumenten anzunehmen, dass sie eine hohe Anzahl von Schreibfehlern enthalten, da keine redaktionelle Kontrolle gesichert ist. Es kann davon ausgegangen werden, dass der Nutzer auch in Fällen falscher Eingaben eine gewisse Anzahl von Treffern bekommt, so dass Schreibfehler nicht so stark auffallen wie in klassischen Information-Retrieval-Systemen. Bei den in der Laboruntersuchung von Machill et al. (2003, 287) untersuchten Anfragen lag der Anteil der fehlerhaften Anfragen bei 9,2 Prozent, wobei die Web-„Experten“ erstaunlicherweise deutlich mehr fehlerhafte Anfragen abschickten als die Novizen (10,9 Prozent vs. 7,2 Prozent). Die Autoren führen dies auf Flüchtigkeitsfehler zurück.
Die Fehlerquote der Suchmaschinennutzer liegt damit etwa gleich hoch wie die der Laiennutzer anderer Information-Retrieval-Systeme. Die Auswertung von Suchanfragen eines elektronischen Bibliothekskatalogs ergab, dass dort zwischen acht und zwölf Prozent aller Suchanfragen Tippfehler enthalten (Walker u. Jones 1987, zit. nach Stock 2000b, 157). Klar wird daraus, dass eine Notwendigkeit zur fehlertoleranten Behandlung von Suchanfragen besteht.
Nach Nohr (2003, 50) lassen sich 80 Prozent aller Schreibfehler auf die Klassen Auslassung, Einfügung, Substitution und Vertauschung zurückführen (Nohr 2003, 50). Beispiele für diese Fehlerklassen zeigt Tabelle 7.1.


Tabelle 7.1. Beispiele für Tippfehler nach Fehlerklassen (Nohr 2003, 50)

Auslassung Chmical
Einfügung Chemeical
Substitution Chemecal
Vertauschung Chmeical


Bei der automatischen Ermittlung von Korrekturvorschlägen ist zwischen wörtberbuchbasierten und statistischen Ansätzen zu unterscheiden, bei den statistischen wiederum zwischen den auf einzelnen Wörtern basierenden und denen, die Phrasen als Grundlage nehmen.
Wörterbuchbasierte Verfahren vergleichen den eingegebenen Suchbegriff mit einem Wörterbuch und suchen, falls der Suchbegriff nicht im Wörterbuch eingetragen ist, nach ähnlichen Begriffen. Der Nachteil dieser Verfahren ist, dass Wörterbücher für unterschiedliche Sprachen verwendet werden müssen und vor allem, dass auf Begriffe, die nicht im Wörterbuch vorhanden sind, auch nicht verwiesen werden kann. Das Vokabular des Wörterbuchs hinkt also dem tatsächlich im Web verwendeten Vokabular hinterher und muss entsprechend gepflegt werden.
Statistische Verfahren verweisen bei Fehlschreibweisen, die zu keinen oder nur wenigen Treffern führen, auf die in der Datenbank am häufigsten vorkommende ähnliche Schreibweise. Um die Ähnlichkeit zu bestimmen, werden Wörter auf einen Code reduziert, der bei ähnlichen Wörtern gleich lautet. Das wohl bekannteste Beispiel eines solchen Verfahrens ist der Soundex-Algorithmus (Jacobs 1982). Ähnliche Wörter werden mit diesem Algorithmus auf den gleichen Code reduziert; Tabelle 7.2 zeigt als Beispiel die Reduzierung des Worts economics. Würde ein Nutzer versehentlich econmic eingeben, würde der Algorithmus dies zum gleichen Code reduzieren und einen entsprechenden Korrekturvorschlag ausgeben. Es kann durchaus der Fall sein, dass sich mehrere Korrekturvorschläge aus einer Eingabe ergeben. Daher ist es stets notwendig, den Nutzer mit einzubeziehen und nicht automatisch zu korrigieren.
Eine Erweiterung dieser Art von Korrekturverfahren wird bei der Suchmaschine Google angewendet. Die Annahme ist hier, dass durch die alleinige Analyse eines Wortes nicht zwingend ein Schreibfehler ermittelt und ein entsprechender Korrekturvorschlag unterbreitet werden kann. Als Beispiel wird von Google eine Anfrage nach der Sängerin Britney Spears angegeben.

Tabelle 7.2. Soundex-Algorithmus am Beispiel von „economics" (Walker u. Jones 1987, 151, Übersetzung nach Stock 2000b, 158)

Schritt Vorgehen Ergebnis
(1) Der erste Buchstabe des Wortes bleibt erhalten E
(2) Falls der zweite Buchstabe identisch mit dem ersten ist, übergehe ihn  
(3) Falls zwei aufeinanderfolgende Buchstaben im Ausgangswort identisch sind, übergehe den jeweils zweiten  
(4) Falls zwei aufeinanderfolgende Buchstaben im entstehenden Codewort identisch sind, notiere beide  
(5) Übergehe die Buchstaben AEIOUYWH Ecnmcs
(6) Falls ein Buchstabe CGJKQSXZ ist, notiere C ECnmC
(7) Falls ein Buchstabe BFPV ist, notiere B  
(8) Falls ein Buchstabe DT ist, notiere D  
(9) Falls ein Buchstabe MN ist, notiere M ECMMC
(10) Die Buchstaben L und R bleiben erhalten  
(11) Falls der letzte Buchstabe AIOUY, notiere Y  

Der Auszug aus dem query log zeigt über 500 verschiedene Schreibweisen, die tatsächlich von Nutzern eingegeben wurden. Da es sich um einen Eigennamen handelt, könnten verschiedene Schreibweisen durchaus korrekt sein; wenn allerdings „die" Britney Spears gemeint ist, gibt es nur eine gültige Schreibweise, auf die verwiesen werden soll. Dies kann nur geschehen, wenn vorher der Vor- und Nachname als eine Phrase identifiziert wird und der Abgleich mit ähnlichen Schreibweisen auf dieser Basis erfolgt. Welcher Algorithmus bei Google eingesetzt wird, ist nicht dokumentiert, allerdings dürfte es sich um den Soundex-Algorithmus handeln, der mit einem statistischen Abgleich der Häufigkeiten unterschiedlicher Schreibweisen kombiniert wird.
Mittlerweile bieten alle größeren Suchmaschinen Korrekturvorschläge an. Die dahinter stehenden Verfahren sind relativ leicht zu implementieren und der Nutzen ist als hoch anzusehen. Davon können auch einige Beispiele fehlerhafter Korrekturvorschläge nicht ablenken.
Bei allen informationslinguistischen Anwendungen wurde deutlich, dass diese auf eine einzelne Sprache bezogen sind und die Anpassung an andere Sprachen selten ohne Probleme erfolgen kann. Fraglich ist deshalb, ob sich linguistische Ansätze in großem Maße für den Einsatz bei den international ausgerichteten Universalsuchmaschinen eignen. Auf der anderen Seite bestünde gerade hier für national orientierte Suchmaschinen ein Ansatzpunkt, Dienste aufzubauen, die sie von den großen Konkurrenten abheben. Bisher jedenfalls werden informationslinguistische Verfahren bei Suchmaschinen nur in geringem Umfang eingesetzt. Allerdings ist deren Nützlichkeit auf der theoretischen Ebene bisher auch nicht eindeutig belegt. Folgt man etwa der Zusammenfassung der Anwendungen linguistischer Verfahren und ihrer Nützlichkeit bei Ruge u. Goeser (1998), so zeigt sich, dass die dort dargestellten Untersuchungen nicht belegen können, dass linguistische Verfahren das Retrieval grundsätzlich verbessern, auch wenn dies von Ruge u. Goesner zumindest zum Teil auf die Bedingungen der jeweiligen Evaluierung zurückgeführt wird.

 

< 7.2 Nutzungsstatistische Verfahren  |  Inhaltsverzeichnis  |  8 Linktopologische Rankingverfahren >