Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 7.1 Textstatistische Verfahren
< 7 Informationsstatistische und informationslinguistische Verfahren  |  Inhaltsverzeichnis  |  7.2 Nutzungsstatistische Verfahren >
7.1 Textstatistische Verfahren

Textstatistische Verfahren

Textstatistische Verfahren zählen Worthäufigkeiten, wobei spezielle Gewichtungsverfahren wie dokumentspezifische Worthäufigkeit und inverse Dokumenthäufigkeit eingesetzt werden (vgl. Tabelle 6.1 auf S. 91). Statistische Verfahren werden nach solchen unterschieden, die sich auf das einzelne Dokument beziehen, und solchen, die sich auf die gesamte Dokumentkollektion beziehen.
Bei der Verwendung von textstatistischen Verfahren ist zu entscheiden, ob jedes Wort eines Dokuments in die Statistik mit einfließen soll oder eine Auswahl getroffen werden soll. Um die Häufung von nicht bedeutungstragenden Begriffen zu vermeiden, arbeiten nahezu alle Systeme mit Stoppwortlisten. In diesen Listen sind Wörter, die nicht für die Suche geeignet sind, gespeichert; also alle besonders häufig in der zu verarbeitenden Sprache oder in der jeweiligen Dokumentenkollektion vorkommenden Wörter. Diese Wörter werden bei der Indexierung nicht berücksichtigt, werden allerdings für die Suche nach Phrasen benötigt. Dafür werden die Stoppwörter bei der Indexierung durch Platzhalter ersetzt (Chakrabarti 2003, 48). Das „klassische" Beispiel für eine Phrasensuche mit Stoppwörtern ist die Suchanfrage „to be or not to be", welche neben Operatoren auch die im Englischen typischen Stoppwörter to und be enthält. Stoppwortlisten müssen für jede Sprache gesondert erstellt werden.
Entscheidet man sich nun für eine Indexierung nicht aller Begriffe aus dem Volltext, sondern für eine Auswahl geeigneter Begriffe für die Indexierung, so stellt sich die Frage nach den dafür geeigneten Textwörtern. Als Basis dieser Auswahl dient die von Hans Peter Luhn formulierte Annahme, dass die Häufigkeit des Auftretens eines Worts ein Indikator für dessen Signifikanz innerhalb des Dokuments ist. Allerdings werden auch hier zu häufig vorkommende Wörter ausgeschlossen. Abbildung 7.1 zeigt eine typische Verteilung der Worthäufigkeiten innerhalb eines Dokuments bzw. innerhalb einer Dokumentkollektion. f gibt dabei die Häufigkeit des Auftretens eines einzelnen Worts an, r den Rangplatz dieses Worts nach der Häufigkeit seines Auftretens. Nach Luhn finden sich die Textwörter mit guter Signifikanz für die Indexierung in der Mitte der Verteilung. Damit sind einerseits zu häufige Wörter (Stoppwörter), andererseits zu seltene Begriffe ausgeschlossen.

Abb. 7.1. Auftreten von signifikanten Textwörtern in Dokumenten (Luhn 1958, 161)

Bei Suchmaschinen findet in der Regel jedoch abgesehen von Stoppwörtern kein Ausschluss bestimmter Textwörter statt. Die Indexierung bezieht sich auf den Volltext, so dass alle enthaltenen Wörter erfasst werden. Erst durch ihre Gewichtung mittels dokumentinhärenter Faktoren (WDF) und Faktoren, die sich auf die Dokumentkollektion beziehen (IDF) wird die Häufigkeit bzw. Seltenheit einzelner Wörter berücksichtigt. Eine Beschreibung eines textstatistischen Rankingverfahrens in einer Suchmaschine findet sich beispielsweise in Burrows (2000).
Bei einer rein statistischen Feststellung von Worthäufigkeiten wird allerdings grundsätzlich jede Wortform als eigenes Wort gerechnet, was zu Verzerrungen führt. Hier sind linguistische Verfahren notwendig, wie sie in Abschnitt 7.3 beschrieben werden.

< 7 Informationsstatistische und informationslinguistische Verfahren  |  Inhaltsverzeichnis  |  7.2 Nutzungsstatistische Verfahren >