
Textstatistische Verfahren zählen Worthäufigkeiten, wobei spezielle
Gewichtungsverfahren wie dokumentspezifische Worthäufigkeit und inverse
Dokumenthäufigkeit eingesetzt werden (vgl. Tabelle 6.1 auf S. 91). Statistische
Verfahren werden nach solchen unterschieden, die sich auf das einzelne Dokument
beziehen, und solchen, die sich auf die gesamte Dokumentkollektion beziehen.
Bei der Verwendung von textstatistischen Verfahren ist zu entscheiden, ob jedes
Wort eines Dokuments in die Statistik mit einfließen soll oder eine Auswahl
getroffen werden soll. Um die Häufung von nicht bedeutungstragenden Begriffen
zu vermeiden, arbeiten nahezu alle Systeme mit Stoppwortlisten. In diesen Listen
sind Wörter, die nicht für die Suche geeignet sind, gespeichert; also
alle besonders häufig in der zu verarbeitenden Sprache oder in der jeweiligen
Dokumentenkollektion vorkommenden Wörter. Diese Wörter werden bei
der Indexierung nicht berücksichtigt, werden allerdings für die Suche
nach Phrasen benötigt. Dafür werden die Stoppwörter bei der Indexierung
durch Platzhalter ersetzt (Chakrabarti 2003, 48). Das „klassische"
Beispiel für eine Phrasensuche mit Stoppwörtern ist die Suchanfrage
„to be or not to be", welche neben Operatoren auch die im Englischen
typischen Stoppwörter to und be enthält. Stoppwortlisten müssen
für jede Sprache gesondert erstellt werden.
Entscheidet man sich nun für eine Indexierung nicht aller Begriffe aus
dem Volltext, sondern für eine Auswahl geeigneter Begriffe für die
Indexierung, so stellt sich die Frage nach den dafür geeigneten Textwörtern.
Als Basis dieser Auswahl dient die von Hans Peter Luhn formulierte Annahme,
dass die Häufigkeit des Auftretens eines Worts ein Indikator für dessen
Signifikanz innerhalb des Dokuments ist. Allerdings werden auch hier zu häufig
vorkommende Wörter ausgeschlossen. Abbildung 7.1 zeigt eine typische Verteilung
der Worthäufigkeiten innerhalb eines Dokuments bzw. innerhalb einer Dokumentkollektion.
f gibt dabei die Häufigkeit des Auftretens eines einzelnen Worts an, r
den Rangplatz dieses Worts nach der Häufigkeit seines Auftretens. Nach
Luhn finden sich die Textwörter mit guter Signifikanz für die Indexierung
in der Mitte der Verteilung. Damit sind einerseits zu häufige Wörter
(Stoppwörter), andererseits zu seltene Begriffe ausgeschlossen.
Abb. 7.1. Auftreten von signifikanten Textwörtern in Dokumenten (Luhn
1958, 161)
Bei Suchmaschinen findet in der Regel jedoch abgesehen von Stoppwörtern
kein Ausschluss bestimmter Textwörter statt. Die Indexierung bezieht sich
auf den Volltext, so dass alle enthaltenen Wörter erfasst werden. Erst
durch ihre Gewichtung mittels dokumentinhärenter Faktoren (WDF) und Faktoren,
die sich auf die Dokumentkollektion beziehen (IDF) wird die Häufigkeit
bzw. Seltenheit einzelner Wörter berücksichtigt. Eine Beschreibung
eines textstatistischen Rankingverfahrens in einer Suchmaschine findet sich
beispielsweise in Burrows (2000).
Bei einer rein statistischen Feststellung von Worthäufigkeiten wird allerdings
grundsätzlich jede Wortform als eigenes Wort gerechnet, was zu Verzerrungen
führt. Hier sind linguistische Verfahren notwendig, wie sie in Abschnitt
7.3 beschrieben werden.