
Auch bei der Clusterung werden (ähnlich wie bei der Klassifikation) ähnliche
Dokumente in eigenen Klassen zusammengeführt. Der Unterschied besteht darin,
dass bei der Clusterung die Klassen erst nach der Ermittlung der Treffermenge
gebildet werden. Es erfolgt also im Gegensatz zur klassifikatorischen Erschließung
kein Abgleich zwischen Dokument und bestehenden Klassen, sondern es werden die
Klassen erst aufgrund der Ähnlichkeiten zwischen Dokumenten aus der Treffermenge
gebildet. Die fehlerbehaftete Zuordnung zu den Klassen einer Klassifikation
wird so vermieden.
Bei der Clusteranalyse handelt es sich um eine schon relativ lange bestehende
Methode, die beispielsweise bereits in Saltons SMART-System eingesetzt wurde
(vgl. Salton u. McGill 1987, 228ff.). In älteren Systemen erfolgt die Clusterbildung
durch den Abgleich von Deskriptoren, erst im Web-Kontext bezieht sie sich auf
die Volltexte der Dokumente (oder zumindest Teile des Volltexts). Ein Überblick
über die klassischen Clustering-Algorithmen findet sich in Rasmussen (1992),
eine Diskussion der Berechnungsweisen im Web-Kontext findet sich in Chakrabarti
(2003).
Während die Clusteranalyse in modernen Enterprise-Search-Applikationen
wie FAST Datasearch oder Northen Light Enterprise Search Engine (Northern Light
Group 2004) oft verwendet wird, bieten (bisher) nur wenige Suchmaschinen eine
Ergebnisclusterung an.
Als Beispiel für die Anwendung der Clustertechnologie inklusive ihrer Vor-
und Nachteile soll die Metasuchmaschine Clusty vorgestellt werden. Diese wird
von dem Unternehmen Vivisimo betrieben, welches vor allem Firmenlösungen
anbietet, mit Clusty jedoch auch ein entsprechendes Endnutzerangebot betreibt.
Diese Suchmaschine wurde ausgewählt, da es sich hierbei wohl um die fortschrittlichste
für die allgemeine Websuche eingesetzte Clustertechnologie handelt.
Abbildung 10.9 zeigt die Clusterbildung nach dem Abschicken einer Suchanfrage
mit dem Begriff „Informationswissenschaft“. Es werden drei Typen
von Clustern gebildet: Topics (Themen), sources (Quellen) und URLs.
Die bedeutendste (und technisch am schwierigsten zu realisierende) Form ist
die Unterteilung nach Themen. Die Beispielanfrage ergibt 190 Dokumente, die
in Cluster von unterschiedlicher Größe eingeteilt werden (zwischen
zwei und 37 Dokumenten). Dabei werden die Cluster absteigend nach ihrer Größe
angeordnet. Die Titel der Cluster werden aus den in den Dokumenten häufig
enthaltenen Begriffen gebildet. Die in der Abbildung dargestellten thematischen
Cluster zeigen u.a. verschiedene informationswissenschaftliche Hochschulinstitute
(„Konstanz, Universität“, „Institut für Informationswissenschaft“,
„Fachrichtung, Infowiss“), Textsammlungen („Virtuelles Handbuch
Informationswissenschaft“, „Einführung in die Informationswissenschaft“)
und angrenzende Fachbereiche („Bibliotheks“ für Bibliotheks-
und Informationswissenschaft, „Publizistik, Kommunikationswissenschaft“).
Insgesamt dienen die Cluster der Orientierung und spezifizieren die nur ungenaue
Suchanfrage. Allerdings geben die Cluster kein vollständiges Bild beispielsweise
der informationswissenschaftlichen Institute, dafür geben sie eine Übersicht
wichtiger Einrichtungen, Texte und Veranstaltungen zum Thema.
![]() |
|
Abb. 10.9. Beispiel für die Clusterbildung für die Suchanfrage „Informationswissenschaft“ bei der Suchmaschine Clusty
Die thematische Clusterbildung bei Clusty zeigt einige der typischen Probleme
der automatischen Clusterung:
• Akronyme: Werden in den Zieldokumenten häufig Akronyme anstatt
der jeweils ausgeschriebenen Form verwendet, so wird das Akronym auch für
die Clusterbezeichnung verwendet; im gezeigten Beispiel finden sich ISI (für
„Internationales Symposium für Informationswissenschaft“) und
LIS (für „Library and Information Science“). Nur den bereits
mit dem Umfeld des verwendeten Suchbegriffs vertrauten Nutzern sind die Akronyme
bekannt. Wird in einigen Dokumenten ein Akronym verwendet, in anderen die ausgeschriebene
Form, so werden zwei unterschiedliche Cluster gebildet, anstatt beide Bezeichnungen
unter einem Cluster zu subsumieren. Gleiches gilt für Synonyme; Chakrabarti
(2003, 98) spricht hier von einem „syntax gap“.
• Unvollständige Begriffe / Teile von Phrasen: Es finden sich unvollständige
Phrasen bzw. Begriffe („Bibliotheks“ für „Bibliotheks-
und Informationswissenschaft“, „Heinrich-Heine“ anstatt „Heinrich-Heine-Universität“).
• Verwendung von zu allgemeinen Begriffen: In der Bezeichnung eines Clusters
wird eine Postleitzahl verwendet. Für die Clusterbildung sind umfangreiche
Stoppwortlisten nötig, die an die unterschiedlichen Sprachen angepasst
werden müssen.
Das Clustering nach Quellen erfolgt im Fall von Clusty nach den abgefragten
Suchmaschinen. Da es sich bei Clusty um eine Metasuchmaschine handelt, werden
nicht alle Treffer der einzelnen Suchmaschinen berücksichtigt (was sich
auch in der Anzahl der insgesamt gefundenen Treffer zeigt; für „Informationswissenschaft“
sind es nur etwa 190). In der Ansicht der Clusterung nach Quellen ist ersichtlich,
wie viele Treffer jeder Suchmaschine ausgewertet wurden. Es werden jeweils alle
Treffer bis zu einem Cut-Off von 50 bzw. 100 verwertet. Die Quellenansicht gibt
so – vor allem wenn sehr unterschiedliche Quellen in der Metasuche abgefragt
werden – einen guten Anhaltspunkt für die weitere Recherche. Diese
Auswahlform wird in Kapitel 12.6 eingehender behandelt werden.
Die dritte Clusteranzeige bei Clusty ist schließlich die Sortierung nach
URLs. Dabei erfolgt eine Unterteilung sowohl nach Top Level Domains als auch
nach einzelnen Servern. Auf der ersten Ebene werden vor allem Top Level Domains
(sowohl Länderdomains als auch generische Domains) angezeigt. Wird ein
Cluster aufgeblättert, werden darunter die Server, welche die meisten Dokumente
vorhalten, aufgeführt. In Abbildung 10.9 ist das Cluster der deutschen
Domains (de-Endung) aufgeblättert, darunter finden sich vor allem die Server
der relevanten Hochschulen. Hier fällt u.a. auf, dass ein Server offensichtlich
unter zwei verschiedenen Namen geführt wird: bei uni-sb.de und uni-saarland.de
handelt es sich um das gleiche Angebot. Da die Ergebnisse, die in die Clusterbildung
eingehen, hier unter Umständen von unterschiedlichen Suchmaschinen stammen,
ist der Fehler nicht Clusty anzulasten. Korrekterweise müssten beide Server
allerdings in einem Cluster stehen.
Neben den bei Clusty verwendeten Clusterarten gibt es natürlich noch weitere
Möglichkeiten, Teilmengen aus den ursprünglichen Treffermengen zu
bilden. So teilt die Firmenlösung von Northern Light die Ergebnisse in
die Clusterarten Thema (subject), Dokumenttyp (type), Quelle (source) und Sprache
(language). Diese Cluster wurden auch in der Norhern-Light-Web-Suchmaschine
verwendet, als diese noch bestand (vgl. Stock u. Stock 2001a).
Clusterverfahren bieten eine intuitiv verständliche Möglichkeit, große
Treffermengen ohne erweiterte Recherchekenntnisse schnell auf ein überschaubares
Maß einzuschränken. Auch wenn durch teils ungenaue Zuordnungen relevante
Dokumente im Prozess der Einschränkung „verloren gehen“, so
dürfte das Verfahren doch gerade dem ungeübten Nutzer die Möglichkeit
geben, Dokumente zu ermitteln, die zu seinem Informationsbedürfnis passen,
auch wenn seine Suchanfrage nur sehr ungenau formuliert war und die dahinterstehende
Intention nicht zu erkennen war. Die Clusterbildung sollte von zukünftigen
Suchmaschinen zur Unterstützung der Nutzer eingesetzt werden.
Nicht vergessen werden sollte allerdings auch, dass sich die Clusterbildung
(im Gegensatz etwa zur Navigation in einer Klassifikation) nur für die
Veränderung der Suchanfrage „in eine Richtung“ eignet, nämlich
zur Einschränkung der Ergebnismenge. Hat der Nutzer seine Anfrage zu spezifisch
formuliert, d.h. es werden zu wenige Treffer zurückgegeben, so bietet die
Clusteranalyse keine Möglichkeit, zu einer weniger spezifischen Anfrage
zu gelangen, ohne die Suchanfrage selbst zu reformulieren.
Das Browsing durch die Cluster bedeutet auch stets den Ausschluss aller anderen
Cluster. Es besteht in den bisherigen Lösungen keine Möglichkeit,
gleichzeitig mehrere Cluster auszuwählen, obwohl in der Praxis relativ
häufig der Fall auftritt, dass mehrere Cluster für die Befriedigung
des Informationsbedürfnisses relevant sind.