Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 10.4 Clusterbildung
< 10.3 Klassifikation und Thesaurus  |  Inhaltsverzeichnis  |  11 Aktualität >
10.4 Clusterbildung

Clusterbildung

Auch bei der Clusterung werden (ähnlich wie bei der Klassifikation) ähnliche Dokumente in eigenen Klassen zusammengeführt. Der Unterschied besteht darin, dass bei der Clusterung die Klassen erst nach der Ermittlung der Treffermenge gebildet werden. Es erfolgt also im Gegensatz zur klassifikatorischen Erschließung kein Abgleich zwischen Dokument und bestehenden Klassen, sondern es werden die Klassen erst aufgrund der Ähnlichkeiten zwischen Dokumenten aus der Treffermenge gebildet. Die fehlerbehaftete Zuordnung zu den Klassen einer Klassifikation wird so vermieden.
Bei der Clusteranalyse handelt es sich um eine schon relativ lange bestehende Methode, die beispielsweise bereits in Saltons SMART-System eingesetzt wurde (vgl. Salton u. McGill 1987, 228ff.). In älteren Systemen erfolgt die Clusterbildung durch den Abgleich von Deskriptoren, erst im Web-Kontext bezieht sie sich auf die Volltexte der Dokumente (oder zumindest Teile des Volltexts). Ein Überblick über die klassischen Clustering-Algorithmen findet sich in Rasmussen (1992), eine Diskussion der Berechnungsweisen im Web-Kontext findet sich in Chakrabarti (2003).
Während die Clusteranalyse in modernen Enterprise-Search-Applikationen wie FAST Datasearch oder Northen Light Enterprise Search Engine (Northern Light Group 2004) oft verwendet wird, bieten (bisher) nur wenige Suchmaschinen eine Ergebnisclusterung an.
Als Beispiel für die Anwendung der Clustertechnologie inklusive ihrer Vor- und Nachteile soll die Metasuchmaschine Clusty vorgestellt werden. Diese wird von dem Unternehmen Vivisimo betrieben, welches vor allem Firmenlösungen anbietet, mit Clusty jedoch auch ein entsprechendes Endnutzerangebot betreibt. Diese Suchmaschine wurde ausgewählt, da es sich hierbei wohl um die fortschrittlichste für die allgemeine Websuche eingesetzte Clustertechnologie handelt.
Abbildung 10.9 zeigt die Clusterbildung nach dem Abschicken einer Suchanfrage mit dem Begriff „Informationswissenschaft“. Es werden drei Typen von Clustern gebildet: Topics (Themen), sources (Quellen) und URLs.
Die bedeutendste (und technisch am schwierigsten zu realisierende) Form ist die Unterteilung nach Themen. Die Beispielanfrage ergibt 190 Dokumente, die in Cluster von unterschiedlicher Größe eingeteilt werden (zwischen zwei und 37 Dokumenten). Dabei werden die Cluster absteigend nach ihrer Größe angeordnet. Die Titel der Cluster werden aus den in den Dokumenten häufig enthaltenen Begriffen gebildet. Die in der Abbildung dargestellten thematischen Cluster zeigen u.a. verschiedene informationswissenschaftliche Hochschulinstitute („Konstanz, Universität“, „Institut für Informationswissenschaft“, „Fachrichtung, Infowiss“), Textsammlungen („Virtuelles Handbuch Informationswissenschaft“, „Einführung in die Informationswissenschaft“) und angrenzende Fachbereiche („Bibliotheks“ für Bibliotheks- und Informationswissenschaft, „Publizistik, Kommunikationswissenschaft“). Insgesamt dienen die Cluster der Orientierung und spezifizieren die nur ungenaue Suchanfrage. Allerdings geben die Cluster kein vollständiges Bild beispielsweise der informationswissenschaftlichen Institute, dafür geben sie eine Übersicht wichtiger Einrichtungen, Texte und Veranstaltungen zum Thema.

Abb. 10.9. Beispiel für die Clusterbildung für die Suchanfrage „Informationswissenschaft“ bei der Suchmaschine Clusty


Die thematische Clusterbildung bei Clusty zeigt einige der typischen Probleme der automatischen Clusterung:
• Akronyme: Werden in den Zieldokumenten häufig Akronyme anstatt der jeweils ausgeschriebenen Form verwendet, so wird das Akronym auch für die Clusterbezeichnung verwendet; im gezeigten Beispiel finden sich ISI (für „Internationales Symposium für Informationswissenschaft“) und LIS (für „Library and Information Science“). Nur den bereits mit dem Umfeld des verwendeten Suchbegriffs vertrauten Nutzern sind die Akronyme bekannt. Wird in einigen Dokumenten ein Akronym verwendet, in anderen die ausgeschriebene Form, so werden zwei unterschiedliche Cluster gebildet, anstatt beide Bezeichnungen unter einem Cluster zu subsumieren. Gleiches gilt für Synonyme; Chakrabarti (2003, 98) spricht hier von einem „syntax gap“.
• Unvollständige Begriffe / Teile von Phrasen: Es finden sich unvollständige Phrasen bzw. Begriffe („Bibliotheks“ für „Bibliotheks- und Informationswissenschaft“, „Heinrich-Heine“ anstatt „Heinrich-Heine-Universität“).
• Verwendung von zu allgemeinen Begriffen: In der Bezeichnung eines Clusters wird eine Postleitzahl verwendet. Für die Clusterbildung sind umfangreiche Stoppwortlisten nötig, die an die unterschiedlichen Sprachen angepasst werden müssen.
Das Clustering nach Quellen erfolgt im Fall von Clusty nach den abgefragten Suchmaschinen. Da es sich bei Clusty um eine Metasuchmaschine handelt, werden nicht alle Treffer der einzelnen Suchmaschinen berücksichtigt (was sich auch in der Anzahl der insgesamt gefundenen Treffer zeigt; für „Informationswissenschaft“ sind es nur etwa 190). In der Ansicht der Clusterung nach Quellen ist ersichtlich, wie viele Treffer jeder Suchmaschine ausgewertet wurden. Es werden jeweils alle Treffer bis zu einem Cut-Off von 50 bzw. 100 verwertet. Die Quellenansicht gibt so – vor allem wenn sehr unterschiedliche Quellen in der Metasuche abgefragt werden – einen guten Anhaltspunkt für die weitere Recherche. Diese Auswahlform wird in Kapitel 12.6 eingehender behandelt werden.
Die dritte Clusteranzeige bei Clusty ist schließlich die Sortierung nach URLs. Dabei erfolgt eine Unterteilung sowohl nach Top Level Domains als auch nach einzelnen Servern. Auf der ersten Ebene werden vor allem Top Level Domains (sowohl Länderdomains als auch generische Domains) angezeigt. Wird ein Cluster aufgeblättert, werden darunter die Server, welche die meisten Dokumente vorhalten, aufgeführt. In Abbildung 10.9 ist das Cluster der deutschen Domains (de-Endung) aufgeblättert, darunter finden sich vor allem die Server der relevanten Hochschulen. Hier fällt u.a. auf, dass ein Server offensichtlich unter zwei verschiedenen Namen geführt wird: bei uni-sb.de und uni-saarland.de handelt es sich um das gleiche Angebot. Da die Ergebnisse, die in die Clusterbildung eingehen, hier unter Umständen von unterschiedlichen Suchmaschinen stammen, ist der Fehler nicht Clusty anzulasten. Korrekterweise müssten beide Server allerdings in einem Cluster stehen.
Neben den bei Clusty verwendeten Clusterarten gibt es natürlich noch weitere Möglichkeiten, Teilmengen aus den ursprünglichen Treffermengen zu bilden. So teilt die Firmenlösung von Northern Light die Ergebnisse in die Clusterarten Thema (subject), Dokumenttyp (type), Quelle (source) und Sprache (language). Diese Cluster wurden auch in der Norhern-Light-Web-Suchmaschine verwendet, als diese noch bestand (vgl. Stock u. Stock 2001a).
Clusterverfahren bieten eine intuitiv verständliche Möglichkeit, große Treffermengen ohne erweiterte Recherchekenntnisse schnell auf ein überschaubares Maß einzuschränken. Auch wenn durch teils ungenaue Zuordnungen relevante Dokumente im Prozess der Einschränkung „verloren gehen“, so dürfte das Verfahren doch gerade dem ungeübten Nutzer die Möglichkeit geben, Dokumente zu ermitteln, die zu seinem Informationsbedürfnis passen, auch wenn seine Suchanfrage nur sehr ungenau formuliert war und die dahinterstehende Intention nicht zu erkennen war. Die Clusterbildung sollte von zukünftigen Suchmaschinen zur Unterstützung der Nutzer eingesetzt werden.
Nicht vergessen werden sollte allerdings auch, dass sich die Clusterbildung (im Gegensatz etwa zur Navigation in einer Klassifikation) nur für die Veränderung der Suchanfrage „in eine Richtung“ eignet, nämlich zur Einschränkung der Ergebnismenge. Hat der Nutzer seine Anfrage zu spezifisch formuliert, d.h. es werden zu wenige Treffer zurückgegeben, so bietet die Clusteranalyse keine Möglichkeit, zu einer weniger spezifischen Anfrage zu gelangen, ohne die Suchanfrage selbst zu reformulieren.
Das Browsing durch die Cluster bedeutet auch stets den Ausschluss aller anderen Cluster. Es besteht in den bisherigen Lösungen keine Möglichkeit, gleichzeitig mehrere Cluster auszuwählen, obwohl in der Praxis relativ häufig der Fall auftritt, dass mehrere Cluster für die Befriedigung des Informationsbedürfnisses relevant sind.

< 10.3 Klassifikation und Thesaurus  |  Inhaltsverzeichnis  |  11 Aktualität >