Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 4.4 Repräsentation der Dokumente in den Datenbanken der Suchmaschinen
< 4.3 Trennung von Navigation, Layout und Inhalt  |  Inhaltsverzeichnis  |  5 Klassische Verfahren des Information Retrieval und ihre Anwendung bei WWW-Suchmaschinen >
4.4 Repräsentation der Dokumente in den Datenbanken der Suchmaschinen

Repräsentation der Dokumente in den Datenbanken der Suchmaschinen

In der Dokumentation werden die Dokumente (dort: dokumentarische Bezugseinheiten (DBE)) in einer Datenbank durch einen Repräsentanten (Dokumentationseinheit) repräsentiert. Der Repräsentant enthält im Fall eines Textes neben einer formalen Beschreibung des Dokuments auch eine inhaltliche Beschreibung. Der eigentliche Volltext ist - so vorhanden - nicht Bestandteil der Dokumentationseinheit, sondern ist nur mit dieser verknüpft. Bei modernen Systemen besteht allerdings auch die Möglichkeit der Suche im Volltext.
Suchmaschinen erschließen in aller Regel den Volltext der von ihnen gefundenen Dokumente. Dabei kann nur auf die oben dargestellte schwache Strukturierung der Dokumente zurückgegriffen werden, was zu Problemen in der Repräsentation führt. Während eine dokumentarische Repräsentation stark strukturiert ist und entsprechend genau durchsucht werden kann, entstehen bei einer Voll¬texterschließung Probleme durch das Fehlen eines kontrollierten Vokabulars und der nicht vorhandenen Unterscheidung zwischen inhaltsbeschreibenden Begriffen (keywords, Deskriptoren) und nicht inhaltsbeschreibenden Begriffen.
Allerdings handelt es sich bei der Repräsentation der Dokumente durch Suchmaschinen auch nicht um eine reine Volltextspeicherung. Zwar wird der Volltext mehr oder weniger komplett erfasst , allerdings werden weitere Informationen über das Dokument der Repräsentation hinzugefügt. Tabelle 4.3 zeigt das Dokument beschreibende Informationen, die zumindest in manchen Suchmaschinen für die Repräsentation genutzt werden.

Tabelle 4.3. Dokumentbeschreibende Informationen zur Ergänzung der Repräsentation des Dokuments

Attribut Erläuterung
Datum Datum der Erstellung bzw. der letzten Aktualisierung des Dokuments.
Sprache Aufgrund von Sprachspezifika ermittelte Sprache des Dokumententexts.
Top-Level-Domain Verwendung zur Ermittlung der Herkunft des Dokuments (bei Länderdomains) bzw. zur Zuordnung zu einem Bereich (bei generischen Domains).
Wert für Linkpopularität Unabhängig von der Suchanfrage ermittelter Wert für die „Autorität" bzw. Qualität eines Dokuments.
Begriff aus Ankertexten externer Seiten Ergänzung des Dokuments um potentielle Suchbegriffe, die in den Verweisen aus anderen Dokumenten vorkommen.
Dateiformat Formale Unterscheidung nach Dateitypen
Eingebettete Dateitypen Dateitypen, die mit dem Dokument verbunden sind, z. B. ein illustrierendes Hörbeispiel zu einem Text.

Der Grad der Zuverlässigkeit der genannten Informationen ist sehr unterschiedlich. Während Angaben wie die Top-Level-Domain keinerlei Probleme bei der Zuordnung korrekter Werte zu ihrem Attribut bereiten, kann die Zuordnung der korrekten Sprache und insbesondere des korrekten Aktualisierungsdatums (Lewandowski 2004b; s. Kap. 11.2) zu Problemen führen.
Als besonders nützlich für eine erweiterte Dokumentbeschreibung ist die Verwendung von Ankertexten aus externen Seiten zu nennen. Anwendungen dieser Verfahren sind in McBryan (1994) sowie Brin u. Page (1998) beschrieben. Ankertexte können dazu verwendet werden, um Dokumente zu beschreiben, die für die Suchmaschine nicht erfassbar sind (zum Beispiel aufgrund ihres Dateiformats) oder (noch) nicht erfasst wurden (aufgrund Einschränkungen der Indexgröße oder aufgrund der Aktualität). Wichtiger erscheint aber der Punkt der zutreffenden Beschreibung. Die innerhalb des Texts eines externen Verweises gegebene Beschreibung ist oft treffender als die Beschreibung, die sich im Dokument selbst findet (Brin u. Page 1998). Solche Linktexte sollten deshalb von Suchmaschinen zumindest ergänzend zur Indexierung der Dokumente eingesetzt werden. Sie können auch helfen, Dokumente, die in einer anderen Sprache als der der Suchanfrage verfasst sind, zu finden, sofern Verweise in der Sprache der Suchanfrage bestehen.
Im Zuge einer verbesserten Repräsentation der Dokumente in den Datenbanken der Suchmaschinen sollten Möglichkeiten gefunden werden, den genannten Attributen ihre jeweiligen Werte korrekt zuordnen zu können. Weiterhin wäre zu untersuchen, welche weiteren Attribute sich für die Dokumentrepräsentation eignen würden.

< 4.3 Trennung von Navigation, Layout und Inhalt  |  Inhaltsverzeichnis  |  5 Klassische Verfahren des Information Retrieval und ihre Anwendung bei WWW-Suchmaschinen >