
In der Dokumentation werden die Dokumente (dort: dokumentarische Bezugseinheiten
(DBE)) in einer Datenbank durch einen Repräsentanten (Dokumentationseinheit)
repräsentiert. Der Repräsentant enthält im Fall eines Textes
neben einer formalen Beschreibung des Dokuments auch eine inhaltliche Beschreibung.
Der eigentliche Volltext ist - so vorhanden - nicht Bestandteil der Dokumentationseinheit,
sondern ist nur mit dieser verknüpft. Bei modernen Systemen besteht allerdings
auch die Möglichkeit der Suche im Volltext.
Suchmaschinen erschließen in aller Regel den Volltext der von ihnen gefundenen
Dokumente. Dabei kann nur auf die oben dargestellte schwache Strukturierung
der Dokumente zurückgegriffen werden, was zu Problemen in der Repräsentation
führt. Während eine dokumentarische Repräsentation stark strukturiert
ist und entsprechend genau durchsucht werden kann, entstehen bei einer Voll¬texterschließung
Probleme durch das Fehlen eines kontrollierten Vokabulars und der nicht vorhandenen
Unterscheidung zwischen inhaltsbeschreibenden Begriffen (keywords, Deskriptoren)
und nicht inhaltsbeschreibenden Begriffen.
Allerdings handelt es sich bei der Repräsentation der Dokumente durch Suchmaschinen
auch nicht um eine reine Volltextspeicherung. Zwar wird der Volltext mehr oder
weniger komplett erfasst , allerdings werden weitere Informationen über
das Dokument der Repräsentation hinzugefügt. Tabelle 4.3 zeigt das
Dokument beschreibende Informationen, die zumindest in manchen Suchmaschinen
für die Repräsentation genutzt werden.
Tabelle 4.3. Dokumentbeschreibende Informationen zur Ergänzung der Repräsentation
des Dokuments
| Attribut | Erläuterung |
| Datum | Datum der Erstellung bzw. der letzten Aktualisierung des Dokuments. |
| Sprache | Aufgrund von Sprachspezifika ermittelte Sprache des Dokumententexts. |
| Top-Level-Domain | Verwendung zur Ermittlung der Herkunft des Dokuments (bei Länderdomains) bzw. zur Zuordnung zu einem Bereich (bei generischen Domains). |
| Wert für Linkpopularität | Unabhängig von der Suchanfrage ermittelter Wert für die „Autorität" bzw. Qualität eines Dokuments. |
| Begriff aus Ankertexten externer Seiten | Ergänzung des Dokuments um potentielle Suchbegriffe, die in den Verweisen aus anderen Dokumenten vorkommen. |
| Dateiformat | Formale Unterscheidung nach Dateitypen |
| Eingebettete Dateitypen | Dateitypen, die mit dem Dokument verbunden sind, z. B. ein illustrierendes Hörbeispiel zu einem Text. |
Der Grad der Zuverlässigkeit der genannten Informationen ist sehr unterschiedlich.
Während Angaben wie die Top-Level-Domain keinerlei Probleme bei der Zuordnung
korrekter Werte zu ihrem Attribut bereiten, kann die Zuordnung der korrekten
Sprache und insbesondere des korrekten Aktualisierungsdatums (Lewandowski 2004b;
s. Kap. 11.2) zu Problemen führen.
Als besonders nützlich für eine erweiterte Dokumentbeschreibung ist
die Verwendung von Ankertexten aus externen Seiten zu nennen. Anwendungen dieser
Verfahren sind in McBryan (1994) sowie Brin u. Page (1998) beschrieben. Ankertexte
können dazu verwendet werden, um Dokumente zu beschreiben, die für
die Suchmaschine nicht erfassbar sind (zum Beispiel aufgrund ihres Dateiformats)
oder (noch) nicht erfasst wurden (aufgrund Einschränkungen der Indexgröße
oder aufgrund der Aktualität). Wichtiger erscheint aber der Punkt der zutreffenden
Beschreibung. Die innerhalb des Texts eines externen Verweises gegebene Beschreibung
ist oft treffender als die Beschreibung, die sich im Dokument selbst findet
(Brin u. Page 1998). Solche Linktexte sollten deshalb von Suchmaschinen zumindest
ergänzend zur Indexierung der Dokumente eingesetzt werden. Sie können
auch helfen, Dokumente, die in einer anderen Sprache als der der Suchanfrage
verfasst sind, zu finden, sofern Verweise in der Sprache der Suchanfrage bestehen.
Im Zuge einer verbesserten Repräsentation der Dokumente in den Datenbanken
der Suchmaschinen sollten Möglichkeiten gefunden werden, den genannten
Attributen ihre jeweiligen Werte korrekt zuordnen zu können. Weiterhin
wäre zu untersuchen, welche weiteren Attribute sich für die Dokumentrepräsentation
eignen würden.