
Mit Hilfe der Extraktion des eigentlichen Inhalts aus den Dokumenten kann die
Repräsentation deutlich verbessert werden. Nicht nur kann der echte Volltext
des Dokuments erschlossen werden, ohne dass Ballast durch die nur in den Navigationselementen
vorkommenden Wörtern mit indexiert wird. Auf Basis des echten Volltexts
können auch dem Nutzer zuverlässige und über die bisher üblichen
Angaben hinausgehende Informationen angezeigt werden. Das Ziel ist hier, dem
Nutzer die Entscheidung über den Wert eines Dokuments für sein Informationsbedürfnis
durch Informationsverdichtung schon bei der Durchsicht der Trefferliste zu erleichtern.
Durch eine Beschränkung auf den Inhaltsteil der Dokumente können auch
Verfahren zur Extraktion von Namen, Phrasen und ähnlichem (Kap. 7.3.2)
einfacher angewendet werden. Dies ist allerdings eher als Nebeneffekt zu betrachten;
im Weiteren soll es stattdessen um die Ermittlung formaler Bestandteile gehen.
Informationen über die Struktur von Dokumenten werden von den Suchmaschinen
zur Verbesserung des Rankings verwendet (s. Kap. 6.1). Allerdings werden die
verwendeten Informationen nicht auch dem Nutzer verfügbar gemacht, der
sich aufgrund dieser für oder gegen die Einsichtnahme des Volltexts entscheiden
könnte.
Die bedeutendste aufgrund struktureller Merkmale gewonnene Information ist der
Titel eines Dokuments. Es wurde bereits angesprochen, dass sich der tatsächliche
Titel (also die Hauptüberschrift) und die Informationen im <title>-Tag
eines HTML-Dokuments stark unterscheiden können. Suchmaschinen nutzen bisher
vor allem den <title>-Tag, insbesondere auch bei der Anzeige des Dokumenttitels
in den Trefferlisten. Für den Website-Betreiber ergibt sich die Möglichkeit,
in den von den Suchmaschinen hoch bewerteten <title>-Tag Informationen
einzutragen, die für den Nutzer nicht innerhalb des Dokuments sichtbar
sind, sondern nur in der (nur wenig beachteten) Titelleiste seines Browsers.
Durch die Konzentration auf den tatsächlichen Dokumentinhalt kann die Suchmaschine
nun den tatsächlichen Titel des Dokuments feststellen. Entweder wird dieser
direkt aus der entsprechend ausgezeichneten Überschrift höchster Ordnung
(mittels des hn-Tags) oder, wenn eine entsprechende Auszeichnung nicht erfolgt
ist, aus derjenigen Zeile im ersten Teil des Dokuments gewonnen, die im größten
Schriftschnitt gesetzt ist. Abb. 13.4 verdeutlicht die Problematik anhand eines
Beispiels. Aus dem extrahierten Dokumenttext ist die tatsächliche Überschrift
leicht ersichtlich; es handelt sich um die am größten gesetzte Zeile.
Allerdings ist auch ersichtlich, dass die Hauptüberschrift nicht unbedingt
in der ersten Zeile stehen muss. Im Beispiel steht in der ersten Zeile eine
Ergänzung zur Überschrift, in anderen Fällen ist auch der Name
des Autors o.ä. denkbar.
Abb. 13.4. Stellung der Überschrift innerhalb eines Dokuments
Auf die gleiche Weise lässt sich nicht nur die Hauptüberschrift ermitteln,
sondern auch Zwischenüberschriften. Vor allem bei langen Dokumenten dürfte
es sinnvoll sein, dem Nutzer bereits in der Trefferliste anzubieten, sich die
Struktur des Dokuments anzusehen – vor allem dann, wenn das Dokument selbst
kein Inhaltsverzeichnis enthält.
Die meisten Suchmaschinen geben bereits in den Trefferlisten die Größe
der gefundenen Dokumente an. Dies ist sinnvoll, da sich der Nutzer so bereits
entscheiden kann, ob er lieber ein Dokument einsehen möchte, das den gesuchten
Sachverhalt ausführlich beschreibt oder ob er eher eine knappe Darstellung
wünscht. Allerdings zeigen die Suchmaschinen die Größeninformation
in Kilobytes an. Zwar kann sich der Nutzer so ein Bild machen, wie sich die
Länge der Dokumente untereinander verhält. Den meisten Nutzern dürfte
aber die Vorstellung fehlen, wie lang denn nun ein Dokument mit einer bestimmten
KB-Größe ist. Dazu kommt wiederum, dass alle Navigationselemente
usw. mit in die Berechnung eingehen.
Die Reduzierung des Dokuments auf den Inhaltsteil erlaubt es nun nicht nur,
die Größe des Dokuments realistisch anzugeben, sondern ermöglicht
auch eine zuverlässige Zählung in Wörtern oder Zeichen. Diese
Angaben dürften für den Nutzer wesentlich aufschlussreicher sein.
Bei paginierten Dokumenten (insbes. PDF- und Office-Dokumenten) dürfte
eine Angabe der Seitenzahl zur ersten Orientierung sinnvoll sein. Zwar mögen
die Seiten unterschiedlicher Dokumente unterschiedliche Textmengen beinhalten,
traditionell hat sich aber die Zählung der Seitenzahl durchgesetzt, so
dass es unverständlich erscheint, warum bisherige Suchmaschinen auch bei
solchen Dokumenten die Größe in KB angeben.
Die Anzahl der in einem Dokument enthaltenen Abbildungen und Tabellen kann
von den bestehenden Suchmaschinen nicht angegeben werden, da nicht zwischen
tatsächlich in den Text eingebundenen Abbildungen und weiteren auf der
Seite enthaltenen Grafiken unterschieden werden kann. Auch hier hilft die Beschränkung
auf den inhaltstragenden Teil des Dokuments. Abbildungen, die zwischen den Textteilen
stehen, können als solche gezählt werden, während alle umstehenden
Grafiken wegfallen. Problematisch sind allein im Text stehende grafische Anzeigen,
die auch von der Erfassung als Abbildung ausgeschlossen werden sollten. Dies
ließe sich durch der Orientierung an den gängigen Bannerformaten
leisten.
Durch heute schon in den Bildersuchmaschinen gängige Verfahren können
Grafiken und Schaubilder von Fotos unterschieden werden und könnten entsprechen
separat gezählt werden.
Das Auffinden von echten Tabellen innerhalb des Texts wurde bereits in Abschnitt
13.1 besprochen. Auch hier kann das Vorhandensein einer oder mehrerer Tabellen
für eine Angabe bereits in den Trefferlisten genutzt werden.