Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 13.2 Erweiterungen der Dokumentrepräsentation
< 13.1 Beschränkung auf den Inhaltsteil der Dokumente  |  Inhaltsverzeichnis  |  13.3 Ersatz für die Nicht-Verwendbarkeit generischer Top-Level-Domains >
13.2 Erweiterungen der Dokumentrepräsentation

Erweiterungen der Dokumentrepräsentation

Mit Hilfe der Extraktion des eigentlichen Inhalts aus den Dokumenten kann die Repräsentation deutlich verbessert werden. Nicht nur kann der echte Volltext des Dokuments erschlossen werden, ohne dass Ballast durch die nur in den Navigationselementen vorkommenden Wörtern mit indexiert wird. Auf Basis des echten Volltexts können auch dem Nutzer zuverlässige und über die bisher üblichen Angaben hinausgehende Informationen angezeigt werden. Das Ziel ist hier, dem Nutzer die Entscheidung über den Wert eines Dokuments für sein Informationsbedürfnis durch Informationsverdichtung schon bei der Durchsicht der Trefferliste zu erleichtern.
Durch eine Beschränkung auf den Inhaltsteil der Dokumente können auch Verfahren zur Extraktion von Namen, Phrasen und ähnlichem (Kap. 7.3.2) einfacher angewendet werden. Dies ist allerdings eher als Nebeneffekt zu betrachten; im Weiteren soll es stattdessen um die Ermittlung formaler Bestandteile gehen.

Strukturinformationen

Informationen über die Struktur von Dokumenten werden von den Suchmaschinen zur Verbesserung des Rankings verwendet (s. Kap. 6.1). Allerdings werden die verwendeten Informationen nicht auch dem Nutzer verfügbar gemacht, der sich aufgrund dieser für oder gegen die Einsichtnahme des Volltexts entscheiden könnte.
Die bedeutendste aufgrund struktureller Merkmale gewonnene Information ist der Titel eines Dokuments. Es wurde bereits angesprochen, dass sich der tatsächliche Titel (also die Hauptüberschrift) und die Informationen im <title>-Tag eines HTML-Dokuments stark unterscheiden können. Suchmaschinen nutzen bisher vor allem den <title>-Tag, insbesondere auch bei der Anzeige des Dokumenttitels in den Trefferlisten. Für den Website-Betreiber ergibt sich die Möglichkeit, in den von den Suchmaschinen hoch bewerteten <title>-Tag Informationen einzutragen, die für den Nutzer nicht innerhalb des Dokuments sichtbar sind, sondern nur in der (nur wenig beachteten) Titelleiste seines Browsers.
Durch die Konzentration auf den tatsächlichen Dokumentinhalt kann die Suchmaschine nun den tatsächlichen Titel des Dokuments feststellen. Entweder wird dieser direkt aus der entsprechend ausgezeichneten Überschrift höchster Ordnung (mittels des hn-Tags) oder, wenn eine entsprechende Auszeichnung nicht erfolgt ist, aus derjenigen Zeile im ersten Teil des Dokuments gewonnen, die im größten Schriftschnitt gesetzt ist. Abb. 13.4 verdeutlicht die Problematik anhand eines Beispiels. Aus dem extrahierten Dokumenttext ist die tatsächliche Überschrift leicht ersichtlich; es handelt sich um die am größten gesetzte Zeile. Allerdings ist auch ersichtlich, dass die Hauptüberschrift nicht unbedingt in der ersten Zeile stehen muss. Im Beispiel steht in der ersten Zeile eine Ergänzung zur Überschrift, in anderen Fällen ist auch der Name des Autors o.ä. denkbar.

Abb. 13.4. Stellung der Überschrift innerhalb eines Dokuments


Auf die gleiche Weise lässt sich nicht nur die Hauptüberschrift ermitteln, sondern auch Zwischenüberschriften. Vor allem bei langen Dokumenten dürfte es sinnvoll sein, dem Nutzer bereits in der Trefferliste anzubieten, sich die Struktur des Dokuments anzusehen – vor allem dann, wenn das Dokument selbst kein Inhaltsverzeichnis enthält.

Größenangaben

Die meisten Suchmaschinen geben bereits in den Trefferlisten die Größe der gefundenen Dokumente an. Dies ist sinnvoll, da sich der Nutzer so bereits entscheiden kann, ob er lieber ein Dokument einsehen möchte, das den gesuchten Sachverhalt ausführlich beschreibt oder ob er eher eine knappe Darstellung wünscht. Allerdings zeigen die Suchmaschinen die Größeninformation in Kilobytes an. Zwar kann sich der Nutzer so ein Bild machen, wie sich die Länge der Dokumente untereinander verhält. Den meisten Nutzern dürfte aber die Vorstellung fehlen, wie lang denn nun ein Dokument mit einer bestimmten KB-Größe ist. Dazu kommt wiederum, dass alle Navigationselemente usw. mit in die Berechnung eingehen.
Die Reduzierung des Dokuments auf den Inhaltsteil erlaubt es nun nicht nur, die Größe des Dokuments realistisch anzugeben, sondern ermöglicht auch eine zuverlässige Zählung in Wörtern oder Zeichen. Diese Angaben dürften für den Nutzer wesentlich aufschlussreicher sein.
Bei paginierten Dokumenten (insbes. PDF- und Office-Dokumenten) dürfte eine Angabe der Seitenzahl zur ersten Orientierung sinnvoll sein. Zwar mögen die Seiten unterschiedlicher Dokumente unterschiedliche Textmengen beinhalten, traditionell hat sich aber die Zählung der Seitenzahl durchgesetzt, so dass es unverständlich erscheint, warum bisherige Suchmaschinen auch bei solchen Dokumenten die Größe in KB angeben.

Abbildungen und Tabellen

Die Anzahl der in einem Dokument enthaltenen Abbildungen und Tabellen kann von den bestehenden Suchmaschinen nicht angegeben werden, da nicht zwischen tatsächlich in den Text eingebundenen Abbildungen und weiteren auf der Seite enthaltenen Grafiken unterschieden werden kann. Auch hier hilft die Beschränkung auf den inhaltstragenden Teil des Dokuments. Abbildungen, die zwischen den Textteilen stehen, können als solche gezählt werden, während alle umstehenden Grafiken wegfallen. Problematisch sind allein im Text stehende grafische Anzeigen, die auch von der Erfassung als Abbildung ausgeschlossen werden sollten. Dies ließe sich durch der Orientierung an den gängigen Bannerformaten leisten.
Durch heute schon in den Bildersuchmaschinen gängige Verfahren können Grafiken und Schaubilder von Fotos unterschieden werden und könnten entsprechen separat gezählt werden.
Das Auffinden von echten Tabellen innerhalb des Texts wurde bereits in Abschnitt 13.1 besprochen. Auch hier kann das Vorhandensein einer oder mehrerer Tabellen für eine Angabe bereits in den Trefferlisten genutzt werden.

< 13.1 Beschränkung auf den Inhaltsteil der Dokumente  |  Inhaltsverzeichnis  |  13.3 Ersatz für die Nicht-Verwendbarkeit generischer Top-Level-Domains >