Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 4.2 Strukturinformationen in den im Web gängigen Dokumenten
< 4.1 Strukturierungsgrad von Dokumenten  |  Inhaltsverzeichnis  |  4.3 Trennung von Navigation, Layout und Inhalt >
4.2 Strukturinformationen in den im Web gängigen Dokumenten

Strukturinformationen in den im Web gängigen Dokumenten

Eine Besonderheit des WWW ist, dass es über die Möglichkeit verfügt, unterschiedlichste Dokumenttypen unter einer Oberfläche zu integrieren. Zwar wird als Standardsprache HTML verwendet, prinzipiell lassen sich jedoch Dokumente jeden Dateityps einbinden. Die populärsten Dateitypen sollen hier vorgestellt und auf ihre Erschließungsmöglichkeiten hin untersucht werden.
Gemäß dem in Kapitel 2 definierten Forschungsfeld dieser Arbeit werden hier ausschließlich Formate mit textuellen Informationen berücksichtigt. Die zunehmende Bedeutung von multimedialen Informationen ist unbestritten, die Basis des Web bilden jedoch weiterhin unterschiedliche Dokumentformate, die für die Darstellung von Texten geschaffen wurden. In HTML können Grafiken sowie Audio- und Videodateien unterschiedlicher Formate eingebunden werden. Sie werden in dieser Arbeit allerdings allein als Bestandteile von HTML-Dokumenten betrachtet.
Weiterhin existieren im Web Multimedia-Formate wie Flash, die hier nur der Vollständigkeit halber erwähnt werden. Auch diese fallen nicht in das Themenfeld dieser Arbeit; im Problemfeld der Internet-Suche sind sie vor allem interessant, weil sie nur wenig textuelle Informationen enthalten und so die Erschließung extrem erschweren. Allerdings werden immer mehr Websites komplett in Flash erstellt, weshalb schon allein aus Gründen eines möglichst vollständigen Index deren Erschließung gewährleistet werden muss.
Bei der Erschließung der Nicht-Text-Formate konkurrieren zwei Ansätze: einerseits die Erschließung durch Metadaten (description-based approach), andererseits die Erschließung durch im „Dokument" selbst enthaltene Informationen (content-based approach). Nach Chu (2003, 149) ist der erste Ansatz derjenige, auf den sich die informationswissenschaftliche Forschung konzentriert, während die Informatik eher dem zweiten Ansatz folgt.

HTML

Auch wenn die Anzahl der Multimedia-Dateien im Web ständig steigt, hat HTML immer noch die größte Bedeutung für die Erstellung von Web-Dokumenten. Während sich die ursprüngliche Version noch stark an der komplexen Textauszeichnungssprache SGML orientierte (wovon HTML ein Derivat ist), verloren die explizit strukturbeschreibenden tags zunehmend an Bedeutung zu Gunsten von eher Layout-orientierten Auszeichnungen.
Tabelle 4.1 zeigt HTML-Tags, die Teile des Dokuments explizit nach ihrem Inhalt beschreiben. So kann etwa das Tag <dfn> eingesetzt werden, um eine Definition zu markieren. Für die Erschließung dieses Dokuments durch Suchmaschinen würde dies bedeuten, dass die Definition leicht extrahiert werden kann und auf eine entsprechende Suchanfrage nach einer bestimmten Definition zurückgegeben werden kann. Leider werden die explizit inhaltsbeschreibenden Tags nur sehr selten von den Autoren von Webseiten eingesetzt. Der Grund dürfte darin liegen, dass Webseiten in aller Regel entweder von Laien oder aber von Agenturen erstellt werden, die eher layout-orientiert arbeiten. Eine explizite Auszeichnung der verschiedenen Inhaltsblöcke wird von ihnen nicht angestrebt; im Vordergrund stehen klar Layout-Ansprüche.
Zwei Arten von explizit inhaltsbeschreibenden Tags werden jedoch verwendet: der <title>-Tag sowie die Klasse der Überschriften <h1> bis <h6>. Der <title>-Tag eignet sich ausgesprochen gut für die Erschließung durch Suchmaschinen, da er den Titel des Dokuments bezeichnet. Er wird daher von den Suchmaschinen auch entsprechend ausgewertet und fließt meist mit relativ hoher Gewichtung in das Ranking ein. Allerdings muss der <title>-Tag nicht notwendigerweise mit dem tatsächlichen Titel des Dokuments übereinstimmen. Bei der Erstellung eines HTML-Dokuments ist es nicht unbedingt notwendig, <title> mit Inhalt zu füllen, während wohl kaum ein Autor auf eine Hauptüberschrift in seinem Text verzichten dürfte. Weiterhin werden bei der Erstellung von HTML-Dokumenten aus WYSIWYG-Editoren heraus die Titelinformationen oft nicht explizit abgefragt, so dass viele HTML-Dokumente entweder keine Titelinformationen oder aber von den Editoren eingesetzte Titel wie „no title" oder ähnliches tragen. Auf Websites, die mit Content-Management-Systemen erstellt wurden, finden sich oft für alle Dokumente die gleichen Titelinformationen; für die Beschreibung des einzelnen Dokuments taugen sie daher wenig.

Tabelle 4.1. Explizit inhaltsbeschreibende HTML-Tags

Tag  Bedeutung 
abbr  Abkürzung 
acronym  Akronym 
address  Adresse 
blockquote  abgesetztes Zitat 
cite  Zitat 
code  Quellcode 
dfn  Definition 
dl, dt, dd  abgesetzte Definition 
em  betont 
h1, h2, h3, h4, h5, h6  Ðberschriften 
ins, del  Ÿnderungsmarkierungen 
kbd  Tastatureingabe 
samp  Beispiel 
strong  stark betont 
title  Titel 
var  Variable 

Zuverlässig ist die Auswertung der Überschriften, die mittels der <hn>-Tags ausgezeichnet werden. Zwar werden auch diese Tags eher layout-orientiert eingesetzt. Da jedoch in den Standardeinstellungen sowohl von Editoren als auch von Browsern Überschriften höherer Ordnung größer dargestellt werden als solche niederer Ordnung, passen hier Layout-Wünsche gut mit der Strukturbeschreibung zusammen. Anhand der Überschriften können die Suchmaschinen die Gliederung von Texten erkennen und Begriffe je nach ihrem Vorkommen auf unterschiedlichen Hierarchieebenen für das Ranking gewichten.
Probleme bei der Auswertung der Überschriften ergeben sich, wenn einzelne Gliederungsebenen vom Autor der Seite (meist wieder aufgrund von Layout-Wünschen) nicht verwendet werden. Beispielsweise könnten <h1>, <h3> und <h4> vorhanden sein, <h2> jedoch nicht. Die Suchmaschine müsste bei der Auswertung dieser Gliederung die verwendeten Überschriften in Relation setzen und entsprechend die Gliederungsstufen bestimmen. In diesem Beispielfall würde <h3> als Überschrift zweiter Ordnung gewertet, <h4> als Überschrift dritter Ordnung.


Tabelle 4.2. HTML-Tags, die zur Extraktion von Strukturinformationen eingesetzt werden können

Tag  Bedeutung 
fett 
big, small  grÖßere/kleinere Schrift in Relation zur Standardschrift 
br  Zeilenumbruch 
font size  Schriftgröße 
hr  Trennlinie 
kursiv 
Textabs”tze 
durchgestrichen 
sup, sub  hochgestellt, tiefgestellt 
table  Tabelle 
unterstrichen 
ul, ol, dl, menu, dir, ul compact  Listendarstellungen 

Tabelle 4.2 zeigt weitere Tags, die für die Strukturbeschreibung eingesetzt werden können, deren primäre Funktion jedoch in gestalterischen Funktionen zu sehen ist. Textauszeichnungen wie <b> (fett), <i> (kursiv) und <u> (unterstrichen) heben bestimmte Passagen eines Texts hervor und kennzeichnen diese als vom Fließtext unterschieden. Wichtig ist auch der Tag <font size>, mit dem die Schriftgröße exakt festgelegt werden kann. Anhand einer größeren Schrift in Relation zum restlichen Text können Überschriften und Hervorhebungen durch die Suchmaschinen erkannt werden.
HTML-Elemente zur Erstellung von Tabellen können dazu dienen, die Erschließung im Kontext durchzuführen. Oft werden die Tabellen weniger dazu genutzt, tatsächliche Tabellen darzustellen, welche strukturiert Informationen darstellen sollen, sondern sie werden als gestalterisches Mittel verwendet, um Text mehrspaltig zu platzieren. Die damit unter Umständen auftauchenden Probleme werden in Kapitel 4.3 behandelt.
Der Grad der Strukturierung variiert deutlich. In der Regel dürften Dokumente, die aus Content-Management-Systemen (CMS) heraus generiert werden (also aus zumindest zum Teil strukturierten Datenbanken), stärker strukturiert sein als solche, die manuell erstellt wurden (Eikvil 1999, 10). CMS speichern die Daten intern in einer relationalen Datenbank und generieren die HTML-Dokumente entweder kontinuierlich bei jeder Aktualisierung oder aber (und dies ist die weit öfter praktizierte Methode) die Dokumente werden „on the fly", das heißt erst in dem Moment, in dem sie von einem Nutzer abgerufen werden, generiert. CMS verfügen in der Regel über Felder für Überschriften, Unterüberschriften und ähnliche Elemente.
Hier wäre für Suchmaschinen ein Ansatz zu suchen, wie aus einer Menge von Dokumenten, die auf einer Website mit dem gleichen System erstellt wurden, Strukturinformationen gewonnen und für die Recherche nutzbar gemacht werden können.
Eine weitere Möglichkeit, HTML-Dokumente zu strukturieren, ist durch sog. Sprungmarken gegeben. Sprungmarken gliedern das Dokument in „Kapitel", die einzeln angewählt werden können, beispielsweise über ein Inhaltsverzeichnis am Anfang eines längeren Dokuments. Externe Links können direkt auf Sprungmarken gesetzt werden, so dass sie auf ein bestimmtes Kapitel dieses Dokuments verweisen anstatt auf den Anfang des Dokuments. Solche Sprungmarken könnten von Suchmaschinen genutzt werden, um Dokumentstrukturen zu ermitteln, aber auch um Ankertexte, die direkt auf Sprungmarken verweisen, dem richtigen Teil des Dokuments zuzuordnen.

Word-Dokumente

Weitere populäre Formate, um Dokumente zu erstellen und im Web abzulegen, sind die Microsoft-Office-Formate. In Hinblick auf die für diese Untersuchung relevanten Textformate soll die Möglichkeit, Strukturinformationen aus Word-Dokumenten zu gewinnen näher betrachtet werden. Als Austauschformat für Word-Dateien wurde von Microsoft das Rich Text Format (RTF) entwickelt. Auch in diesem Format liegen viele Dokumente im Web vor; in Fragen der Erschließung ergeben sich allerdings keine Unterschiede zum proprietären Word-Format (.doc). Die im Folgenden gemachten Aussagen gelten grundsätzlich auch für andere Textverarbeitungsprogramme, da die Strukturierung der Dokumente hier ähnlich erfolgt.
Es ist möglich, Word-Dokumente mittels Formatvorlagen zu strukturieren. Dabei ist es sowohl möglich, auf im Programm vorgegebenen Formatvorlagen zurückzugreifen als auch diese zu erweitern bzw. neue Formatvorlagen zu erstellen. Vorgegebene Vorlagen beinhalten etwa Überschriften unterschiedlicher Hierarchieordnungen, die für die Erschließung der Struktur des Dokuments von Bedeutung sind. Werden vom Autor eines Dokuments die bestehenden Formatvorlagen verwendet, so können Suchmaschinen die Struktur des Dokuments relativ leicht erfassen. Probleme bereiten selbst erstellte Formatvorlagen und Erweiterungen. Ein Autor könnte beispielsweise eine eigene Vorlage erstellen, die alle Definitionen, die in seinem Text vorkommen, entsprechend kennzeichnet. Allerdings kann hier die Suchmaschine nicht entscheiden, welche Art von Elementen auf welche Weise gekennzeichnet ist. Suchmaschinen sollten also die Struktur des Dokuments aufgrund von bestehenden Standard-Formatvorlagen auswerten, Erweiterungen und eigens erstellte Formatvorlagen allerdings außer acht lassen.
Da Formatvorlagen in der Textverarbeitung allerdings nicht zwingend verwendet werden müssen, bestehen hier die gleichen Probleme wie bei HTML-Dokumenten, die ohne die strukturbeschreibenden Tags erstellt wurden. Hier ist u.a. aufgrund der Relation der Schriftgrößen zu entscheiden, welche Elemente Überschriften, Hervorhebungen oder ähnliches darstellen.
Word bietet weiterhin die Möglichkeit, Meta-Informationen in das Dokument zu integrieren. Dabei ist zu unterscheiden zwischen Informationen, die vom Programm automatisch eingefügt werden (aber später durch den Autor verändert werden können) und solchen, die vom Autor selbst erstellt werden.
Die Autorenangaben und die Firma oder Institution, der der Autor zugeordnet ist, werden vom Programm aus den Lizenzinformationen übernommen. Die Titelinformationen werden nach dem ersten Speichern des Dokuments auf Grundlage des Dateinamens erstellt. Wird der Dateiname später verändert, werden die Titelinformationen allerdings nicht automatisch mit verändert. Hier liegt auch das Problem der Erschließung dieser Informationen: ihnen mangelt es an Zuverlässigkeit. Die wenigsten Autoren erstellen bzw. verändern die vorgegebenen Informationen, so dass die entsprechenden Felder entweder leer bleiben oder mit nicht (mehr) zutreffenden Informationen gefüllt sind.
Mögliche Meta-Informationen, die vom Autor selbst hinzugefügt werden müssen, sind beispielsweise Kategorie, Stichwörter und Kommentar. Diese Felder könnten als nützlich betrachtet werden, um den Inhalt des Dokuments kurz zu charakterisieren. Allerdings existieren keinerlei Vorgaben, was in diesen Feldern stehen sollte noch in welcher Form die Informationen angegeben werden sollten. Den meisten Autoren dürfte - sofern sie überhaupt auf diese Felder, die nur über die Dokumenteigenschaften bearbeitbar sind, stoßen - unklar sein, welche Informationen in die jeweiligen Kategorien einzutragen sind. Suchmaschinen sollten deshalb diese Informationen nicht auswerten.

PDF

Das Portable Document Format (PDF) wurde von der Firma Adobe als Austauschformat entwickelt, bei dem plattformunabhängig sämtliche Layoutelemente beibehalten werden. Daher eignen sich PDF-Dateien besonders für Texte, die zitierfähig sein sollen oder deren Layout denen eines gedruckten Pendants entsprechen soll. Weiterhin können mit entsprechender Software PDF-Dateien direkt aus anderen Anwendungen wie etwa Office-Anwendungen erzeugt werden. Dabei können in den Ursprungsdokumenten enthaltene Strukturen umgesetzt werden, indem diese durch „Lesezeichen" abgebildet werden. Die Lesezeichen dienen der Navigation vor allem innerhalb umfangreicher Dokumente und stellen sich in der Anwendung ähnlich den Sprungmarken in HTML dar.
Auch PDF-Dateien enthalten Metainformationen, die in der Regel aus den Ursprungsdokumenten entnommen werden, aber auch veränderbar sind. Ähnlich wie bei den Word-Dokumenten entsteht hier das Problem der Unzuverlässigkeit dieser Angaben, da die dafür vorgesehenen Felder oft nicht ausgefüllt werden oder unklar ist, welche Informationen in welcher Form in bestimmte Felder eingetragen werden sollen.
Die Erschließung von PDF-Dokumenten durch Suchmaschinen ist von besonderer Bedeutung, da diese das bevorzugte Format sind, um umfangreiche Texte verfügbar zu machen. Wissenschaftliche Abhandlungen, technische Dokumentationen und viele Umsetzungen von ursprünglich für Print vorgesehenen Publikationen liegen in diesem Format vor. Alle wichtigen Suchmaschinen unterstützen mittlerweile die Erschließung von PDF-Dokumenten und erlauben die Beschränkung der Suche auf diese.

< 4.1 Strukturierungsgrad von Dokumenten  |  Inhaltsverzeichnis  |  4.3 Trennung von Navigation, Layout und Inhalt >