
Eine Besonderheit des WWW ist, dass es über die Möglichkeit verfügt,
unterschiedlichste Dokumenttypen unter einer Oberfläche zu integrieren.
Zwar wird als Standardsprache HTML verwendet, prinzipiell lassen sich jedoch
Dokumente jeden Dateityps einbinden. Die populärsten Dateitypen sollen
hier vorgestellt und auf ihre Erschließungsmöglichkeiten hin untersucht
werden.
Gemäß dem in Kapitel 2 definierten Forschungsfeld dieser Arbeit werden
hier ausschließlich Formate mit textuellen Informationen berücksichtigt.
Die zunehmende Bedeutung von multimedialen Informationen ist unbestritten, die
Basis des Web bilden jedoch weiterhin unterschiedliche Dokumentformate, die
für die Darstellung von Texten geschaffen wurden. In HTML können Grafiken
sowie Audio- und Videodateien unterschiedlicher Formate eingebunden werden.
Sie werden in dieser Arbeit allerdings allein als Bestandteile von HTML-Dokumenten
betrachtet.
Weiterhin existieren im Web Multimedia-Formate wie Flash, die hier nur der Vollständigkeit
halber erwähnt werden. Auch diese fallen nicht in das Themenfeld dieser
Arbeit; im Problemfeld der Internet-Suche sind sie vor allem interessant, weil
sie nur wenig textuelle Informationen enthalten und so die Erschließung
extrem erschweren. Allerdings werden immer mehr Websites komplett in Flash erstellt,
weshalb schon allein aus Gründen eines möglichst vollständigen
Index deren Erschließung gewährleistet werden muss.
Bei der Erschließung der Nicht-Text-Formate konkurrieren zwei Ansätze:
einerseits die Erschließung durch Metadaten (description-based approach),
andererseits die Erschließung durch im „Dokument" selbst enthaltene
Informationen (content-based approach). Nach Chu (2003, 149) ist der erste Ansatz
derjenige, auf den sich die informationswissenschaftliche Forschung konzentriert,
während die Informatik eher dem zweiten Ansatz folgt.
Auch wenn die Anzahl der Multimedia-Dateien im Web ständig steigt, hat
HTML immer noch die größte Bedeutung für die Erstellung von
Web-Dokumenten. Während sich die ursprüngliche Version noch stark
an der komplexen Textauszeichnungssprache SGML orientierte (wovon HTML ein Derivat
ist), verloren die explizit strukturbeschreibenden tags zunehmend an Bedeutung
zu Gunsten von eher Layout-orientierten Auszeichnungen.
Tabelle 4.1 zeigt HTML-Tags, die Teile des Dokuments explizit nach ihrem Inhalt
beschreiben. So kann etwa das Tag <dfn> eingesetzt werden, um eine Definition
zu markieren. Für die Erschließung dieses Dokuments durch Suchmaschinen
würde dies bedeuten, dass die Definition leicht extrahiert werden kann
und auf eine entsprechende Suchanfrage nach einer bestimmten Definition zurückgegeben
werden kann. Leider werden die explizit inhaltsbeschreibenden Tags nur sehr
selten von den Autoren von Webseiten eingesetzt. Der Grund dürfte darin
liegen, dass Webseiten in aller Regel entweder von Laien oder aber von Agenturen
erstellt werden, die eher layout-orientiert arbeiten. Eine explizite Auszeichnung
der verschiedenen Inhaltsblöcke wird von ihnen nicht angestrebt; im Vordergrund
stehen klar Layout-Ansprüche.
Zwei Arten von explizit inhaltsbeschreibenden Tags werden jedoch verwendet:
der <title>-Tag sowie die Klasse der Überschriften <h1> bis
<h6>. Der <title>-Tag eignet sich ausgesprochen gut für die
Erschließung durch Suchmaschinen, da er den Titel des Dokuments bezeichnet.
Er wird daher von den Suchmaschinen auch entsprechend ausgewertet und fließt
meist mit relativ hoher Gewichtung in das Ranking ein. Allerdings muss der <title>-Tag
nicht notwendigerweise mit dem tatsächlichen Titel des Dokuments übereinstimmen.
Bei der Erstellung eines HTML-Dokuments ist es nicht unbedingt notwendig, <title>
mit Inhalt zu füllen, während wohl kaum ein Autor auf eine Hauptüberschrift
in seinem Text verzichten dürfte. Weiterhin werden bei der Erstellung von
HTML-Dokumenten aus WYSIWYG-Editoren heraus die Titelinformationen oft nicht
explizit abgefragt, so dass viele HTML-Dokumente entweder keine Titelinformationen
oder aber von den Editoren eingesetzte Titel wie „no title" oder
ähnliches tragen. Auf Websites, die mit Content-Management-Systemen erstellt
wurden, finden sich oft für alle Dokumente die gleichen Titelinformationen;
für die Beschreibung des einzelnen Dokuments taugen sie daher wenig.
Tabelle 4.1. Explizit inhaltsbeschreibende HTML-Tags
| Tag | Bedeutung |
| abbr | Abkürzung |
| acronym | Akronym |
| address | Adresse |
| blockquote | abgesetztes Zitat |
| cite | Zitat |
| code | Quellcode |
| dfn | Definition |
| dl, dt, dd | abgesetzte Definition |
| em | betont |
| h1, h2, h3, h4, h5, h6 | Ðberschriften |
| ins, del | Ÿnderungsmarkierungen |
| kbd | Tastatureingabe |
| samp | Beispiel |
| strong | stark betont |
| title | Titel |
| var | Variable |
Zuverlässig ist die Auswertung der Überschriften, die mittels der
<hn>-Tags ausgezeichnet werden. Zwar werden auch diese Tags eher layout-orientiert
eingesetzt. Da jedoch in den Standardeinstellungen sowohl von Editoren als auch
von Browsern Überschriften höherer Ordnung größer dargestellt
werden als solche niederer Ordnung, passen hier Layout-Wünsche gut mit
der Strukturbeschreibung zusammen. Anhand der Überschriften können
die Suchmaschinen die Gliederung von Texten erkennen und Begriffe je nach ihrem
Vorkommen auf unterschiedlichen Hierarchieebenen für das Ranking gewichten.
Probleme bei der Auswertung der Überschriften ergeben sich, wenn einzelne
Gliederungsebenen vom Autor der Seite (meist wieder aufgrund von Layout-Wünschen)
nicht verwendet werden. Beispielsweise könnten <h1>, <h3> und
<h4> vorhanden sein, <h2> jedoch nicht. Die Suchmaschine müsste
bei der Auswertung dieser Gliederung die verwendeten Überschriften in Relation
setzen und entsprechend die Gliederungsstufen bestimmen. In diesem Beispielfall
würde <h3> als Überschrift zweiter Ordnung gewertet, <h4>
als Überschrift dritter Ordnung.
Tabelle 4.2. HTML-Tags, die zur Extraktion von Strukturinformationen eingesetzt
werden können
| Tag | Bedeutung |
| b | fett |
| big, small | grÖßere/kleinere Schrift in Relation zur Standardschrift |
| br | Zeilenumbruch |
| font size | Schriftgröße |
| hr | Trennlinie |
| i | kursiv |
| p | Textabs”tze |
| s | durchgestrichen |
| sup, sub | hochgestellt, tiefgestellt |
| table | Tabelle |
| u | unterstrichen |
| ul, ol, dl, menu, dir, ul compact | Listendarstellungen |
Tabelle 4.2 zeigt weitere Tags, die für die Strukturbeschreibung eingesetzt
werden können, deren primäre Funktion jedoch in gestalterischen Funktionen
zu sehen ist. Textauszeichnungen wie <b> (fett), <i> (kursiv) und
<u> (unterstrichen) heben bestimmte Passagen eines Texts hervor und kennzeichnen
diese als vom Fließtext unterschieden. Wichtig ist auch der Tag <font
size>, mit dem die Schriftgröße exakt festgelegt werden kann.
Anhand einer größeren Schrift in Relation zum restlichen Text können
Überschriften und Hervorhebungen durch die Suchmaschinen erkannt werden.
HTML-Elemente zur Erstellung von Tabellen können dazu dienen, die Erschließung
im Kontext durchzuführen. Oft werden die Tabellen weniger dazu genutzt,
tatsächliche Tabellen darzustellen, welche strukturiert Informationen darstellen
sollen, sondern sie werden als gestalterisches Mittel verwendet, um Text mehrspaltig
zu platzieren. Die damit unter Umständen auftauchenden Probleme werden
in Kapitel 4.3 behandelt.
Der Grad der Strukturierung variiert deutlich. In der Regel dürften Dokumente,
die aus Content-Management-Systemen (CMS) heraus generiert werden (also aus
zumindest zum Teil strukturierten Datenbanken), stärker strukturiert sein
als solche, die manuell erstellt wurden (Eikvil 1999, 10). CMS speichern die
Daten intern in einer relationalen Datenbank und generieren die HTML-Dokumente
entweder kontinuierlich bei jeder Aktualisierung oder aber (und dies ist die
weit öfter praktizierte Methode) die Dokumente werden „on the fly",
das heißt erst in dem Moment, in dem sie von einem Nutzer abgerufen werden,
generiert. CMS verfügen in der Regel über Felder für Überschriften,
Unterüberschriften und ähnliche Elemente.
Hier wäre für Suchmaschinen ein Ansatz zu suchen, wie aus einer Menge
von Dokumenten, die auf einer Website mit dem gleichen System erstellt wurden,
Strukturinformationen gewonnen und für die Recherche nutzbar gemacht werden
können.
Eine weitere Möglichkeit, HTML-Dokumente zu strukturieren, ist durch sog.
Sprungmarken gegeben. Sprungmarken gliedern das Dokument in „Kapitel",
die einzeln angewählt werden können, beispielsweise über ein
Inhaltsverzeichnis am Anfang eines längeren Dokuments. Externe Links können
direkt auf Sprungmarken gesetzt werden, so dass sie auf ein bestimmtes Kapitel
dieses Dokuments verweisen anstatt auf den Anfang des Dokuments. Solche Sprungmarken
könnten von Suchmaschinen genutzt werden, um Dokumentstrukturen zu ermitteln,
aber auch um Ankertexte, die direkt auf Sprungmarken verweisen, dem richtigen
Teil des Dokuments zuzuordnen.
Weitere populäre Formate, um Dokumente zu erstellen und im Web abzulegen,
sind die Microsoft-Office-Formate. In Hinblick auf die für diese Untersuchung
relevanten Textformate soll die Möglichkeit, Strukturinformationen aus
Word-Dokumenten zu gewinnen näher betrachtet werden. Als Austauschformat
für Word-Dateien wurde von Microsoft das Rich Text Format (RTF) entwickelt.
Auch in diesem Format liegen viele Dokumente im Web vor; in Fragen der Erschließung
ergeben sich allerdings keine Unterschiede zum proprietären Word-Format
(.doc). Die im Folgenden gemachten Aussagen gelten grundsätzlich auch für
andere Textverarbeitungsprogramme, da die Strukturierung der Dokumente hier
ähnlich erfolgt.
Es ist möglich, Word-Dokumente mittels Formatvorlagen zu strukturieren.
Dabei ist es sowohl möglich, auf im Programm vorgegebenen Formatvorlagen
zurückzugreifen als auch diese zu erweitern bzw. neue Formatvorlagen zu
erstellen. Vorgegebene Vorlagen beinhalten etwa Überschriften unterschiedlicher
Hierarchieordnungen, die für die Erschließung der Struktur des Dokuments
von Bedeutung sind. Werden vom Autor eines Dokuments die bestehenden Formatvorlagen
verwendet, so können Suchmaschinen die Struktur des Dokuments relativ leicht
erfassen. Probleme bereiten selbst erstellte Formatvorlagen und Erweiterungen.
Ein Autor könnte beispielsweise eine eigene Vorlage erstellen, die alle
Definitionen, die in seinem Text vorkommen, entsprechend kennzeichnet. Allerdings
kann hier die Suchmaschine nicht entscheiden, welche Art von Elementen auf welche
Weise gekennzeichnet ist. Suchmaschinen sollten also die Struktur des Dokuments
aufgrund von bestehenden Standard-Formatvorlagen auswerten, Erweiterungen und
eigens erstellte Formatvorlagen allerdings außer acht lassen.
Da Formatvorlagen in der Textverarbeitung allerdings nicht zwingend verwendet
werden müssen, bestehen hier die gleichen Probleme wie bei HTML-Dokumenten,
die ohne die strukturbeschreibenden Tags erstellt wurden. Hier ist u.a. aufgrund
der Relation der Schriftgrößen zu entscheiden, welche Elemente Überschriften,
Hervorhebungen oder ähnliches darstellen.
Word bietet weiterhin die Möglichkeit, Meta-Informationen in das Dokument
zu integrieren. Dabei ist zu unterscheiden zwischen Informationen, die vom Programm
automatisch eingefügt werden (aber später durch den Autor verändert
werden können) und solchen, die vom Autor selbst erstellt werden.
Die Autorenangaben und die Firma oder Institution, der der Autor zugeordnet
ist, werden vom Programm aus den Lizenzinformationen übernommen. Die Titelinformationen
werden nach dem ersten Speichern des Dokuments auf Grundlage des Dateinamens
erstellt. Wird der Dateiname später verändert, werden die Titelinformationen
allerdings nicht automatisch mit verändert. Hier liegt auch das Problem
der Erschließung dieser Informationen: ihnen mangelt es an Zuverlässigkeit.
Die wenigsten Autoren erstellen bzw. verändern die vorgegebenen Informationen,
so dass die entsprechenden Felder entweder leer bleiben oder mit nicht (mehr)
zutreffenden Informationen gefüllt sind.
Mögliche Meta-Informationen, die vom Autor selbst hinzugefügt werden
müssen, sind beispielsweise Kategorie, Stichwörter und Kommentar.
Diese Felder könnten als nützlich betrachtet werden, um den Inhalt
des Dokuments kurz zu charakterisieren. Allerdings existieren keinerlei Vorgaben,
was in diesen Feldern stehen sollte noch in welcher Form die Informationen angegeben
werden sollten. Den meisten Autoren dürfte - sofern sie überhaupt
auf diese Felder, die nur über die Dokumenteigenschaften bearbeitbar sind,
stoßen - unklar sein, welche Informationen in die jeweiligen Kategorien
einzutragen sind. Suchmaschinen sollten deshalb diese Informationen nicht auswerten.
Das Portable Document Format (PDF) wurde von der Firma Adobe als Austauschformat
entwickelt, bei dem plattformunabhängig sämtliche Layoutelemente beibehalten
werden. Daher eignen sich PDF-Dateien besonders für Texte, die zitierfähig
sein sollen oder deren Layout denen eines gedruckten Pendants entsprechen soll.
Weiterhin können mit entsprechender Software PDF-Dateien direkt aus anderen
Anwendungen wie etwa Office-Anwendungen erzeugt werden. Dabei können in
den Ursprungsdokumenten enthaltene Strukturen umgesetzt werden, indem diese
durch „Lesezeichen" abgebildet werden. Die Lesezeichen dienen der
Navigation vor allem innerhalb umfangreicher Dokumente und stellen sich in der
Anwendung ähnlich den Sprungmarken in HTML dar.
Auch PDF-Dateien enthalten Metainformationen, die in der Regel aus den Ursprungsdokumenten
entnommen werden, aber auch veränderbar sind. Ähnlich wie bei den
Word-Dokumenten entsteht hier das Problem der Unzuverlässigkeit dieser
Angaben, da die dafür vorgesehenen Felder oft nicht ausgefüllt werden
oder unklar ist, welche Informationen in welcher Form in bestimmte Felder eingetragen
werden sollen.
Die Erschließung von PDF-Dokumenten durch Suchmaschinen ist von besonderer
Bedeutung, da diese das bevorzugte Format sind, um umfangreiche Texte verfügbar
zu machen. Wissenschaftliche Abhandlungen, technische Dokumentationen und viele
Umsetzungen von ursprünglich für Print vorgesehenen Publikationen
liegen in diesem Format vor. Alle wichtigen Suchmaschinen unterstützen
mittlerweile die Erschließung von PDF-Dokumenten und erlauben die Beschränkung
der Suche auf diese.