4.1 Strukturierungsgrad von Dokumenten
Strukturierungsgrad von Dokumenten
Das Problem der nur implizit vorhandenen Strukturinformationen ergibt sich bei
den Dokumenten aus klassischen Datenbanken nicht. Die Dokumente werden schon bei
der Erfassung in ein Feldschema eingepasst, wobei einerseits Felder vorhanden
sind, die das Dokument selbst strukturieren (z.B. Felder für Überschrift,
Anreißer, Text), andererseits Felder für Metainformationen, die erst
bei der Erschließung hinzugefügt werden (bspw. behandelte Unternehmen
oder Personen, Branchenschlüssel).
Web-Dokumente sind dagegen nicht in einer solchen - maschinell gut weiterverarbeitbaren
- Form vorhanden. Oft wird vom WWW als einer Sammlung von unstrukturierten Dokumenten
gesprochen. Allerdings sind Strukturinformationen sowohl explizit (dies allerdings
nur zu einem geringen Anteil) als auch implizit in den Dokumenten enthalten.
Eikvil (1999, 8f.) unterscheidet Dokumente aufgrund ihrer Struktur nach free text
(Fließtext), structured text (strukturierter Text) und semistructured text
(schwach strukturierter Text). In Fließtexten ist keinerlei Unterteilung
beispielsweise nach Überschriften oder Autorenangaben gegeben. Auch Meta-Informationen
wie bspw. die Namen der behandelten Personen fehlen. Als Gegensatz zu den Fließtexten
sind die strukturierten Texte anzusehen. Hier sind alle Daten in Feldern erfasst
und können so leicht recherchiert und maschinell weiterverarbeitet werden.
Diese Art der Texterschließung wird hauptsächlich in professionellen
Datenbanken angewendet. Oft werden umfassende Feldschemata angewandt; so hat etwa
die Handelsblatt-Datenbank mehr als 20 verschiedene Felder, durch welche die Datenbank
sowohl formal als auch inhaltlich erschlossen wird. Dadurch wird eine sehr genaue
Recherche ermöglicht. Die Erschließung erfolgt hier manuell, jedoch
ist in solchen thematisch begrenzten Datenbeständen auch eine maschinelle
Erschließung erfolgreich (so etwa bei Factiva).
Unter semistructured text versteht Eikvil ein Zwischending aus den beiden anderen
Text-Arten. Da diese Texte im Gegensatz zu den Fließtexten keiner grammatischen
Struktur folgen (indem sie zum Beispiel im Telegrammstil verfasst sind), aber
auch nicht über eine entsprechende Feldstrukturierung verfügen, sei
ihre Erschließung besonders schwierig. Weder lasse sich das Feld-Schema
anwenden, noch die Verarbeitung natürlicher Sprache. Für die vorliegende
Arbeit ist diese Definition nicht ausreichend, da HTML-Dokumente nicht in den
Bereich der semi-strukturierten Dokumente fallen würden, sondern dem Fließtext
zugeordnet werden müssten. Dabei würden die vorhandenen Textauszeichnungen
unberücksichtigt bleiben.
Henzinger, Motwani und Silverstein (2002, 10f.) sehen semi-structured data (schwach
strukturierte Daten) als aus strukturierten Datenbanken generierten Inhalt an,
der allerdings auf der HTML-Seite seine Strukturinformationen verloren hat. Hier
seien Ansätze zu finden, wie sich die Strukturinformationen wiedergewinnen
lassen.
Die meisten Webseiten fallen jedoch nach dieser Definition weder in die Kategorie
der strukturierten, der unstrukturierten noch der semi-strukturierten Daten. Für
sie ist eine weitere Kategorie notwendig, da sie zwar dem unstrukturierten Fließtext
ähnlich sind, durch die HTML-Tags jedoch auch Strukturinformationen enthalten.
Diese sind allerdings von den Autoren oft nicht bedacht worden, sondern ergeben
sich aus deren Layout-Wünschen.
Im Folgenden soll deshalb eine andere Definition für schwach strukturierte
Dokumente verwendet werden: Diese Dokumente enthalten demnach teilweise eine Strukturierung
in Felder, ohne dass diese Strukturierung allerdings einheitlich erfolgt oder
die Struktur des Dokuments explizit vom Autor vorgegeben wird. Vielmehr handelt
es sich in vielen Fällen von Webseiten eher um eine Struktur innerhalb des
Texts, die durch gestalterische Aspekte gebildet wird. So kann beispielsweise
anhand der gewählten Schriftgröße erkannt werden, ob es sich bei
einer Textpassage um eine (Zwischen-)Überschrift handelt und welche Bedeutung
diese innerhalb des Texts einnimmt.