Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 4.1 Strukturierungsgrad von Dokumenten
< 4 Strukturinformationen  |  Inhaltsverzeichnis  |  4.2 Strukturinformationen in den im Web gängigen Dokumenten >
4.1 Strukturierungsgrad von Dokumenten

Strukturierungsgrad von Dokumenten

Das Problem der nur implizit vorhandenen Strukturinformationen ergibt sich bei den Dokumenten aus klassischen Datenbanken nicht. Die Dokumente werden schon bei der Erfassung in ein Feldschema eingepasst, wobei einerseits Felder vorhanden sind, die das Dokument selbst strukturieren (z.B. Felder für Überschrift, Anreißer, Text), andererseits Felder für Metainformationen, die erst bei der Erschließung hinzugefügt werden (bspw. behandelte Unternehmen oder Personen, Branchenschlüssel).
Web-Dokumente sind dagegen nicht in einer solchen - maschinell gut weiterverarbeitbaren - Form vorhanden. Oft wird vom WWW als einer Sammlung von unstrukturierten Dokumenten gesprochen. Allerdings sind Strukturinformationen sowohl explizit (dies allerdings nur zu einem geringen Anteil) als auch implizit in den Dokumenten enthalten.
Eikvil (1999, 8f.) unterscheidet Dokumente aufgrund ihrer Struktur nach free text (Fließtext), structured text (strukturierter Text) und semistructured text (schwach strukturierter Text). In Fließtexten ist keinerlei Unterteilung beispielsweise nach Überschriften oder Autorenangaben gegeben. Auch Meta-Informationen wie bspw. die Namen der behandelten Personen fehlen. Als Gegensatz zu den Fließtexten sind die strukturierten Texte anzusehen. Hier sind alle Daten in Feldern erfasst und können so leicht recherchiert und maschinell weiterverarbeitet werden. Diese Art der Texterschließung wird hauptsächlich in professionellen Datenbanken angewendet. Oft werden umfassende Feldschemata angewandt; so hat etwa die Handelsblatt-Datenbank mehr als 20 verschiedene Felder, durch welche die Datenbank sowohl formal als auch inhaltlich erschlossen wird. Dadurch wird eine sehr genaue Recherche ermöglicht. Die Erschließung erfolgt hier manuell, jedoch ist in solchen thematisch begrenzten Datenbeständen auch eine maschinelle Erschließung erfolgreich (so etwa bei Factiva).
Unter semistructured text versteht Eikvil ein Zwischending aus den beiden anderen Text-Arten. Da diese Texte im Gegensatz zu den Fließtexten keiner grammatischen Struktur folgen (indem sie zum Beispiel im Telegrammstil verfasst sind), aber auch nicht über eine entsprechende Feldstrukturierung verfügen, sei ihre Erschließung besonders schwierig. Weder lasse sich das Feld-Schema anwenden, noch die Verarbeitung natürlicher Sprache. Für die vorliegende Arbeit ist diese Definition nicht ausreichend, da HTML-Dokumente nicht in den Bereich der semi-strukturierten Dokumente fallen würden, sondern dem Fließtext zugeordnet werden müssten. Dabei würden die vorhandenen Textauszeichnungen unberücksichtigt bleiben.
Henzinger, Motwani und Silverstein (2002, 10f.) sehen semi-structured data (schwach strukturierte Daten) als aus strukturierten Datenbanken generierten Inhalt an, der allerdings auf der HTML-Seite seine Strukturinformationen verloren hat. Hier seien Ansätze zu finden, wie sich die Strukturinformationen wiedergewinnen lassen.
Die meisten Webseiten fallen jedoch nach dieser Definition weder in die Kategorie der strukturierten, der unstrukturierten noch der semi-strukturierten Daten. Für sie ist eine weitere Kategorie notwendig, da sie zwar dem unstrukturierten Fließtext ähnlich sind, durch die HTML-Tags jedoch auch Strukturinformationen enthalten. Diese sind allerdings von den Autoren oft nicht bedacht worden, sondern ergeben sich aus deren Layout-Wünschen.
Im Folgenden soll deshalb eine andere Definition für schwach strukturierte Dokumente verwendet werden: Diese Dokumente enthalten demnach teilweise eine Strukturierung in Felder, ohne dass diese Strukturierung allerdings einheitlich erfolgt oder die Struktur des Dokuments explizit vom Autor vorgegeben wird. Vielmehr handelt es sich in vielen Fällen von Webseiten eher um eine Struktur innerhalb des Texts, die durch gestalterische Aspekte gebildet wird. So kann beispielsweise anhand der gewählten Schriftgröße erkannt werden, ob es sich bei einer Textpassage um eine (Zwischen-)Überschrift handelt und welche Bedeutung diese innerhalb des Texts einnimmt.
< 4 Strukturinformationen  |  Inhaltsverzeichnis  |  4.2 Strukturinformationen in den im Web gängigen Dokumenten >