
Für die Erschließung von Web-Dokumenten ist die Einbeziehung der
Dokumentstruktur von besonderer Bedeutung. Hierbei handelt es sich neben explizit
im Dokumententext gekennzeichneten Feldmerkmalen vor allem um im Dokument implizit
enthaltene Strukturmerkmale, die primär anderen Zwecken als der Dokumenterschließung
dienen und oft von den Autoren nicht bewusst eingesetzt werden. Zu denken ist
hier etwa an Strukturen, die aus den Layout- oder Navigationselementen von Dokumenten
abgeleitet werden können.
Dieses Kapitel gibt zuerst einen Überblick über die unterschiedlichen
Strukturierungsgrade von Web-Dokumenten, stellt dann die im Web gängigsten
Dokumentformate in Hinblick auf die Auswertbarkeit ihrer Strukturmerkmale vor
und zieht aus den gewonnenen Erkenntnissen schließlich Konsequenzen für
die Dokumentrepräsentation in den Datenbanken der Suchmaschinen.