
Webseiten enthalten in der Regel neben dem eigentlichen Inhalt (dem Text) als
weitere Bestandteile Navigationselemente und Elemente des Layouts. Seitens der
Site-Betreiber wird hier eine formale Trennung gewünscht, um bequem eines
dieser Elemente ändern zu können, ohne jede einzelne Seite einer Site
einzeln verändern zu müssen.
Eine frühere Lösung für dieses Problem war der Einsatz von sog.
Frames. Mit Hilfe von Angaben in einem Frameset können mehrere HTML-Dokumente
zur Darstellung innerhalb desselben Browserfensters angeordnet werden. So können
Inhalts- und Navigationselemente voneinander getrennt werden. Allerdings werden
solche Dokumente auch von den Suchmaschinen als mehrere einzelne Dokumente betrachtet
und entsprechend einzeln erschlossen. Dies wäre an sich wünschenswert,
wirft jedoch das Problem auf, dass Nutzer, die in einer Trefferliste auf ein
entsprechendes Dokument klicken, auch nur dieses und nicht das komplette Frameset
angezeigt bekommen. Es besteht die Möglichkeit, bei solch einem Einzelaufruf
das Frameset neu zu genieren, dies ist allerdings als Behelfslösung zu
betrachten. Der Einsatz von Framesets hat unter anderem aus diesem Grund in
den letzten Jahren deutlich abgenommen. Durch Content-Management-Systeme und
das Aufkommen von Skriptsprachen können unterschiedliche Bestandteile der
Dokumente einzeln gepflegt werden und erst beim Aufrufen des Dokuments wieder
zusammengefügt werden.
Das Zusammenfügen von unterschiedlichen Inhaltselementen wie Text, Werbung
und Hinweise auf weitere Dokumente innerhalb derselben Website geschieht in
der Regel innerhalb einer Tabelle mit mehreren Spalten. Hierbei können
die Inhalte der Spalten deutlich voneinander unterschieden sein; üblich
sind zum Beispiel in einer Spalte Hinweise auf weitere Artikel, die auf derselben
Website verfügbar sind. Begriffe aus diesen Hinweisen sind für die
Erschließung nicht hilfreich, da sie nicht im Kontext des eigentlichen
Inhalts des Dokuments stehen. Abbildung 4.1 zeigt den typischen Aufbau einer
Webseite mit Hilfe von Tabellen und verdeutlicht die Problematik mit Suchbegriffen
in unterschiedlichen Spalten, die nicht im Kontext zueinander stehen. Hervorgehoben
sind die Begriffe „Heise", „Virenschutz" und „Google".
Alle drei sind im Dokument enthalten, der Text in der mittleren Spalte (also
der eigentlich zu erschließende Inhalt des Dokuments) enthält jedoch
nur zwei der Begriffe.
Probleme dieser Art treten insbesondere bei Suchanfragen auf, die als Ergebnis
nur eine kleine Anzahl von Treffern liefern. Solche Treffer sind für die
Suchanfrage nicht relevant und werden nur zurückgegeben, weil die Suchmaschinen
den eigentlichen Inhaltsteil der Dokumente nicht erkennen können. Insbesondere
durch die Tabellenstruktur könnten die Suchmaschinen jedoch erkennen, welche
Elemente einer Seite tatsächlich inhaltstragend sind. Die Präzision
der Suchergebnisse könnte so erhöht werden. Ein entsprechender Ansatz
zur Ermittlung des eigentlichen Inhalts von durch Tabellen strukturierten HTML-Dokumenten
wird in Kap. 13.1 vorgestellt.

Abb. 4.1. Aufbau eines dreispaltigen HTML-Dokuments mit Hilfe von Tabellen