Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 4.3 Trennung von Navigation, Layout und Inhalt
< 4.2 Strukturinformationen in den im Web gängigen Dokumenten  |  Inhaltsverzeichnis  |  4.4 Repräsentation der Dokumente in den Datenbanken der Suchmaschinen >
4.3 Trennung von Navigation, Layout und Inhalt

Trennung von Navigation, Layout und Inhalt

Webseiten enthalten in der Regel neben dem eigentlichen Inhalt (dem Text) als weitere Bestandteile Navigationselemente und Elemente des Layouts. Seitens der Site-Betreiber wird hier eine formale Trennung gewünscht, um bequem eines dieser Elemente ändern zu können, ohne jede einzelne Seite einer Site einzeln verändern zu müssen.
Eine frühere Lösung für dieses Problem war der Einsatz von sog. Frames. Mit Hilfe von Angaben in einem Frameset können mehrere HTML-Dokumente zur Darstellung innerhalb desselben Browserfensters angeordnet werden. So können Inhalts- und Navigationselemente voneinander getrennt werden. Allerdings werden solche Dokumente auch von den Suchmaschinen als mehrere einzelne Dokumente betrachtet und entsprechend einzeln erschlossen. Dies wäre an sich wünschenswert, wirft jedoch das Problem auf, dass Nutzer, die in einer Trefferliste auf ein entsprechendes Dokument klicken, auch nur dieses und nicht das komplette Frameset angezeigt bekommen. Es besteht die Möglichkeit, bei solch einem Einzelaufruf das Frameset neu zu genieren, dies ist allerdings als Behelfslösung zu betrachten. Der Einsatz von Framesets hat unter anderem aus diesem Grund in den letzten Jahren deutlich abgenommen. Durch Content-Management-Systeme und das Aufkommen von Skriptsprachen können unterschiedliche Bestandteile der Dokumente einzeln gepflegt werden und erst beim Aufrufen des Dokuments wieder zusammengefügt werden.
Das Zusammenfügen von unterschiedlichen Inhaltselementen wie Text, Werbung und Hinweise auf weitere Dokumente innerhalb derselben Website geschieht in der Regel innerhalb einer Tabelle mit mehreren Spalten. Hierbei können die Inhalte der Spalten deutlich voneinander unterschieden sein; üblich sind zum Beispiel in einer Spalte Hinweise auf weitere Artikel, die auf derselben Website verfügbar sind. Begriffe aus diesen Hinweisen sind für die Erschließung nicht hilfreich, da sie nicht im Kontext des eigentlichen Inhalts des Dokuments stehen. Abbildung 4.1 zeigt den typischen Aufbau einer Webseite mit Hilfe von Tabellen und verdeutlicht die Problematik mit Suchbegriffen in unterschiedlichen Spalten, die nicht im Kontext zueinander stehen. Hervorgehoben sind die Begriffe „Heise", „Virenschutz" und „Google". Alle drei sind im Dokument enthalten, der Text in der mittleren Spalte (also der eigentlich zu erschließende Inhalt des Dokuments) enthält jedoch nur zwei der Begriffe.
Probleme dieser Art treten insbesondere bei Suchanfragen auf, die als Ergebnis nur eine kleine Anzahl von Treffern liefern. Solche Treffer sind für die Suchanfrage nicht relevant und werden nur zurückgegeben, weil die Suchmaschinen den eigentlichen Inhaltsteil der Dokumente nicht erkennen können. Insbesondere durch die Tabellenstruktur könnten die Suchmaschinen jedoch erkennen, welche Elemente einer Seite tatsächlich inhaltstragend sind. Die Präzision der Suchergebnisse könnte so erhöht werden. Ein entsprechender Ansatz zur Ermittlung des eigentlichen Inhalts von durch Tabellen strukturierten HTML-Dokumenten wird in Kap. 13.1 vorgestellt.


Abb. 4.1. Aufbau eines dreispaltigen HTML-Dokuments mit Hilfe von Tabellen

< 4.2 Strukturinformationen in den im Web gängigen Dokumenten  |  Inhaltsverzeichnis  |  4.4 Repräsentation der Dokumente in den Datenbanken der Suchmaschinen >