Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 13.1 Beschränkung auf den Inhaltsteil der Dokumente
< 13 Verbesserung der Dokumentrepräsentation  |  Inhaltsverzeichnis  |  13.2 Erweiterungen der Dokumentrepräsentation >
13.1 Beschränkung auf den Inhaltsteil der Dokumente

Beschränkung auf den Inhaltsteil der Dokumente

Für die Dokumentrepräsentation sollten alle Teile des Dokuments entfernt werden, die nicht inhaltstragend sind, sondern allein der Navigation oder dem Hinweis auf andere Inhalte (intern oder extern; also auch auf Werbung) dienen. Oft werden Teaser weiterer Inhalte neben einem Text angeboten; der Anteil solcher Informationen am Gesamttext der Seite kann mitunter einen relativ hohen Anteil einnehmen (s. z.B. Abb. 13.2, dritte Spalte).
Die indexierten Dokumente lassen sich auf zwei Arten um die unerwünschten Elemente reduzieren: Bei einem Aufbau des Dokuments mit Hilfe von Tabellen muss diejenige Tabellenspalte bzw. –zelle gefunden werden, in der die tatsächlichen Inhalte stehen. Ist das Dokument ohne Tabellen aufgebaut, so müssen die verschiedenen Dokumente eines Servers miteinander verglichen werden, um gleichlautende Elemente entfernen zu können.
Bisherige Ansätze der Tabellenerkennung konzentrieren sich darauf, aus Dokumenten die „echten Tabellen“ zu ermitteln, also diejenigen, die tatsächliche Inhalte in Tabellenform darstellen. Nach Wang u. Hu (2002) unterscheiden sich echte Tabellen (genuine tables) und unechte Tabellen (non-genuine tables) folgendermaßen:
„We define genuine tables to be document entities where a two dimensional grid is semantically significant in conveying the logical relations among the cells. Conversely, Non-genuine tables are document entities where <table> tags are used as a mechanism for grouping contents into clusters for easy viewing only.”
Die Erkennung von Tabellen ist von Bedeutung, um beispielsweise deren Darstellung bzw. das Layout von mit Hilfe von geschachtelten Tabellen erstellten HTML-Dokumenten auf die Anzeige auf kleinen Bildschirmen, also etwa auf mobilen Endgeräten, anpassen zu können. Allerdings lässt sich die Tabellenerkennung auch „umkehren“, um gezielt die Layout-Tabellen zu finden und dadurch die genuin inhaltstragenden Element zu extrahieren. Dabei macht man sich die Schwäche von HTML zunutze, dass alle Formen eines mehrspaltigen Layouts mit Tabellen dargestellt werden müssen.

(a)

(b)

(c)


Abb. 13.1. Dokumentaufbau mittels Tabellen

Inhalte können in Tabellen an unterschiedlichen Stellen platziert sein. Abb. 13.1 zeigt die gängigsten Formen des Tabellenaufbaus in HTML-Dokumenten. Teil (a) der Abbildung ist der Standardaufbau aus Titel, Navigation und Inhalt. Es handelt sich um eine zweispaltige Tabelle, wobei die zweite Spalte in zwei Zeilen (Titel und Inhalt) unterteilt ist. Inhaltstragend ist nur die zweite Zeile der zweiten Spalte.
In Teil (b) ist eine weitere typische Aufbauform zu sehen. Hierbei handelt es sich um eine dreispaltige Tabelle mit Titel, Navigation, Inhalt, Werbung und Hinweisen auf weitere Inhalte der gleichen Website.
Die beschriebenen Formen zeigen nur den typischen Aufbau von HTML-Seiten mit Tabellen. Daneben werden weitere Arten verwendet, die aber im Wesentlichen den beschriebenen Arten ähnlich sind. Einen Sonderfall stellt ein Tabellenaufbau dar, in dem auch der Inhaltsteil über mehrere Tabellenzellen verteilt ist (Teil (c)). In diesem Fall müssen die Zellen verbunden werden.
Die Erkennung der Tabellen erfolgt mittels der Analyse der verwendeten HTML-Tags. Es ist zu beachten, dass auch im Inhaltsteil selbst wieder Tabellen vorkommen können; in diesem Fall echte Tabellen, die der Präsentation von Inhalt dienen. Es Beispiel hierfür ist in Abb. 13.2 zu sehen. Deutlich wird jedoch, dass der Inhaltsteil der Tabelle sich dadurch auszeichnet, dass er einerseits den größten Textumfang hat, andererseits zentral im Tabellengefüge platziert ist.

Abb. 13.2. Echte Tabelle innerhalb einer Layout-Tabelle (http://www.heise.de/newsticker/meldung/58854) [26.4.2005]

Abb. 13.3. Aufbau eines Dokuments mit mehreren inhaltstragenden Tabellenzellen

Der von Wang u. Hu (2002) entwickelte Algorithmus ist in der Lage, etwa 95 Prozent der echten Tabellen richtig zu erkennen. Das Verfahren ließe sich auch dafür einsetzen, den inhaltstragenden Teil von aus Gründen des Layouts verwendeten Tabellen zu extrahieren. Die Trefferquote dürfte dabei aufgrund des geringeren Schwierigkeitsgrads noch höher liegen.
Einschränkend muss festgestellt werden, dass sich der Ansatz der Tabellenzerlegung selbstverständlich nur für Dokumente eignet, die tatsächlich als Tabellen angelegt sind. Dies dürfte aber mittlerweile bei den meisten Dokumenten, die auch Navigationselemente oder Werbung enthalten, der Fall sein. Die aus Content-Management-Systemen generierten Dokumente dürften zu nahezu hundert Prozent als Tabellen aufgebaut sein.
Des Weiteren ist der Ansatz vor allem auf informationsorientierte Seiten ausgelegt. Die Extraktion des Inhaltsteils von Tabellen funktioniert nur, wenn es den Inhaltsteil überhaupt gibt. Abb. 13.3 zeigt ein Beispiel einer mittels einer mehrspaltigen Tabelle aufgebauten Seite, die Kurzinformationen zu einzelnen Mobiltelefonen enthält. Die Informationen zu jedem einzelnen Gerät stehen in einer eigenen Tabellenzelle. Eine Unterscheidung, in welcher einzelnen Zelle nun die inhaltstragenden Informationen stehen, ist nicht zu treffen. Auf der anderen Seite wäre auch eine Zusammenführung aller inhaltstragenden Zellen nicht sinnvoll, da dies eben wieder zu einer Vermischung nicht zusammengehöriger Inhalte führen würde.
Der Ausschluss von Dokumentteilen bei Dokumenten, die nicht mittels Tabellen aufgebaut sind, kann allein aufgrund eines Vergleichs aller Dokumente einer Website erfolgen. Die als gleich ermittelten Teile können dann für die weitere Dokumenterschließung ausgeschlossen werden. Um nicht ganze Dokumente vergleichen zu müssen, was einerseits viel Rechenleistung erfordern und andererseits zu einer erhöhten Fehlerquote führen würde, kann der Vergleich auf den Beginn und das Ende der Seiten beschränkt werden, da Navigationselemente, Hinweise und Werbung bevorzugt in diesen Teilen zu finden sein dürften.

< 13 Verbesserung der Dokumentrepräsentation  |  Inhaltsverzeichnis  |  13.2 Erweiterungen der Dokumentrepräsentation >