
Für die Dokumentrepräsentation sollten alle Teile des Dokuments entfernt
werden, die nicht inhaltstragend sind, sondern allein der Navigation oder dem
Hinweis auf andere Inhalte (intern oder extern; also auch auf Werbung) dienen.
Oft werden Teaser weiterer Inhalte neben einem Text angeboten; der Anteil solcher
Informationen am Gesamttext der Seite kann mitunter einen relativ hohen Anteil
einnehmen (s. z.B. Abb. 13.2, dritte Spalte).
Die indexierten Dokumente lassen sich auf zwei Arten um die unerwünschten
Elemente reduzieren: Bei einem Aufbau des Dokuments mit Hilfe von Tabellen muss
diejenige Tabellenspalte bzw. –zelle gefunden werden, in der die tatsächlichen
Inhalte stehen. Ist das Dokument ohne Tabellen aufgebaut, so müssen die
verschiedenen Dokumente eines Servers miteinander verglichen werden, um gleichlautende
Elemente entfernen zu können.
Bisherige Ansätze der Tabellenerkennung konzentrieren sich darauf, aus
Dokumenten die „echten Tabellen“ zu ermitteln, also diejenigen,
die tatsächliche Inhalte in Tabellenform darstellen. Nach Wang u. Hu (2002)
unterscheiden sich echte Tabellen (genuine tables) und unechte Tabellen (non-genuine
tables) folgendermaßen:
„We define genuine tables to be document entities where a two dimensional
grid is semantically significant in conveying the logical relations among the
cells. Conversely, Non-genuine tables are document entities where <table>
tags are used as a mechanism for grouping contents into clusters for easy viewing
only.”
Die Erkennung von Tabellen ist von Bedeutung, um beispielsweise deren Darstellung
bzw. das Layout von mit Hilfe von geschachtelten Tabellen erstellten HTML-Dokumenten
auf die Anzeige auf kleinen Bildschirmen, also etwa auf mobilen Endgeräten,
anpassen zu können. Allerdings lässt sich die Tabellenerkennung auch
„umkehren“, um gezielt die Layout-Tabellen zu finden und dadurch
die genuin inhaltstragenden Element zu extrahieren. Dabei macht man sich die
Schwäche von HTML zunutze, dass alle Formen eines mehrspaltigen Layouts
mit Tabellen dargestellt werden müssen.

(a)
(b)
(c)
Abb. 13.1. Dokumentaufbau mittels Tabellen
Inhalte können in Tabellen an unterschiedlichen Stellen platziert sein.
Abb. 13.1 zeigt die gängigsten Formen des Tabellenaufbaus in HTML-Dokumenten.
Teil (a) der Abbildung ist der Standardaufbau aus Titel, Navigation und Inhalt.
Es handelt sich um eine zweispaltige Tabelle, wobei die zweite Spalte in zwei
Zeilen (Titel und Inhalt) unterteilt ist. Inhaltstragend ist nur die zweite
Zeile der zweiten Spalte.
In Teil (b) ist eine weitere typische Aufbauform zu sehen. Hierbei handelt es
sich um eine dreispaltige Tabelle mit Titel, Navigation, Inhalt, Werbung und
Hinweisen auf weitere Inhalte der gleichen Website.
Die beschriebenen Formen zeigen nur den typischen Aufbau von HTML-Seiten mit
Tabellen. Daneben werden weitere Arten verwendet, die aber im Wesentlichen den
beschriebenen Arten ähnlich sind. Einen Sonderfall stellt ein Tabellenaufbau
dar, in dem auch der Inhaltsteil über mehrere Tabellenzellen verteilt ist
(Teil (c)). In diesem Fall müssen die Zellen verbunden werden.
Die Erkennung der Tabellen erfolgt mittels der Analyse der verwendeten HTML-Tags.
Es ist zu beachten, dass auch im Inhaltsteil selbst wieder Tabellen vorkommen
können; in diesem Fall echte Tabellen, die der Präsentation von Inhalt
dienen. Es Beispiel hierfür ist in Abb. 13.2 zu sehen. Deutlich wird jedoch,
dass der Inhaltsteil der Tabelle sich dadurch auszeichnet, dass er einerseits
den größten Textumfang hat, andererseits zentral im Tabellengefüge
platziert ist.
Abb. 13.2. Echte Tabelle innerhalb einer Layout-Tabelle (http://www.heise.de/newsticker/meldung/58854)
[26.4.2005]
Abb. 13.3. Aufbau eines Dokuments mit mehreren inhaltstragenden Tabellenzellen
Der von Wang u. Hu (2002) entwickelte Algorithmus ist in der Lage, etwa 95
Prozent der echten Tabellen richtig zu erkennen. Das Verfahren ließe sich
auch dafür einsetzen, den inhaltstragenden Teil von aus Gründen des
Layouts verwendeten Tabellen zu extrahieren. Die Trefferquote dürfte dabei
aufgrund des geringeren Schwierigkeitsgrads noch höher liegen.
Einschränkend muss festgestellt werden, dass sich der Ansatz der Tabellenzerlegung
selbstverständlich nur für Dokumente eignet, die tatsächlich
als Tabellen angelegt sind. Dies dürfte aber mittlerweile bei den meisten
Dokumenten, die auch Navigationselemente oder Werbung enthalten, der Fall sein.
Die aus Content-Management-Systemen generierten Dokumente dürften zu nahezu
hundert Prozent als Tabellen aufgebaut sein.
Des Weiteren ist der Ansatz vor allem auf informationsorientierte Seiten ausgelegt.
Die Extraktion des Inhaltsteils von Tabellen funktioniert nur, wenn es den Inhaltsteil
überhaupt gibt. Abb. 13.3 zeigt ein Beispiel einer mittels einer mehrspaltigen
Tabelle aufgebauten Seite, die Kurzinformationen zu einzelnen Mobiltelefonen
enthält. Die Informationen zu jedem einzelnen Gerät stehen in einer
eigenen Tabellenzelle. Eine Unterscheidung, in welcher einzelnen Zelle nun die
inhaltstragenden Informationen stehen, ist nicht zu treffen. Auf der anderen
Seite wäre auch eine Zusammenführung aller inhaltstragenden Zellen
nicht sinnvoll, da dies eben wieder zu einer Vermischung nicht zusammengehöriger
Inhalte führen würde.
Der Ausschluss von Dokumentteilen bei Dokumenten, die nicht mittels Tabellen
aufgebaut sind, kann allein aufgrund eines Vergleichs aller Dokumente einer
Website erfolgen. Die als gleich ermittelten Teile können dann für
die weitere Dokumenterschließung ausgeschlossen werden. Um nicht ganze
Dokumente vergleichen zu müssen, was einerseits viel Rechenleistung erfordern
und andererseits zu einer erhöhten Fehlerquote führen würde,
kann der Vergleich auf den Beginn und das Ende der Seiten beschränkt werden,
da Navigationselemente, Hinweise und Werbung bevorzugt in diesen Teilen zu finden
sein dürften.