Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 11.3 Möglichkeiten der Ermittlung von Datumsangaben in Web-Dokumenten
< 11.2 Funktionsfähigkeit der Datumsbeschränkung in Suchmaschinen  |  Inhaltsverzeichnis  |  11.4 Aktualitätsfaktoren im Ranking >
11.3 Möglichkeiten der Ermittlung von Datumsangaben in Web-Dokumenten

Möglichkeiten der Ermittlung von Datumsangaben in Web-Dokumenten

In der Untersuchung konnte gezeigt werden, dass die Datumsbeschränkung bei den gängigen Suchmaschinen nur unzureichend funktioniert. Die Suchmaschinen scheinen auf die falsche Methode zu setzen, um das tatsächliche Aktualisierungsdatum der Dokumente zu erkennen. Im Folgenden sollen die Möglichkeiten, das Datum eines Dokuments zu erkennen, diskutiert werden.
Die Textauszeichnungssprache HTML bietet kein eigenes tag, in dem das Datum eines Dokuments angegeben wird. Deshalb sind Suchmaschinen bei der Aufnahme von Dokumenten in ihren Index auf andere Indikatoren für die Ermittlung des Datums eines Dokuments angewiesen. Notess (2004a) gibt einen praxisorientierten Überblick über die Probleme der Datumsermittlung im Web-Kontext. Dabei wird auch auf die unterschiedlichen Zeitzonen und die Datumsangaben beispielsweise in Blog-Software eingegangen.
Für den Kontext dieser Arbeit sind die folgenden vier Möglichkeiten der Bestimmung des Datums eines HTML-Dokuments von Bedeutung:
• Auswertung der Angaben des Servers, auf dem das Dokument abgelegt ist
• Verwendung des Datums des ersten Auffindens des Dokuments durch die Suchmaschine
• Auswertung der Angaben in den Metadaten des Dokuments
• Auswertung des Inhalts des Dokuments in Hinblick auf eventuell vorkommende Datumsangaben
Wird eine Anfrage nach einem Dokument an einen Server gestellt, so werden neben dem Dokument selbst weitere Informationen zurückgegeben, unter anderem auch eine Datumsangabe. Diese zeigt das Datum der letzten Änderung des Dokuments auf dem Server, d.h. das Änderungsdatum der entsprechenden Datei. Allerdings muss eine Aktualisierung der Datei auf dem Server keine Aktualisierung des Inhalts dieser Datei bedeuten. Werden beispielsweise alle Inhalte neu auf den Server überspielt, so erhalten alle Dateien automatisch ein neues Aktualisierungsdatum, auch wenn die Inhalte selbst nicht geändert wurden. Problematisch sind auch dynamische Inhalte, die beispielsweise durch Content-Management-Systeme generiert werden. Die Inhalte werden erst im Moment einer Abfrage mit den Layout- und Navigationselementen zusammengefügt und an den anfragenden Rechner geschickt. Das vom Server übermittelte Datum ist dabei stets das aktuelle, da das Zusammensetzen des Dokuments als die technische Aktualisierung gewertet wird. Für Suchmaschinen ist dieses Datum dann natürlich nicht brauchbar, um das tatsächliche Aktualisierungsdatum des Dokumenteninhalts zu bestimmen.
Als eine Möglichkeit, das Erstellungsdatum eines Dokuments zumindest annäherungsweise zu bestimmen, bietet sich das Datum des ersten Auffindens des Dokuments durch die Suchmaschine an. In einem kontinuierlichen Crawling-Prozess werden immer neue Dokumente aufgefunden, die dem Datenbestand hinzugefügt werden. Für regelmäßig und in kurzen Abständen besuchte Seiten erscheint das Datum des ersten Auffindens als ein zuverlässiger Näherungswert des tatsächlichen Erstellungsdatums. Weitere Aktualisierungen des Dokuments müssen dann allerdings mit anderen Methoden bestimmt werden. Auch hier muss wieder klar zwischen einer Veränderung des Texts und einer Veränderung anderer Elemente des Dokuments unterschieden werden.
Ein spezifisches Problem dieses Ansatzes liegt in der Menge all der Dokumente, die vor dem Start der jeweiligen Suchmaschine erstellt und nicht mehr verändert wurden. Diesen kann nur das Datum des Beginns der Indexierung durch die Suchmaschine zugeordnet werden. Weitere Probleme ergeben sich, wenn die Indexgröße der Suchmaschine beschränkt ist (was in der Regel der Fall ist) und diese erweitert werden soll. Alle Dokumente, die bei einer solchen Erweiterung neu hinzugefügt werden, erhalten dann ein aktuelles Erstellungsdatum, auch wenn die Inhalte unter Umständen schon wesentlich älter sind.
Datumsangaben in den Metainformationen eines Dokuments wären eine gute Möglichkeit, das tatsächliche Datum des Dokuments zu ermitteln. Eine Angabe ist sowohl in den „regulären“ Metadaten als auch in speziellen Metadaten-Sets wie z.B. Dublin Core vorgesehen. Zusätzlich besteht bei den Metadaten eine klare Vorgabe, in welchem Format die Angaben zu machen sind. Einerseits ergibt sich allerdings das Problem der Zuverlässigkeit der Metadaten: Es hat sich gezeigt, dass Metadaten generell von vielen Website-Betreibern zur Manipulation der Suchmaschinen eingesetzt wurden. Zwar wurden vor allem die Keyword- und Beschreibungsinformationen manipuliert, wenn allerdings bekannt ist, dass die Suchmaschinen eine bestimmte Information (also eben z.B. auch das Datum) auswerten, so ist anzunehmen, dass auch diese Informationen manipuliert werden würden. Hinsichtlich der Metadaten sind die Suchmaschinen schon seit einigen Jahren so weit, dass sie diese nicht mehr für das Ranking auswerten. Meta-Keywords werden generell ignoriert, die Seiten-Beschreibungen werden oft für die in den Trefferlisten angezeigten Zusammenfassungen eingesetzt, haben jedoch keinen Einfluss auf das Ranking mehr.
Weiter gegen den Einsatz der Metaangaben für die Datumsbestimmung spricht deren mangelnde Verwendung. In einer Vorstudie zu der in Abschnitt 11.2 dargestellten Untersuchung wurde unter anderem festgestellt, dass nur ein verschwindend geringer Anteil der untersuchten Seiten eine Datumsangabe in den Metatags enthielt. Der Wert lag unter einem Prozent.
Die letzte Methode, das Datum eines HTML-Dokuments zu ermitteln, ist die Auswertung seines Inhalts. Datumsangaben haben ein bestimmtes Format (wenn dieses auch variieren kann; z.B. europäisches vs. US-amerikanisches Datumsformat) und können daher maschinell gefunden und ausgewertet werden. Des Weiteren werden Datumsangaben, die sich auf das Erstellungs- bzw. Aktualisierungsdatum des Dokuments beziehen, in der Regel an bestimmten Stellen des Dokuments vorkommen (meist am Anfang oder am Ende), so dass das Auffinden dieser Angaben erleichtert wird. Teilweise werden die Datumsangaben auf den Seiten allerdings automatisch generiert und immer das aktuelle Datum eingesetzt. Als einziger Ausweg ist hier der Vergleich des Inhalts des Texts in seiner alten und seiner neuen Version zu sehen, welcher allerdings einen gewissen Aufwand erfordert.
Zu beachten sind hier auch die bereits in Kap. 3.4 besprochenen Ergebnisse von Ntoulas, Cho und Olston (2004). Es sollte dringend der Veränderungsgrad der Dokumente beachtet werden, um zu vermeiden, dass nur geringe Veränderungen (wie eben die Aktualisierung der Datumsangabe oder des Copyright-Vermerks) als Aktualisierungen des Dokumententexts gewertet werden.
Suchmaschinen könnten, wenn der Text des Dokuments aktualisiert wurde, die im Text bzw. seinem Umfeld vorhandene Datumsangabe übernehmen. Allerdings wurde in der Untersuchung in Kap. 11.2 auch ermittelt, dass nur etwa ein Drittel aller Dokumente überhaupt eine explizite Datumsangabe enthalten. Für die anderen Dokumente kann die beschriebene Methode natürlich nicht greifen.
Betrachtet man, wie heutige Suchmaschinen die Aktualisierung der Dokumente feststellen, so wird deutlich, dass sie sich (zumindest hauptsächlich) auf die Angaben des Servers verlassen, teils aber auch das Datum des ersten Auffinden des Dokuments und dessen Veränderungsfrequenz auswerten. Die Auswertung von Metadaten scheitert aufgrund dessen, dass diese von den Autoren der Dokumente nur selten angegeben werden. Datumsangaben innerhalb des Dokumententexts werden bisher nicht ausgewertet.

< 11.2 Funktionsfähigkeit der Datumsbeschränkung in Suchmaschinen  |  Inhaltsverzeichnis  |  11.4 Aktualitätsfaktoren im Ranking >