
In der Untersuchung konnte gezeigt werden, dass die Datumsbeschränkung
bei den gängigen Suchmaschinen nur unzureichend funktioniert. Die Suchmaschinen
scheinen auf die falsche Methode zu setzen, um das tatsächliche Aktualisierungsdatum
der Dokumente zu erkennen. Im Folgenden sollen die Möglichkeiten, das Datum
eines Dokuments zu erkennen, diskutiert werden.
Die Textauszeichnungssprache HTML bietet kein eigenes tag, in dem das Datum
eines Dokuments angegeben wird. Deshalb sind Suchmaschinen bei der Aufnahme
von Dokumenten in ihren Index auf andere Indikatoren für die Ermittlung
des Datums eines Dokuments angewiesen. Notess (2004a) gibt einen praxisorientierten
Überblick über die Probleme der Datumsermittlung im Web-Kontext. Dabei
wird auch auf die unterschiedlichen Zeitzonen und die Datumsangaben beispielsweise
in Blog-Software eingegangen.
Für den Kontext dieser Arbeit sind die folgenden vier Möglichkeiten
der Bestimmung des Datums eines HTML-Dokuments von Bedeutung:
• Auswertung der Angaben des Servers, auf dem das Dokument abgelegt ist
• Verwendung des Datums des ersten Auffindens des Dokuments durch die
Suchmaschine
• Auswertung der Angaben in den Metadaten des Dokuments
• Auswertung des Inhalts des Dokuments in Hinblick auf eventuell vorkommende
Datumsangaben
Wird eine Anfrage nach einem Dokument an einen Server gestellt, so werden neben
dem Dokument selbst weitere Informationen zurückgegeben, unter anderem
auch eine Datumsangabe. Diese zeigt das Datum der letzten Änderung des
Dokuments auf dem Server, d.h. das Änderungsdatum der entsprechenden Datei.
Allerdings muss eine Aktualisierung der Datei auf dem Server keine Aktualisierung
des Inhalts dieser Datei bedeuten. Werden beispielsweise alle Inhalte neu auf
den Server überspielt, so erhalten alle Dateien automatisch ein neues Aktualisierungsdatum,
auch wenn die Inhalte selbst nicht geändert wurden. Problematisch sind
auch dynamische Inhalte, die beispielsweise durch Content-Management-Systeme
generiert werden. Die Inhalte werden erst im Moment einer Abfrage mit den Layout-
und Navigationselementen zusammengefügt und an den anfragenden Rechner
geschickt. Das vom Server übermittelte Datum ist dabei stets das aktuelle,
da das Zusammensetzen des Dokuments als die technische Aktualisierung gewertet
wird. Für Suchmaschinen ist dieses Datum dann natürlich nicht brauchbar,
um das tatsächliche Aktualisierungsdatum des Dokumenteninhalts zu bestimmen.
Als eine Möglichkeit, das Erstellungsdatum eines Dokuments zumindest annäherungsweise
zu bestimmen, bietet sich das Datum des ersten Auffindens des Dokuments durch
die Suchmaschine an. In einem kontinuierlichen Crawling-Prozess werden immer
neue Dokumente aufgefunden, die dem Datenbestand hinzugefügt werden. Für
regelmäßig und in kurzen Abständen besuchte Seiten erscheint
das Datum des ersten Auffindens als ein zuverlässiger Näherungswert
des tatsächlichen Erstellungsdatums. Weitere Aktualisierungen des Dokuments
müssen dann allerdings mit anderen Methoden bestimmt werden. Auch hier
muss wieder klar zwischen einer Veränderung des Texts und einer Veränderung
anderer Elemente des Dokuments unterschieden werden.
Ein spezifisches Problem dieses Ansatzes liegt in der Menge all der Dokumente,
die vor dem Start der jeweiligen Suchmaschine erstellt und nicht mehr verändert
wurden. Diesen kann nur das Datum des Beginns der Indexierung durch die Suchmaschine
zugeordnet werden. Weitere Probleme ergeben sich, wenn die Indexgröße
der Suchmaschine beschränkt ist (was in der Regel der Fall ist) und diese
erweitert werden soll. Alle Dokumente, die bei einer solchen Erweiterung neu
hinzugefügt werden, erhalten dann ein aktuelles Erstellungsdatum, auch
wenn die Inhalte unter Umständen schon wesentlich älter sind.
Datumsangaben in den Metainformationen eines Dokuments wären eine gute
Möglichkeit, das tatsächliche Datum des Dokuments zu ermitteln. Eine
Angabe ist sowohl in den „regulären“ Metadaten als auch in
speziellen Metadaten-Sets wie z.B. Dublin Core vorgesehen. Zusätzlich besteht
bei den Metadaten eine klare Vorgabe, in welchem Format die Angaben zu machen
sind. Einerseits ergibt sich allerdings das Problem der Zuverlässigkeit
der Metadaten: Es hat sich gezeigt, dass Metadaten generell von vielen Website-Betreibern
zur Manipulation der Suchmaschinen eingesetzt wurden. Zwar wurden vor allem
die Keyword- und Beschreibungsinformationen manipuliert, wenn allerdings bekannt
ist, dass die Suchmaschinen eine bestimmte Information (also eben z.B. auch
das Datum) auswerten, so ist anzunehmen, dass auch diese Informationen manipuliert
werden würden. Hinsichtlich der Metadaten sind die Suchmaschinen schon
seit einigen Jahren so weit, dass sie diese nicht mehr für das Ranking
auswerten. Meta-Keywords werden generell ignoriert, die Seiten-Beschreibungen
werden oft für die in den Trefferlisten angezeigten Zusammenfassungen eingesetzt,
haben jedoch keinen Einfluss auf das Ranking mehr.
Weiter gegen den Einsatz der Metaangaben für die Datumsbestimmung spricht
deren mangelnde Verwendung. In einer Vorstudie zu der in Abschnitt 11.2 dargestellten
Untersuchung wurde unter anderem festgestellt, dass nur ein verschwindend geringer
Anteil der untersuchten Seiten eine Datumsangabe in den Metatags enthielt. Der
Wert lag unter einem Prozent.
Die letzte Methode, das Datum eines HTML-Dokuments zu ermitteln, ist die Auswertung
seines Inhalts. Datumsangaben haben ein bestimmtes Format (wenn dieses auch
variieren kann; z.B. europäisches vs. US-amerikanisches Datumsformat) und
können daher maschinell gefunden und ausgewertet werden. Des Weiteren werden
Datumsangaben, die sich auf das Erstellungs- bzw. Aktualisierungsdatum des Dokuments
beziehen, in der Regel an bestimmten Stellen des Dokuments vorkommen (meist
am Anfang oder am Ende), so dass das Auffinden dieser Angaben erleichtert wird.
Teilweise werden die Datumsangaben auf den Seiten allerdings automatisch generiert
und immer das aktuelle Datum eingesetzt. Als einziger Ausweg ist hier der Vergleich
des Inhalts des Texts in seiner alten und seiner neuen Version zu sehen, welcher
allerdings einen gewissen Aufwand erfordert.
Zu beachten sind hier auch die bereits in Kap. 3.4 besprochenen Ergebnisse von
Ntoulas, Cho und Olston (2004). Es sollte dringend der Veränderungsgrad
der Dokumente beachtet werden, um zu vermeiden, dass nur geringe Veränderungen
(wie eben die Aktualisierung der Datumsangabe oder des Copyright-Vermerks) als
Aktualisierungen des Dokumententexts gewertet werden.
Suchmaschinen könnten, wenn der Text des Dokuments aktualisiert wurde,
die im Text bzw. seinem Umfeld vorhandene Datumsangabe übernehmen. Allerdings
wurde in der Untersuchung in Kap. 11.2 auch ermittelt, dass nur etwa ein Drittel
aller Dokumente überhaupt eine explizite Datumsangabe enthalten. Für
die anderen Dokumente kann die beschriebene Methode natürlich nicht greifen.
Betrachtet man, wie heutige Suchmaschinen die Aktualisierung der Dokumente feststellen,
so wird deutlich, dass sie sich (zumindest hauptsächlich) auf die Angaben
des Servers verlassen, teils aber auch das Datum des ersten Auffinden des Dokuments
und dessen Veränderungsfrequenz auswerten. Die Auswertung von Metadaten
scheitert aufgrund dessen, dass diese von den Autoren der Dokumente nur selten
angegeben werden. Datumsangaben innerhalb des Dokumententexts werden bisher
nicht ausgewertet.