Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 5.3 Kriterien für die Aufnahme in den Datenbestand
< 5.2 Kontrolliertes Vokabular  |  Inhaltsverzeichnis  |  5.4 Modelle des Information Retrieval >
5.3 Kriterien für die Aufnahme in den Datenbestand

Kriterien für die Aufnahme in den Datenbestand

Alle Suchmaschinen versuchen, ihren Nutzern möglichst nur die für die gestellte Suchanfrage relevanten Dokumente anzubieten. Ein wichtiger Punkt hierbei ist der Ausschluss von Dokumenten, die unabhängig von einer Suchanfrage als qualitativ nicht ausreichend angesehen werden. Drei Arten von Inhalten lassen sich dabei unterscheiden:
1. Spam (+ eventuell weitere unerwünschte Inhalte)
2. Dubletten
3. Inhaltsarme Seiten
Die Aufnahme von Spam in den Index soll generell vermieden werden. Die Suchmaschinen setzen unterschiedliche Verfahren ein, um Spam zu erkennen und entsprechende Seiten bzw. komplette Sites aus dem Index auszuschließen. Diese Verfahren werden jedoch verständlicherweise nicht dokumentiert, weshalb sie hier nicht ausführlich beschrieben werden können. Klar ist jedoch, dass der Ausschluss solcher Seiten die Qualität der Trefferlisten wesentlich steigern kann bzw. umgekehrt, dass Suchmaschinen, denen es nicht gelingt, entsprechende Seiten aus ihrer Datenbank herauszuhalten, die Qualität ihrer Trefferlisten dadurch verschlechtern.
Neben diesen klar unerwünschten Inhalten gibt es weitere Inhalte, die nicht grundsätzlich von allen Suchmaschinen unerwünscht sind, jedoch beispielsweise aufgrund nationaler Gesetzgebungen ausgeschlossen werden sollen. Es handelt sich hier meist um verbotene Inhalte; allerdings besteht bei den international operierenden Suchmaschinen das Problem der unterschiedlichen Bestimmungen in den verschiedenen Ländern. Die Lösung ist hier weniger der Ausschluss bestimmter Seiten aus dem Index generell, sondern eher der Ausschluss dieser Inhalte aus der jeweils nationalen Suche. Dies wird etwa bei den großen Suchmaschinen Google und Yahoo praktiziert, die bestimmte Inhalte über die Suchinterfaces auf den deutschen Domains nicht zugänglich machen. Allerdings lassen sich solche Einschränkungen - wenn sie dem Nutzer denn bekannt sind - leicht umgehen, indem ein anderes Länderinterface der Suchmaschine benutzt wird.
Dubletten stellen ein großes Problem für die Suchmaschinen dar. Zwar ist das Problem insofern nicht mehr so massiv wie früher, dass alle Suchmaschinen linktopologische Verfahren einsetzen, die Dokumente unabhängig von einer Suchanfrage nach ihrer Qualität bzw. Autorität bewerten und so Dokumente gleichen Inhalts nicht mehr unbedingt direkt hintereinander in der Trefferliste erscheinen. Allerdings sollten Dubletten generell aus dem Index ausgeschlossen werden. Dabei ist zu unterscheiden zwischen Dubletten auf Dokument-Ebene (duplicate pages) und Dubletten auf Site-Ebene (duplicate hosts) (Henzinger 2003, 118). Werden duplicate hosts erkannt, so können diese künftig schon vom Crawling ausgeschlossen werden.
Eine Besonderheit der Dubletten sind Seiten, die einen fast gleichen Inhalt aufweisen, beispielsweise zwei nur marginal unterschiedliche Versionen des gleichen Texts. Allerdings erschließen Suchmaschinen auch oft Seiten, die sich kaum voneinander unterscheiden. Vielfach wird diese Schwäche dazu genutzt, um aus Datenbanken generierte Teaser-Seiten in die Indizes der Suchmaschinen zu bringen (Heinisch 2003, 16ff.). Dabei handelt es sich um Dokumente, in die gezielt potentielle Suchwörter eingebaut werden, um die Seiten in den Suchmaschinen gut zu platzieren. Einen für den Benutzer interessanten Inhalt haben diese Seiten nicht, sondern verweisen auf Inhalte von Datenbanken, die von den Suchmaschinen nicht erschlossen werden können. Solche Teaser-Seiten werden in Masse produziert; in erster Linie von kommerziellen Anbietern, allerdings gibt es auch Fälle öffentlicher Institutionen, die sich dieser Technik bedienen (z. B. Seiffert 2003). Oft bestehen solche Seiten aus nur kurzen Texten und unterscheiden sich voneinander nur durch das jeweils unterschiedliche eingesetzte Suchwort. Solche Seiten werden von den Suchmaschinen heute nicht zuverlässig erkannt. Strittig ist auch die Frage, wie solche Seiten grundsätzlich zu bewerten sind. Zwar gibt es viele negative Beispiele, die die Nutzer auf für die Suchanfrage irrelevante Seiten lenken sollen (wobei solche Seiten dann wiederum als Spam zu betrachten sind), andererseits existieren durchaus Teaser-Seiten, die den Nutzer auf wertvolle Inhalte lenken, die sonst mit Hilfe von Suchmaschinen nicht gefunden werden könnten (Heinisch 2003, 24). Offensichtlich pflegen die populären Suchmaschinen bisher keinen einheitlichen Umgang mit solchen Seiten; manche dieser Angebote finden sich in den Indizes wieder, andere bleiben ausgeschlossen. Klare Kriterien für das jeweilige Vorgehen können nicht festgestellt werden.
Die Teaser-Seiten fallen in den Bereich der inhaltsarmen Seiten. Sie enthalten keinen eigenständigen Text, der dem Benutzer allein nützlich wäre. Ähnlich verhält es sich mit Dokumenten, die nur einen sehr kurzen Text enthalten. Zwar kann auch in diesen die gewünschte Information enthalten sein (meist die Antwort auf eine Faktenfrage; z.B. „Die Höhe des Mount Everest beträgt 8.850 Meter“), dies ist jedoch in den meisten Fällen als für ein umfassenderes Informationsbedürfnis als nicht ausreichend zurückzuweisen. Solche Dokumente könnten aufgrund ihres geringen Umfangs ausgeschlossen werden. Allerdings ist auch hier die in Kapitel 4.3 beschriebene Trennung von Navigations- und Inhaltselementen zu beachten, um die tatsächliche Länge des Dokuments festzustellen.
Festzuhalten ist, dass die Suchmaschinen zwar über Kriterien verfügen, nach denen Dokumente aus den Indizes ausgeschlossen bzw. gar nicht erst in diese aufgenommen werden, diese Kriterien jedoch nicht einheitlich sind und der Nutzer (aus teils verständlichen Gründen) keine Kenntnis von ihnen bekommt. Ein Problem, welches am Beispiel der Teaser-Seiten erläutert wurde, ist darin zu sehen, dass die Suchmaschinen nur unzureichend erkennen können, was ein „echter Text" ist und was nur ein mit potentiellen Suchwörtern gespicktes Dokument. Zwar tauchen solche Dokumente bei ausreichender Konkurrenz zu den gleichen Begriffen aufgrund der Bewertung der Verlinkungsstruktur in der Regel nicht unbedingt auf den vorderen Plätzen der Trefferlisten auf, dazu kann es allerdings kommen, wenn die verwendeten Suchbegriffe alleine, aber vor allem in Kombination mit anderen Begriffen selten sind (als Beispiel zeigt Heinisch (2003, 16ff.) eine Suche nach dem Begriff „Zettelflut").
Bei den Universalsuchmaschinen sind keine inhaltlichen Kriterien für die Aufnahme in den Index vorhanden. Da der Anspruch besteht, möglichst das gesamte WWW zu erfassen (und dem Nutzer diese Vollständigkeit auch suggeriert wird), werden weder gezielt gewisse Inhaltsbereiche ausgeschlossen noch Schwerpunkte gesetzt. Dies wird nur von Spezialsuchmaschinen geleistet, die sich auf ein bestimmtes Themenfeld beschränken.

< 5.2 Kontrolliertes Vokabular  |  Inhaltsverzeichnis  |  5.4 Modelle des Information Retrieval >