
Alle Suchmaschinen versuchen, ihren Nutzern möglichst nur die für
die gestellte Suchanfrage relevanten Dokumente anzubieten. Ein wichtiger Punkt
hierbei ist der Ausschluss von Dokumenten, die unabhängig von einer Suchanfrage
als qualitativ nicht ausreichend angesehen werden. Drei Arten von Inhalten lassen
sich dabei unterscheiden:
1. Spam (+ eventuell weitere unerwünschte Inhalte)
2. Dubletten
3. Inhaltsarme Seiten
Die Aufnahme von Spam in den Index soll generell vermieden werden. Die Suchmaschinen
setzen unterschiedliche Verfahren ein, um Spam zu erkennen und entsprechende
Seiten bzw. komplette Sites aus dem Index auszuschließen. Diese Verfahren
werden jedoch verständlicherweise nicht dokumentiert, weshalb sie hier
nicht ausführlich beschrieben werden können. Klar ist jedoch, dass
der Ausschluss solcher Seiten die Qualität der Trefferlisten wesentlich
steigern kann bzw. umgekehrt, dass Suchmaschinen, denen es nicht gelingt, entsprechende
Seiten aus ihrer Datenbank herauszuhalten, die Qualität ihrer Trefferlisten
dadurch verschlechtern.
Neben diesen klar unerwünschten Inhalten gibt es weitere Inhalte, die nicht
grundsätzlich von allen Suchmaschinen unerwünscht sind, jedoch beispielsweise
aufgrund nationaler Gesetzgebungen ausgeschlossen werden sollen. Es handelt
sich hier meist um verbotene Inhalte; allerdings besteht bei den international
operierenden Suchmaschinen das Problem der unterschiedlichen Bestimmungen in
den verschiedenen Ländern. Die Lösung ist hier weniger der Ausschluss
bestimmter Seiten aus dem Index generell, sondern eher der Ausschluss dieser
Inhalte aus der jeweils nationalen Suche. Dies wird etwa bei den großen
Suchmaschinen Google und Yahoo praktiziert, die bestimmte Inhalte über
die Suchinterfaces auf den deutschen Domains nicht zugänglich machen. Allerdings
lassen sich solche Einschränkungen - wenn sie dem Nutzer denn bekannt sind
- leicht umgehen, indem ein anderes Länderinterface der Suchmaschine benutzt
wird.
Dubletten stellen ein großes Problem für die Suchmaschinen dar. Zwar
ist das Problem insofern nicht mehr so massiv wie früher, dass alle Suchmaschinen
linktopologische Verfahren einsetzen, die Dokumente unabhängig von einer
Suchanfrage nach ihrer Qualität bzw. Autorität bewerten und so Dokumente
gleichen Inhalts nicht mehr unbedingt direkt hintereinander in der Trefferliste
erscheinen. Allerdings sollten Dubletten generell aus dem Index ausgeschlossen
werden. Dabei ist zu unterscheiden zwischen Dubletten auf Dokument-Ebene (duplicate
pages) und Dubletten auf Site-Ebene (duplicate hosts) (Henzinger 2003, 118).
Werden duplicate hosts erkannt, so können diese künftig schon vom
Crawling ausgeschlossen werden.
Eine Besonderheit der Dubletten sind Seiten, die einen fast gleichen Inhalt
aufweisen, beispielsweise zwei nur marginal unterschiedliche Versionen des gleichen
Texts. Allerdings erschließen Suchmaschinen auch oft Seiten, die sich
kaum voneinander unterscheiden. Vielfach wird diese Schwäche dazu genutzt,
um aus Datenbanken generierte Teaser-Seiten in die Indizes der Suchmaschinen
zu bringen (Heinisch 2003, 16ff.). Dabei handelt es sich um Dokumente, in die
gezielt potentielle Suchwörter eingebaut werden, um die Seiten in den Suchmaschinen
gut zu platzieren. Einen für den Benutzer interessanten Inhalt haben diese
Seiten nicht, sondern verweisen auf Inhalte von Datenbanken, die von den Suchmaschinen
nicht erschlossen werden können. Solche Teaser-Seiten werden in Masse produziert;
in erster Linie von kommerziellen Anbietern, allerdings gibt es auch Fälle
öffentlicher Institutionen, die sich dieser Technik bedienen (z. B. Seiffert
2003). Oft bestehen solche Seiten aus nur kurzen Texten und unterscheiden sich
voneinander nur durch das jeweils unterschiedliche eingesetzte Suchwort. Solche
Seiten werden von den Suchmaschinen heute nicht zuverlässig erkannt. Strittig
ist auch die Frage, wie solche Seiten grundsätzlich zu bewerten sind. Zwar
gibt es viele negative Beispiele, die die Nutzer auf für die Suchanfrage
irrelevante Seiten lenken sollen (wobei solche Seiten dann wiederum als Spam
zu betrachten sind), andererseits existieren durchaus Teaser-Seiten, die den
Nutzer auf wertvolle Inhalte lenken, die sonst mit Hilfe von Suchmaschinen nicht
gefunden werden könnten (Heinisch 2003, 24). Offensichtlich pflegen die
populären Suchmaschinen bisher keinen einheitlichen Umgang mit solchen
Seiten; manche dieser Angebote finden sich in den Indizes wieder, andere bleiben
ausgeschlossen. Klare Kriterien für das jeweilige Vorgehen können
nicht festgestellt werden.
Die Teaser-Seiten fallen in den Bereich der inhaltsarmen Seiten. Sie enthalten
keinen eigenständigen Text, der dem Benutzer allein nützlich wäre.
Ähnlich verhält es sich mit Dokumenten, die nur einen sehr kurzen
Text enthalten. Zwar kann auch in diesen die gewünschte Information enthalten
sein (meist die Antwort auf eine Faktenfrage; z.B. „Die Höhe des
Mount Everest beträgt 8.850 Meter“), dies ist jedoch in den meisten
Fällen als für ein umfassenderes Informationsbedürfnis als nicht
ausreichend zurückzuweisen. Solche Dokumente könnten aufgrund ihres
geringen Umfangs ausgeschlossen werden. Allerdings ist auch hier die in Kapitel
4.3 beschriebene Trennung von Navigations- und Inhaltselementen zu beachten,
um die tatsächliche Länge des Dokuments festzustellen.
Festzuhalten ist, dass die Suchmaschinen zwar über Kriterien verfügen,
nach denen Dokumente aus den Indizes ausgeschlossen bzw. gar nicht erst in diese
aufgenommen werden, diese Kriterien jedoch nicht einheitlich sind und der Nutzer
(aus teils verständlichen Gründen) keine Kenntnis von ihnen bekommt.
Ein Problem, welches am Beispiel der Teaser-Seiten erläutert wurde, ist
darin zu sehen, dass die Suchmaschinen nur unzureichend erkennen können,
was ein „echter Text" ist und was nur ein mit potentiellen Suchwörtern
gespicktes Dokument. Zwar tauchen solche Dokumente bei ausreichender Konkurrenz
zu den gleichen Begriffen aufgrund der Bewertung der Verlinkungsstruktur in
der Regel nicht unbedingt auf den vorderen Plätzen der Trefferlisten auf,
dazu kann es allerdings kommen, wenn die verwendeten Suchbegriffe alleine, aber
vor allem in Kombination mit anderen Begriffen selten sind (als Beispiel zeigt
Heinisch (2003, 16ff.) eine Suche nach dem Begriff „Zettelflut").
Bei den Universalsuchmaschinen sind keine inhaltlichen Kriterien für die
Aufnahme in den Index vorhanden. Da der Anspruch besteht, möglichst das
gesamte WWW zu erfassen (und dem Nutzer diese Vollständigkeit auch suggeriert
wird), werden weder gezielt gewisse Inhaltsbereiche ausgeschlossen noch Schwerpunkte
gesetzt. Dies wird nur von Spezialsuchmaschinen geleistet, die sich auf ein
bestimmtes Themenfeld beschränken.