
In diesem Abschnitt sollen neben den technischen Komponenten der Suchmaschinen
auch die Standards im Bereich der Benutzeroberflächen und der Ergebnispräsentation
beschrieben werden. Dabei soll prototypisch beschrieben werden, wie eine Suchmaschine
aufgebaut ist und aus welchen Teilen sie besteht. Bei einzelnen Systemen mögen
Abweichungen gegenüber dieser Darstellung bestehen, für das Verständnis
des Aufbaus sind jedoch die dargestellten Kernpunkte von Bedeutung. Diese sind
bei unterschiedlichen Systemen die gleichen oder zumindest ähnlich.
Abbildung 2.4 zeigt den Aufbau einer algorithmischen Suchmaschine prototypisch
am Beispiel von AltaVista . Die wichtigsten in der Abbildung dargestellten Komponenten
sind:
• Automated Web Browser (Crawler)
• Parsing Module (Syntaxanalyse)
• Indexing Module (Indexierer)
• Query Module (Abfragemodul)
• Index Stream Readers (ISR)
• Index
• Maintenance Module (Datenpflege)
Ähnliche Darstellungen des Aufbaus von Suchmaschinen finden sich auch in
Brin u. Page (1998), Liddy (2001) und Arasu et al. (2001).
Beim Automated Web Browser handelt es sich um die Einheit, die in der Regel
als Crawler oder Robot bezeichnet wird. Im weiteren Verlauf der vorliegenden
Arbeit wird der Begriff Crawler verwendet werden. Die Aufgabe des Crawlers ist
es, neue Dokumente aufzufinden, indem Hyperlinks innerhalb bereits bekannter
Dokumente verfolgt werden. Der Crawl-Vorgang findet kontinuierlich statt. Auf
den Crawling-Prozeß und die damit verbundenen Probleme wird in Kapitel
3.3 genauer eingegangen.
Das Parsing Module (das System zur Syntaxanalyse) zerlegt die gefundenen Dokumente
in indexierbare Einheiten (also in einzelne Wörter, Wortstämme oder
N-Gramme) und verzeichnet deren Vorkommen innerhalb des Dokuments.
Das Indexing Module speichert die Wort-Speicherstelle-Paare ab. So werden zwei
Indizes erstellt, erstens derjenige der Wörter mit den Nummern der Dokumente,
in denen diese vorkommen und zweitens ein Index mit den Dokumentnummern und
denen ihnen zugeordneten Wörtern. So können einerseits sämtliche
Dokumente ermittelt werden, die ein bestimmtes Wort oder mehrere bestimmte Wörter
enthalten. Andererseits ist es möglich, alle in einem Dokument vorkommenden
Wörter zu ermitteln.

Abb. 2.4. Architektur der Suchmaschine AltaVista (Burrows 1998, fig. 2)
Gibt der Nutzer eine Suchanfrage ein, so wird mittels des Query Module der Index
abgefragt. Das Query Module setzt die eingegebene Suchanfrage in eine weiterverarbeitbare
Form um. Dabei werden beispielsweise besondere Befehle und Operatoren so aufgelöst,
dass sie entsprechend im Index abgefragt werden können. Die Index Stream
Readers (ISR) dienen dazu, die umgesetzte Suchanfrage mit dem Index abzugleichen
und die passenden Dokumente an das Query Module zurückzugeben. Von dort
aus werden die Informationen zu den gefundenen Dokumenten an den Nutzer ausgegeben.
Letztlich ist noch das Maintenance Module zu erwähnen, welches für
eine kontinuierliche Index-Aktualisierung bei laufendem Betrieb und die Aussonderung
von Dubletten aus dem Index sorgt.
Suchmaschinen für das WWW gibt es seit mittlerweile etwa zehn Jahren. Auffällig
ist, dass sich bei allen technischen Verbesserungen und Moden in der Gestaltung
von Web-Angeboten bei den Suchmaschinen gewisse De-facto-Standards in Bezug
auf die Benutzeroberflächen und die Präsentation der Ergebnisse herausgebildet
haben.
Die Standard-Benutzeroberfläche, die der Nutzer beim Aufrufen der Suchmaschine
zu sehen bekommt, besteht in der Regel aus nur einem Eingabefeld und keinen
bis nur wenigen Einschränkungsmöglichkeiten. Die „Titelseiten"
der Suchmaschinen sind meist schlicht gestaltet und auf das Suchfeld konzentriert.
Eine Ausnahme bildet Yahoo, welches sich bei aller Bedeutung als Suchmaschine
auf die umfangreichen Portalangebote konzentriert. Allerdings existiert auch
hier eine eigene, schlicht gestaltete Einstiegsseite für die Suche.
Auf den Startseiten der Suchmaschinen findet sich oft auch schon die Möglichkeit,
einen bestimmten Datenbestand auszuwählen, in dem dann die Suche durchgeführt
werden soll. Dies kann beispielsweise eine Suche im Nachrichtenbestand, in einem
eigenen Web-Verzeichnis oder eine Produktsuche sein.
Für fortgeschrittene Nutzer oder solche mit komplexeren Suchanfragen stehen
bei allen Suchmaschinen sog. erweiterte Suchformulare zur Verfügung. Hier
stehen umfangreichere Suchfunktionen zur Verfügung. Auf diese wird im nächsten
Abschnitt dieses Kapitels näher eingegangen. Auch die Gestaltung der erweiterten
Suche orientiert sich an den Bedürfnissen des ungeübten Nutzers: Die
Suche ist menügesteuert, oft stehen Auswahlfelder zur Verfügung. Trotz
der anscheinend guten Bedienbarkeit dieser Suchformulare werden die erweiterten
Suchfunktionen von den Nutzern kaum angenommen (Spink u. Jansen 2004, 77).
Auch die Präsentation der Suchergebnisse ist bei den meisten Suchmaschinen
von erstaunlicher Ähnlichkeit. Es wird eine Liste von meist zehn Treffern
präsentiert, die nach ihrer Relevanz geordnet sind. Zu den Treffern werden
standardmäßig die folgenden Informationen gegeben (vgl. auch Fauldrath
u. Kunisch 2005, 26):
• Titel der Seite
• Kurze Beschreibung des Inhalts: Entweder wird eine in den Metainformationen
der Seite enthaltene Zusammenfassung verwendet oder die eingegebenen Suchwörter
werden in ihrem Kontext angezeigt (keywords in context).
• URL der Seite
• Von vielen Suchmaschinen werden unter jedem Suchergebnis Verweise auf
ähnliche Dokumente, eine von der Suchmaschine zum Zeitpunkt der Indexierung
gespeicherte Kopie des Dokuments (Cache), auf ähnliche Dokumente und im
Fall von Nicht-HTML-Dokumenten ein Verweis auf eine von der Suchmaschine erstellte
HTML-Version angeboten.
Abweichungen von dieser Präsentationsform finden sich nur selten. Alle
wichtigen Suchmaschinen bieten wenigstens in einem ersten Schritt nach dem Abschicken
einer Suchanfrage direkt eine Trefferliste in dieser Form an. Größere
Unterschiede gibt es allerdings bei den Möglichkeiten, die ausgegebenen
Ergebnisse zu filtern und die Suchanfrage zu modifizieren. Diese Möglichkeiten
werden in Kapitel 10 ausführlich dargestellt. Grundsätzlich sind die
Suchmaschinen allerdings darauf angelegt, auf die Eingabe von Suchbegriffen
hin direkt im ersten Schritt ein brauchbares Ergebnis zurückzugeben.
Die Trefferlisten werden stets nach der angenommenen Relevanz angeordnet, weitere
Anordnungsmöglichkeiten, wie sei in Datenbanken üblich sind (wie etwa
nach dem Datum) werden nicht unterstützt.