Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 2.3 Aufbau algorithmischer Suchmaschinen
< 2.2 Formen der Suche im WWW  |  Inhaltsverzeichnis  |  2.4 Abfragesprachen >
2.3 Aufbau algorithmischer Suchmaschinen

Aufbau von algorithmischen Suchmaschinen


In diesem Abschnitt sollen neben den technischen Komponenten der Suchmaschinen auch die Standards im Bereich der Benutzeroberflächen und der Ergebnispräsentation beschrieben werden. Dabei soll prototypisch beschrieben werden, wie eine Suchmaschine aufgebaut ist und aus welchen Teilen sie besteht. Bei einzelnen Systemen mögen Abweichungen gegenüber dieser Darstellung bestehen, für das Verständnis des Aufbaus sind jedoch die dargestellten Kernpunkte von Bedeutung. Diese sind bei unterschiedlichen Systemen die gleichen oder zumindest ähnlich.
Abbildung 2.4 zeigt den Aufbau einer algorithmischen Suchmaschine prototypisch am Beispiel von AltaVista . Die wichtigsten in der Abbildung dargestellten Komponenten sind:
• Automated Web Browser (Crawler)
• Parsing Module (Syntaxanalyse)
• Indexing Module (Indexierer)
• Query Module (Abfragemodul)
• Index Stream Readers (ISR)
• Index
• Maintenance Module (Datenpflege)
Ähnliche Darstellungen des Aufbaus von Suchmaschinen finden sich auch in Brin u. Page (1998), Liddy (2001) und Arasu et al. (2001).
Beim Automated Web Browser handelt es sich um die Einheit, die in der Regel als Crawler oder Robot bezeichnet wird. Im weiteren Verlauf der vorliegenden Arbeit wird der Begriff Crawler verwendet werden. Die Aufgabe des Crawlers ist es, neue Dokumente aufzufinden, indem Hyperlinks innerhalb bereits bekannter Dokumente verfolgt werden. Der Crawl-Vorgang findet kontinuierlich statt. Auf den Crawling-Prozeß und die damit verbundenen Probleme wird in Kapitel 3.3 genauer eingegangen.
Das Parsing Module (das System zur Syntaxanalyse) zerlegt die gefundenen Dokumente in indexierbare Einheiten (also in einzelne Wörter, Wortstämme oder N-Gramme) und verzeichnet deren Vorkommen innerhalb des Dokuments.
Das Indexing Module speichert die Wort-Speicherstelle-Paare ab. So werden zwei Indizes erstellt, erstens derjenige der Wörter mit den Nummern der Dokumente, in denen diese vorkommen und zweitens ein Index mit den Dokumentnummern und denen ihnen zugeordneten Wörtern. So können einerseits sämtliche Dokumente ermittelt werden, die ein bestimmtes Wort oder mehrere bestimmte Wörter enthalten. Andererseits ist es möglich, alle in einem Dokument vorkommenden Wörter zu ermitteln.


Abb. 2.4. Architektur der Suchmaschine AltaVista (Burrows 1998, fig. 2)


Gibt der Nutzer eine Suchanfrage ein, so wird mittels des Query Module der Index abgefragt. Das Query Module setzt die eingegebene Suchanfrage in eine weiterverarbeitbare Form um. Dabei werden beispielsweise besondere Befehle und Operatoren so aufgelöst, dass sie entsprechend im Index abgefragt werden können. Die Index Stream Readers (ISR) dienen dazu, die umgesetzte Suchanfrage mit dem Index abzugleichen und die passenden Dokumente an das Query Module zurückzugeben. Von dort aus werden die Informationen zu den gefundenen Dokumenten an den Nutzer ausgegeben.
Letztlich ist noch das Maintenance Module zu erwähnen, welches für eine kontinuierliche Index-Aktualisierung bei laufendem Betrieb und die Aussonderung von Dubletten aus dem Index sorgt.
Suchmaschinen für das WWW gibt es seit mittlerweile etwa zehn Jahren. Auffällig ist, dass sich bei allen technischen Verbesserungen und Moden in der Gestaltung von Web-Angeboten bei den Suchmaschinen gewisse De-facto-Standards in Bezug auf die Benutzeroberflächen und die Präsentation der Ergebnisse herausgebildet haben.
Die Standard-Benutzeroberfläche, die der Nutzer beim Aufrufen der Suchmaschine zu sehen bekommt, besteht in der Regel aus nur einem Eingabefeld und keinen bis nur wenigen Einschränkungsmöglichkeiten. Die „Titelseiten" der Suchmaschinen sind meist schlicht gestaltet und auf das Suchfeld konzentriert. Eine Ausnahme bildet Yahoo, welches sich bei aller Bedeutung als Suchmaschine auf die umfangreichen Portalangebote konzentriert. Allerdings existiert auch hier eine eigene, schlicht gestaltete Einstiegsseite für die Suche.
Auf den Startseiten der Suchmaschinen findet sich oft auch schon die Möglichkeit, einen bestimmten Datenbestand auszuwählen, in dem dann die Suche durchgeführt werden soll. Dies kann beispielsweise eine Suche im Nachrichtenbestand, in einem eigenen Web-Verzeichnis oder eine Produktsuche sein.
Für fortgeschrittene Nutzer oder solche mit komplexeren Suchanfragen stehen bei allen Suchmaschinen sog. erweiterte Suchformulare zur Verfügung. Hier stehen umfangreichere Suchfunktionen zur Verfügung. Auf diese wird im nächsten Abschnitt dieses Kapitels näher eingegangen. Auch die Gestaltung der erweiterten Suche orientiert sich an den Bedürfnissen des ungeübten Nutzers: Die Suche ist menügesteuert, oft stehen Auswahlfelder zur Verfügung. Trotz der anscheinend guten Bedienbarkeit dieser Suchformulare werden die erweiterten Suchfunktionen von den Nutzern kaum angenommen (Spink u. Jansen 2004, 77).
Auch die Präsentation der Suchergebnisse ist bei den meisten Suchmaschinen von erstaunlicher Ähnlichkeit. Es wird eine Liste von meist zehn Treffern präsentiert, die nach ihrer Relevanz geordnet sind. Zu den Treffern werden standardmäßig die folgenden Informationen gegeben (vgl. auch Fauldrath u. Kunisch 2005, 26):
• Titel der Seite
• Kurze Beschreibung des Inhalts: Entweder wird eine in den Metainformationen der Seite enthaltene Zusammenfassung verwendet oder die eingegebenen Suchwörter werden in ihrem Kontext angezeigt (keywords in context).
• URL der Seite
• Von vielen Suchmaschinen werden unter jedem Suchergebnis Verweise auf ähnliche Dokumente, eine von der Suchmaschine zum Zeitpunkt der Indexierung gespeicherte Kopie des Dokuments (Cache), auf ähnliche Dokumente und im Fall von Nicht-HTML-Dokumenten ein Verweis auf eine von der Suchmaschine erstellte HTML-Version angeboten.
Abweichungen von dieser Präsentationsform finden sich nur selten. Alle wichtigen Suchmaschinen bieten wenigstens in einem ersten Schritt nach dem Abschicken einer Suchanfrage direkt eine Trefferliste in dieser Form an. Größere Unterschiede gibt es allerdings bei den Möglichkeiten, die ausgegebenen Ergebnisse zu filtern und die Suchanfrage zu modifizieren. Diese Möglichkeiten werden in Kapitel 10 ausführlich dargestellt. Grundsätzlich sind die Suchmaschinen allerdings darauf angelegt, auf die Eingabe von Suchbegriffen hin direkt im ersten Schritt ein brauchbares Ergebnis zurückzugeben.
Die Trefferlisten werden stets nach der angenommenen Relevanz angeordnet, weitere Anordnungsmöglichkeiten, wie sei in Datenbanken üblich sind (wie etwa nach dem Datum) werden nicht unterstützt.

< 2.2 Formen der Suche im WWW  |  Inhaltsverzeichnis  |  2.4 Abfragesprachen >