3.3 Crawling
Crawling
Ziel des Crawlings ist das Auffinden aller im Web vorhandenen bzw. aller als für
den jeweiligen Index als wichtig betrachteten Dokumente. Eine Grenze ist dabei
unter anderem durch die von der Suchmaschine angestrebte bzw. durch Gegebenheiten
der Hardware vorgegebene Indexgröße gegeben.
Der Prozess des Crawlings verläuft durch das Traversieren der Linkstruktur
des Web. Prinzipiell kann hier von einem einzigen Dokument ausgegangen werden.
Nach der Erfassung dieses Dokuments werden die darin enthaltenen Links verfolgt,
wodurch neue Dokumente gefunden werden. Diese werden wiederum erschlossen, enthaltene
Links werden wiederum verfolgt. Im Idealfall ließe sich durch dieses Verfahren
das gesamte Web erschließen; wie in Abschnitt 3.2 dargestellt, stehen dem
jedoch strukturelle Merkmale des Web entgegen. Beim Neuaufbau eines Index ist
daher von einer Menge von Startdokumenten auszugehen, die über möglichst
viele Bereiche des Web verteilt sein sollten. Um auch die disconnected components
erschließen zu können, sollte eine Anmeldemöglichkeit für
neue Sites bestehen.
Ausgehend von einem bereits bestehenden Index erfüllt der Crawling-Vorgang
vier Aufgaben. Es werden Informationen über
• neue Dokumente
• veränderte Dokumente
• gelöschte Dokumente
• verschobene Dokumente
ermittelt.
Neue Dokumente werden gefunden, sobald sie von einer bekannten Seite aus verlinkt
werden. Dies kann zu Verzögerungen bei der Erschließung neuer Dokumente
führen, da diese erst einen gewissen Bekanntheitsgrad erreichen müssen,
um verlinkt zu werden. Als Dilemma ist hier zu betrachten, dass solche Dokumente
wiederum erst bekannt werden, wenn eine entsprechende Verlinkung besteht.
Der Crawling-Prozess wird periodisch wiederholt. Bereits erfasste Dokumente werden
dabei auf Veränderungen hin überprüft und gegebenenfalls im Index
aktualisiert. Auf Fragen der Aktualität der Indizes wird im nächsten
Abschnitt dieses Kapitels ausführlicher eingegangen.
Bei der Überprüfung bekannter Seiten durch den Crawler kann auch die
Löschung oder der Umzug der entsprechenden Seite festgestellt werden. In
diesen Fällen wird vom besuchten Server ein Fehlercode zurückgegeben.
Das Dokument wird aus dem Index der Suchmaschine gelöscht bzw. kann, falls
das Dokument zu einer neuen URL „verzogen" ist und dies vom Server
entsprechend angegeben wird, unter seiner neuen Adresse neu erschlossen werden.
Neben den bereits angesprochenen Crawling-Problemen aufgrund der Linkstruktur
bestehen weitere Problemfelder, die berücksichtigt werden müssen.
Aufgrund der Unmöglichkeit vollständiger Indizes ist zu entscheiden,
welche Sites bevorzugt erfasst werden sollen. In der Regel wird hier auf link-orientierte
Verfahren zurückgegriffen (vgl. Kapitel 8), wobei stark verlinkte Sites bzw.
Seiten bevorzugt und/oder tiefer indexiert werden (Cho, Garcia-Molina, Page 1998).
In Kombination mit linktopologischen Verfahren beim Ranking lässt sich so
die Listung von nicht mehr vorhandenen Seiten auf den vorderen Rängen der
Trefferlisten minimieren. Zwar wird angestrebt, dem Ideal der vollständigen
Erfassung aller Sites möglichst nahe zu kommen, in Hinblick auf die Crawling-Strategie
ist allerdings zwischen zwei Ansätzen zu unterscheiden. Der erste Ansatz
strebt eine möglichst tiefe Erfassung der gefundenen Sites an, der zweite
verfolgt das Ziel, möglichst viele Sites nachzuweisen, dafür aber Einschränkungen
in der Indexierungstiefe hinnehmen.
Schon im Crawling-Vorgang sollten Dubletten erkannt und aus dem Index herausgehalten
werden (Bharat et al. 2000). Dies kann einerseits auf der Ebene einzelner Dokumente
geschehen, andererseits aber auch schon auf der Ebene der Server bzw. Dokument-Sammlungen.
Gespiegelte Server und Dokumentsammlungen sollten erkannt werden, um Kapazitäten
bei der Indexierung zu sparen (Cho, Shivakumar, Garcia-Molina 1999). Die Dublettenkontrolle
ist von großer Bedeutung, da auftauchende Dubletten die Trefferlisten verstopfen
und damit von weiteren relevanten Dokumenten ablenken können.