Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 3.3 Crawling
< 3.2 Die Struktur des Web  |  Inhaltsverzeichnis  |  3.4 Aktualität der Suchmaschinen >
3.3 Crawling

Crawling

Ziel des Crawlings ist das Auffinden aller im Web vorhandenen bzw. aller als für den jeweiligen Index als wichtig betrachteten Dokumente. Eine Grenze ist dabei unter anderem durch die von der Suchmaschine angestrebte bzw. durch Gegebenheiten der Hardware vorgegebene Indexgröße gegeben.
Der Prozess des Crawlings verläuft durch das Traversieren der Linkstruktur des Web. Prinzipiell kann hier von einem einzigen Dokument ausgegangen werden. Nach der Erfassung dieses Dokuments werden die darin enthaltenen Links verfolgt, wodurch neue Dokumente gefunden werden. Diese werden wiederum erschlossen, enthaltene Links werden wiederum verfolgt. Im Idealfall ließe sich durch dieses Verfahren das gesamte Web erschließen; wie in Abschnitt 3.2 dargestellt, stehen dem jedoch strukturelle Merkmale des Web entgegen. Beim Neuaufbau eines Index ist daher von einer Menge von Startdokumenten auszugehen, die über möglichst viele Bereiche des Web verteilt sein sollten. Um auch die disconnected components erschließen zu können, sollte eine Anmeldemöglichkeit für neue Sites bestehen.
Ausgehend von einem bereits bestehenden Index erfüllt der Crawling-Vorgang vier Aufgaben. Es werden Informationen über
• neue Dokumente
• veränderte Dokumente
• gelöschte Dokumente
• verschobene Dokumente
ermittelt.
Neue Dokumente werden gefunden, sobald sie von einer bekannten Seite aus verlinkt werden. Dies kann zu Verzögerungen bei der Erschließung neuer Dokumente führen, da diese erst einen gewissen Bekanntheitsgrad erreichen müssen, um verlinkt zu werden. Als Dilemma ist hier zu betrachten, dass solche Dokumente wiederum erst bekannt werden, wenn eine entsprechende Verlinkung besteht.
Der Crawling-Prozess wird periodisch wiederholt. Bereits erfasste Dokumente werden dabei auf Veränderungen hin überprüft und gegebenenfalls im Index aktualisiert. Auf Fragen der Aktualität der Indizes wird im nächsten Abschnitt dieses Kapitels ausführlicher eingegangen.
Bei der Überprüfung bekannter Seiten durch den Crawler kann auch die Löschung oder der Umzug der entsprechenden Seite festgestellt werden. In diesen Fällen wird vom besuchten Server ein Fehlercode zurückgegeben. Das Dokument wird aus dem Index der Suchmaschine gelöscht bzw. kann, falls das Dokument zu einer neuen URL „verzogen" ist und dies vom Server entsprechend angegeben wird, unter seiner neuen Adresse neu erschlossen werden.
Neben den bereits angesprochenen Crawling-Problemen aufgrund der Linkstruktur bestehen weitere Problemfelder, die berücksichtigt werden müssen.
Aufgrund der Unmöglichkeit vollständiger Indizes ist zu entscheiden, welche Sites bevorzugt erfasst werden sollen. In der Regel wird hier auf link-orientierte Verfahren zurückgegriffen (vgl. Kapitel 8), wobei stark verlinkte Sites bzw. Seiten bevorzugt und/oder tiefer indexiert werden (Cho, Garcia-Molina, Page 1998). In Kombination mit linktopologischen Verfahren beim Ranking lässt sich so die Listung von nicht mehr vorhandenen Seiten auf den vorderen Rängen der Trefferlisten minimieren. Zwar wird angestrebt, dem Ideal der vollständigen Erfassung aller Sites möglichst nahe zu kommen, in Hinblick auf die Crawling-Strategie ist allerdings zwischen zwei Ansätzen zu unterscheiden. Der erste Ansatz strebt eine möglichst tiefe Erfassung der gefundenen Sites an, der zweite verfolgt das Ziel, möglichst viele Sites nachzuweisen, dafür aber Einschränkungen in der Indexierungstiefe hinnehmen.
Schon im Crawling-Vorgang sollten Dubletten erkannt und aus dem Index herausgehalten werden (Bharat et al. 2000). Dies kann einerseits auf der Ebene einzelner Dokumente geschehen, andererseits aber auch schon auf der Ebene der Server bzw. Dokument-Sammlungen. Gespiegelte Server und Dokumentsammlungen sollten erkannt werden, um Kapazitäten bei der Indexierung zu sparen (Cho, Shivakumar, Garcia-Molina 1999). Die Dublettenkontrolle ist von großer Bedeutung, da auftauchende Dubletten die Trefferlisten verstopfen und damit von weiteren relevanten Dokumenten ablenken können.
< 3.2 Die Struktur des Web  |  Inhaltsverzeichnis  |  3.4 Aktualität der Suchmaschinen >