Sie sind hier: www.durchdenken.de > Dirk Lewandowski > Publikationen > Web Information Retrieval > 12.3 Identifizierung von Top-Quellen im WWW
< 12.2 Qualitätsbeschränkungen bei der Recherche in Datenbank-Hosts  |  Inhaltsverzeichnis  |  12.4 Manuelle Einbindung von Top-Quellen >
12.3 Identifizierung von Top-Quellen im WWW

Identifizierung von Top-Quellen im WWW

Nun soll es darum gehen, wie die Top-Quellen für eine Anfrage von der Suchmaschine ermittelt werden können. Die einfachste Lösung wäre es, die Quellen nach der Anzahl der enthaltenen Treffer zu sortieren und diejenigen Quellen mit den meisten Treffern als die wichtigsten Quellen anzusehen. Dieser Ansatz ist jedoch zu verwerfen, da er alle umfangreichen Quellen ungeachtet ihrer Qualität bevorzugen würde. Eine Manipulation wäre leicht, da man nur entsprechend viele Dokumente zu einem Thema auf einem Server anhäufen müsste, um als Top-Quelle geführt zu werden. Dies ließe sich leicht automatisiert bewerkstelligen.
Zum genaueren Verständnis ist zunächst zu klären, was überhaupt eine Top-Quelle ausmacht. Auf der einen Seite sollte eine Top-Quelle viele, zumindest aber eine gewisse Anzahl von Dokumenten, die zur eingegebenen Suchanfrage passen, enthalten. Dabei ist zu unterscheiden, ob es sich um eine Quelle handelt, deren Dokumente von der Suchmaschine indexiert wurden (also eine Quelle des surface web) oder um eine Quelle, von der nur die Einstiegsseite, in diesem Fall also die Suchmaske, indexiert wurden konnte (also eine Quelle des Invisible Web). Ob Quellen des surface web die gewünschte Mindestanzahl an Dokumenten enthalten, lässt sich für die Suchmaschine leicht aus dem eigenen Index ermitteln; im Fall der Invisible-Web-Quellen ist dies nicht direkt möglich. Bei diesen Quellen ist eine Einbindung von Hand zu leisten; dabei werden Arten von Suchanfragen definiert, auf die hin Hinweise auf entsprechende Invisible-Web-Quellen angezeigt werden. Die Qualität der Quellen wird dabei schon bewertet, bei der manuellen Einbindung (s. Abschnitt 12.4) werden zumindest bisher nur wenige, dafür besonders hochwertige Quellen berücksichtigt.
Neben den Kriterien des Quellenumfangs und der Eigenschaft „Datenbank“ (wozu natürlich ein weiteres Qualitätsmaß ergänzt werden muss) sollte für die Auszeichnung als Top-Quelle auch auf menschliche Bewertungen zurückgegriffen werden. Dazu bieten sich umfangreiche Verzeichnisse von Qualitätsquellen vor allem in Form von Webkatalogen an.

< 12.2 Qualitätsbeschränkungen bei der Recherche in Datenbank-Hosts  |  Inhaltsverzeichnis  |  12.4 Manuelle Einbindung von Top-Quellen >