
Nun soll es darum gehen, wie die Top-Quellen für eine Anfrage von der
Suchmaschine ermittelt werden können. Die einfachste Lösung wäre
es, die Quellen nach der Anzahl der enthaltenen Treffer zu sortieren und diejenigen
Quellen mit den meisten Treffern als die wichtigsten Quellen anzusehen. Dieser
Ansatz ist jedoch zu verwerfen, da er alle umfangreichen Quellen ungeachtet
ihrer Qualität bevorzugen würde. Eine Manipulation wäre leicht,
da man nur entsprechend viele Dokumente zu einem Thema auf einem Server anhäufen
müsste, um als Top-Quelle geführt zu werden. Dies ließe sich
leicht automatisiert bewerkstelligen.
Zum genaueren Verständnis ist zunächst zu klären, was überhaupt
eine Top-Quelle ausmacht. Auf der einen Seite sollte eine Top-Quelle viele,
zumindest aber eine gewisse Anzahl von Dokumenten, die zur eingegebenen Suchanfrage
passen, enthalten. Dabei ist zu unterscheiden, ob es sich um eine Quelle handelt,
deren Dokumente von der Suchmaschine indexiert wurden (also eine Quelle des
surface web) oder um eine Quelle, von der nur die Einstiegsseite, in diesem
Fall also die Suchmaske, indexiert wurden konnte (also eine Quelle des Invisible
Web). Ob Quellen des surface web die gewünschte Mindestanzahl an Dokumenten
enthalten, lässt sich für die Suchmaschine leicht aus dem eigenen
Index ermitteln; im Fall der Invisible-Web-Quellen ist dies nicht direkt möglich.
Bei diesen Quellen ist eine Einbindung von Hand zu leisten; dabei werden Arten
von Suchanfragen definiert, auf die hin Hinweise auf entsprechende Invisible-Web-Quellen
angezeigt werden. Die Qualität der Quellen wird dabei schon bewertet, bei
der manuellen Einbindung (s. Abschnitt 12.4) werden zumindest bisher nur wenige,
dafür besonders hochwertige Quellen berücksichtigt.
Neben den Kriterien des Quellenumfangs und der Eigenschaft „Datenbank“
(wozu natürlich ein weiteres Qualitätsmaß ergänzt werden
muss) sollte für die Auszeichnung als Top-Quelle auch auf menschliche Bewertungen
zurückgegriffen werden. Dazu bieten sich umfangreiche Verzeichnisse von
Qualitätsquellen vor allem in Form von Webkatalogen an.