Praktisches & Grundsätzliches zur Informatik

Textsuche, Semantische-Nachbarschaft

Inhaltlich benachbarte Texte finden — meine Suchmetrik

Wer ausgehend von einer Publikation P weitere, inhaltlich dazu verwandte Publikationen finden möchte, lässt Suchmaschinen nach einem passenden Stichwort suchen — mit dem Ergebnis allerdings, dass ihm so i.A. viel zu viele Treffer genannt werden: eben alle Seiten, die jenes Stichwort enthalten.

Dieses Problem zu verkleinern, könnten jeder Publikation sog. Tags zugeordnet sein, die — aus Sicht geeigne­ter Suchmaschinen — P reduzieren auf die Menge P(T) aller ihm zugeordneten Tags.

Obgleich dies dann tatsächlich schon sehr viel gezielteres Suchen ermöglicht, bleibt doch das Problem, dass nicht alle der Tags gleich relevant sind in dem Sinne, dass z.B eines jener Tags dem thematischen Schwerpunkt der Seite weit näher stehen könnte als andere — eine Suchmaschine, die nur über die Tags sucht, das aber nicht erkennen wird.

Deswegen sollte man die Menge P(T) besser durch eine linear sortierte Menge S(P,T) ersetzen.

Meine Erfahrung: Ist T eine Menge im Text P wirklich auftretender Worte und sieht man sie angeordnet nach fallender Häufigkeit ihres Auftretens im Text P, so wird das Thema der Seite P fast immer ganz besonders treffend charakterisiert durch die Folge ( t1, t2, t3 ) der ersten 3 dieser Tags: Die Folge kürzer oder länger zu wählen hat sich als weniger treffsicher erwiesen.

Auf jeden Fall gilt: Ist S(P,T) = t1, t2, ..., tn, so definieren ihre Teilfolgen t(i,k) = ti, ..., tk sämtlich se­mantische Umgebungen von P mit jeweils unterschiedlichem thematischen Schwerpunkt, und die Menge dieser Umgebungen ist linear geordnet durch die lexikographische Ordnung der Paare (erwartete Seman­tik: Je kleiner das Paar, desto eher wird das entsprechende Suchergebnis denselben inhalt­lichen Schwer­punkt haben wie die Seite P selbst).

Steht res(i,k) für die Menge aller Seiten, die sämtliche Tags tj mit i ≤ j ≤ k enthalten, so hat — wer sich auf i < k ≤ 3 konzentriert — damit i.A. schon die Suchbefehle identifiziert, die am ehesten finden, was ihn in Ergänzung zum Inhalt der Seite P interessiert.



stw5155MSIMenge . Suchmetrik . InhaltlichNews?

Mehr + B G E + S H A + More