ich habe Content, viel Content -> Alle Zeitungsartikel der regionalen
Tageszeitung seit 15 Jahren.
Dieses Archiv soll nun bald auch im Netz verfügbar sein, und auch von
$Suchmaschine Indiziert werden. Dazu möchte ich jeden Artikel
analysieren und eine Keyword-liste erstellen. Mit diesen Keywords soll
z.B. auch der Permalink zu diesem Artikel geimpft werden. (Momentan
benutzte ich einfach die Überschriften als Permalink)
Einfach Stopwörter entfernen und Wörter zählen ist schon mal besser als
nichts. Besser wäre natürlich einen Algorithmus zu finden der ähnliche
Keywords wie $Suchmaschine findet. Vor allem die zwei und dreifachen
sind ja auch Interessant.
Die größeren Suchmaschinen machen ja auch kein Stemming oder nur ganz wenig?
Leider finde ich im Netz kaum Infos über so einen word-relevancy-algo
und hoffe das mir einer von euch da ein wenig weiterhelfen kann.
Vielen Dank
Harald
P.S. page rank und HITS interessieren hier nicht da ja noch keine
verlinkung existiert. Ich möchte nur die Keywords finden.
> Einfach Stopwörter entfernen und Wörter zählen ist schon mal besser als
> nichts. Besser wäre natürlich einen Algorithmus zu finden der ähnliche
> Keywords wie $Suchmaschine findet. Vor allem die zwei und dreifachen
> sind ja auch Interessant.
Vielleicht hilft dir der Algorithmus in MetaTags NX weiter:
http://www.bsds.de/content-management-systeme/joomla-/metatags-nx-plugin.html
MfG
Niels
--
| http://www.kolleg.de · Das Portal der Kollegs in Deutschland |
| http://www.bsds.de · BSDS Braczek Software- und DatenSysteme |
| Webdesign · Webhosting · e-Commerce · Joomla! Content Management |
------------------------------------------------------------------