Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Phonetische Suche / "unscharfe" Suche

189 views
Skip to first unread message

Martin Meyer

unread,
Jan 26, 2002, 10:31:43 AM1/26/02
to
Hi all,

brauche in einem VB-Programm das Feature der phonetischen Suche
(deutscher Sprachraum) bzw. sowas wie 'ne unscharfe Suche nach
Strings (Stichwort "Fuzzy-Logic).

So etwas selber zu Programmieren wuerde den Rahmen des Projekts sprengen.
Gibt es nicht was "Fertiges", dass man im Projekt implementieren koennte.
Auf lau waere natuerlich nicht schlecht <grin> - bin aber auch an
komerziellen Loesungen interessiert, entsprechende Leistungsfaehigkeit
und Bezahlbarkeit voraus gesetzt.

Hat jemand Infos zu dieser Thematik?

TIA & Gruss,
nice weekend,

Martin

Kai Schröder

unread,
Jan 26, 2002, 11:15:59 AM1/26/02
to
"Martin Meyer" <usenet...@gmx.net> schrieb im Newsbeitrag
news:3c52c992....@news.muenster.de...

Vielleicht nicht direkt, aber es gibt ein Forschungsprojekt der Uni Leipzig,
die sich mit dem Thema beschäftigen.

Die hatten den Ansatz, Wörter und ihre Bedeutung zu verknüpfen und mit
Scannern nach neuen Wörtern zu suchen. Deren Datenbank hat etwa 6 Millionen
Wörter gespeichert.

Vielleicht hilft dir das als Suchanregung.

MfG, Kai

Olaf Rabbachin

unread,
Jan 26, 2002, 12:42:42 PM1/26/02
to
Hi Martin,

> brauche in einem VB-Programm das Feature der phonetischen Suche
> (deutscher Sprachraum) bzw. sowas wie 'ne unscharfe Suche nach
> Strings (Stichwort "Fuzzy-Logic).

scheint, Du meinst SoundEx. Bemüh' mal google nach "soundex vb"!

Bis dann,
Olaf


Martin Meyer

unread,
Jan 26, 2002, 1:38:04 PM1/26/02
to
Hallo Kai,

vielen Dank fuer Dein Posting.

On Sat, 26 Jan 2002 17:15:59 +0100, =?iso-8859-1?Q?Kai_Schr=F6der?=
<ma...@kaischroeder.net> wrote:

>[...]


>Vielleicht nicht direkt, aber es gibt ein Forschungsprojekt der Uni Leipzig,
>die sich mit dem Thema beschäftigen.
>
>Die hatten den Ansatz, Wörter und ihre Bedeutung zu verknüpfen und mit
>Scannern nach neuen Wörtern zu suchen. Deren Datenbank hat etwa 6 Millionen
>Wörter gespeichert.

Oooups - das wuerde aber Speicher-/Performance-Probleme geben.
Ich dachte eher an einen Algo, der die Bewertung auf Uebereinstimmung
vornimmt. Das ganze koennte dann noch durch ein dictionary ergaenzt
werden .... aber eine Bewertung _nur_ durch Vergleich mit der
Datenbank-Liste duerfte etwas aufwendig sein(?).

THX und Gruss,
Martin

Martin Meyer

unread,
Jan 26, 2002, 1:38:10 PM1/26/02
to
Hi Olaf,

auch Dir Dank fuer Deine Antwort.

On Sat, 26 Jan 2002 18:42:42 +0100, "Olaf Rabbachin"
<Olaf.Ra...@IntuiDev.com> wrote:

>scheint, Du meinst SoundEx. Bemüh' mal google nach "soundex vb"!

Getan. Genau so etwas in der Art meinte ich. Da gab's 'ne ganze Menge
Links zu, habe noch nicht alles gesichtet.
Die Strategie sieht ziemlich simpel aus - man muesste mal pruefen, wie
zuverlaessig die Ergebnisse sind. Die Umsetzung der Begriffe in den
Soundex-Code ist auf die angelsaechsische Aussprache angepasst,
das muesste noch geaendert werden (vielleicht gibts da schon was
passendes).
Sieht jedenfalls schon mal ganz vielversprechend aus!

THX und Gruss,
Martin

Kai Schröder

unread,
Jan 26, 2002, 3:56:54 PM1/26/02
to
"Martin Meyer" <usenet...@gmx.net> schrieb im Newsbeitrag
news:3c52f34e....@news.muenster.de...

Das hängt von der Struktur der DB ab. Wenn ich es richtig im Hinterkopf
habe, dann ging es primär darum, geschriebenen Text per Computer zu
"verstehen" und das dürfte mit einem reinen Algorhytmus nicht machbar sein.

MfG, Kai

Thorsten Albers

unread,
Jan 26, 2002, 7:07:19 PM1/26/02
to
Martin Meyer <usenet...@gmx.net> schrieb im Beitrag
<3c52c992....@news.muenster.de>...

> So etwas selber zu Programmieren wuerde den Rahmen des Projekts sprengen.
> Gibt es nicht was "Fertiges", dass man im Projekt implementieren koennte.
> Auf lau waere natuerlich nicht schlecht <grin> - bin aber auch an
> komerziellen Loesungen interessiert, entsprechende Leistungsfaehigkeit
> und Bezahlbarkeit voraus gesetzt.
> Hat jemand Infos zu dieser Thematik?

Die Computerzeitschrift C't hatte einmal so etwas in einem Workshop in
ziemlich ausgeklügelter Form, allerdings in C. Du findest die
Workshop-Dateien sicherlich auf dem Heise-Server (www.heise.de).

----------------------------------------------------------------------
THORSTEN ALBERS Universität Freiburg
albers@
uni-freiburg.de
----------------------------------------------------------------------

Olaf Rabbachin

unread,
Jan 27, 2002, 7:10:34 AM1/27/02
to
Hi Martin,

> >scheint, Du meinst SoundEx. Bemüh' mal google nach "soundex vb"!
>
> Getan. Genau so etwas in der Art meinte ich. Da gab's 'ne ganze Menge
> Links zu, habe noch nicht alles gesichtet.
> Die Strategie sieht ziemlich simpel aus - man muesste mal pruefen, wie
> zuverlaessig die Ergebnisse sind. Die Umsetzung der Begriffe in den
> Soundex-Code ist auf die angelsaechsische Aussprache angepasst,
> das muesste noch geaendert werden (vielleicht gibts da schon was
> passendes).

also ich habe hier irgendwo in den Tiefen meines Archivs eine Access-DB, in
der Soundex realisiert wurde - in deutscher Form. Soll ich mal graben?

Bis dann,
Olaf


Martin Meyer

unread,
Jan 27, 2002, 1:11:35 PM1/27/02
to
Hi Olaf,

on Sun, 27 Jan 2002 13:10:34 +0100, "Olaf Rabbachin"
<Olaf.Ra...@IntuiDev.com> wrote:

>[....]
>>[Soundex deutsch]


>also ich habe hier irgendwo in den Tiefen meines Archivs eine Access-DB, in
>der Soundex realisiert wurde - in deutscher Form. Soll ich mal graben?

Also ich habe jetzt eine Menge Kram zu dieser Thematik gesichtet und
gesaugt. Am erfolgversprechensten fand ich bisher so'n kommerzielles
OCX von Mabry <http://www.mabry.de/produkte/44.htm> (waere jedenfalls
recht bequem) und dieses Projekt von ct. Von letzterem habe ich die
C-Sourcen mal compiliert und mit rumexperimentiert .... ist recht fix.
Muss mal gucken, wie und ob so'n C-Programm in VB nutzbar gemacht werden
kann.

Falls Du nicht zuuu viel graben musst, waere ich aber auch an an Deiner
Access-Loesung interessiert. Eilt aber nicht - ich habe zZ. genuegend
Stuff zum ausprobieren.

Noch mal Dank & Gruss,
Martin

Ingo Moch

unread,
Jan 27, 2002, 1:53:15 PM1/27/02
to
Hallo Martin,

"Martin Meyer" <usenet...@gmx.net> schrieb:

> brauche in einem VB-Programm das Feature der
> phonetischen Suche (deutscher Sprachraum)

Sieh' Dir mal www.husser.de/vbtnt/005.htm an.

HTH
Ingo

Schmidt

unread,
Jan 28, 2002, 2:34:48 AM1/28/02
to
Hier eine VB-Lösung, die ein bel. Wort gegen eine vorh. Wortbasis vergleicht
und eine "Hitliste" mit dem jew. Grad an Übereinstimmungen zurückgibt.

http://groups.google.de/groups?q=orte+sss%40online.de

Olaf


Olaf Rabbachin

unread,
Jan 28, 2002, 4:08:10 AM1/28/02
to
Hi Martin,

> Falls Du nicht zuuu viel graben musst, waere ich aber auch an an Deiner
> Access-Loesung interessiert. Eilt aber nicht - ich habe zZ. genuegend
> Stuff zum ausprobieren.

ist/war nicht _meine_ Lösung, hab's auch in meinem file-Archiv sinnigerweise
nicht mehr gefunden. Aber hier ist der link auf eine MDB:

(link in eine Zeile oder bei www.access-guru.de nach Soundex suchen):
http://212.223.74.189/cgi-bin/db2net.exe?D2NDb=d%3A%5Cftp%5Cacess-guru%5Cdat
abase%5CagDownloads.mdb&D2NProject=AppendDLAnforderung&tblDLAnforderung.lngD
ATEI=121

Bis dann,
Olaf


Harald M. Genauck

unread,
Jan 28, 2002, 4:41:41 AM1/28/02
to
Hallo Martin,

> So etwas selber zu Programmieren wuerde den Rahmen des Projekts sprengen.
> Gibt es nicht was "Fertiges", dass man im Projekt implementieren koennte.
> Auf lau waere natuerlich nicht schlecht <grin> - bin aber auch an
> komerziellen Loesungen interessiert, entsprechende Leistungsfaehigkeit
> und Bezahlbarkeit voraus gesetzt.
>
> Hat jemand Infos zu dieser Thematik?

Siehe:

http://www.aboutvb.de/mkt/news/mktn011121omikron.htm


Viele Grüße

Harald M. Genauck

ABOUT Visual Basic - das Webmagazin
http://www.aboutvb.de


Reinhard Böck

unread,
Jan 28, 2002, 10:36:55 AM1/28/02
to
Hallo,

ich hatte einmal die Aufgabe, 75000 Adressen auf Übereinstimmung mit 35000
Adressen zu testen. Aufgrund der unterschiedlichsten Schreibweisen von Str.,
Straße etc. kommt man mit einem Stringvergleich nicht weit...
Mit dem Mabry OCX und der Metaphone Funktion, die alle Selbstlaute entfernt
und dann auf einen 4 Buchstaben String umrechnet, konnte ich durch
Verknüpfen der "geshrinkten" Felder Name, Straße und Ort tatsächlich über
2000 Treffer landen. Mittlerweile habe ich diesen Metaphone Algorithmus als
VB Programm vorliegen; er bedarf aber noch einer Überarbeitung. Für
Testzwecke nimm eine möglichst große Adressdatenbank und laß Dir die Namen
und Straßen umrechnen.
Liebe Grüße aus Österreich
Reinhard Böck

Martin Meyer

unread,
Jan 28, 2002, 4:26:49 PM1/28/02
to
Hi all,

vielen Dank an alle fuer die zahlreichen Links, Tipps und
Anregungen zu diesem Thema!

Ich habe jetzt massig Ansaetze fuer die Loesung des Problems
gefunden ... muss nun mal rumprobieren, was am zweckmaessigsten ist.
Brauche das fuer eine erweiterte Datenbankrecherchefunktion. Soll
einerseits nicht zu viel Performance kosten, aber auch zuverlaessige
Ergebnisse liefern (und bequem zu implementieren sein <grin>).

Nochmal Dank und Gruss,
Martin

Helmut Weber

unread,
Jan 31, 2002, 11:41:35 AM1/31/02
to
Hallo Martin,
habe auch ein Programm, das Zeichenketten auf Ähnlichkeit testet.
Prinzip ist, Strings in Sets umzuwandeln und die Sets in Subsets und diese
zu vergleichen.
"Set" soll eine Menge im Sinne der Mengenlehre sein.
z.B. "Maier" besteht aus:
(1) m, a, i, e, r
(2) ma, ai, ie, er
(3) mai, aie, ier
(4) maie, aier
Der zu vergleichende String wird klarerweise ebenfalls so zerlegt
und dann werden alle Elemente string(1,i) mit allen Elementen string(2,i)
verglichen.
Mi wählbarem Ähnlichkeitsgrad, und der muss leider sein.
Erkennt "München-Unterhaching" als ähnlich "Untrehaching/Muenchn" (mit
Tippfehler),
aber "Hofbauer" ist eben auch ähnlich "Bauhofer" und es gibt in Deutschland
laut Postleitzahlenverzeichnis so etwa 17000 Orte, da sind eben ähnliche
dabei.
Und die werden natürlich miterkannt.
Und das ist das Kernproblem. Man braucht immer noch einen Menschen,
der entscheidet, was bei gefundener Ähnlichkeit zu tun ist.
Auch ein Durchsuchen eines Verzeichnisses gültiger Ortsnamen ist nicht
der Weisheit letzter Schluß. Denn da sind eben ähnliche dabei.
Mit Hinzunahme der Postleitzahl ergibt sich dann die Frage:
Ist die Postleitzahl falsch oder der Ortsname?
Aber man könnte noch das Straßen- und Postfachverzeichnis hinzunehmen,
was dann wiederum auf Ähnlichkeit geprüft werden müßte....

Gruß
Helmut Weber

0 new messages