Ik ben op zoek naar grote lijsten met Nederlandse woorden voor mijn
anagrammengenerator. Volgens mij zijn die hier al eens ter sprake
gekomen, maar ik heb op dejanews niets kunnen vinden.
Voorlopig gebruik ik het bestand "nl.txt" van Maanrag, maar ik weet
niet, of ik die lijst mag distribueren.
Dus: Als iemand een bruikbaar linkje weet, dan hoor ik dat graag.
(Kleine toelichting:
Het zoeken naar leuke anagrammen zou niet alleen aan
wintelmachinisten voorbehouden moeten zijn. Daarom ben ik zo vrij
geweest de bekende anagrammengenerator "Maanrag" van Onno
Zweers als voorbeeld te gebruiken voor een Linuxapplicatie
genaamd "Ragmaan".
De applicatie verkeert nog in het betastadium - ze is echter al
zeer bruikbaar, en bovendien slanker en sneller dan haar grote
voorbeeld.)
--
Raymond // r...@wirehub.nl // http://www.wirehub.nl/~ray
Op 12 september j.l. heb ik in een postje getiteld "Voor de echte
anagrammengek" de volgende link genoemd:
http://ftp.univie.ac.at/security/dictionaries/Dutch
Volgens mij wordt in Maanrag dezelfde lijst gebruikt. Ik vrees dat je
niet gauw een grotere lijst zult vinden, want alles staat er zo'n beetje
in, inclusief verbuigingen en vervoegingen.
--
Gerrit de Blaauw
erg lauw dat bier! / brutaalweg drie! / weer aardig blut / wearier but
glad
>Ray Zandbergen wrote:
>>
>> Dag nl.talers,
>>
>> Ik ben op zoek naar grote lijsten met Nederlandse woorden voor mijn
>> anagrammengenerator. Volgens mij zijn die hier al eens ter sprake
>> gekomen, maar ik heb op dejanews niets kunnen vinden.
>>
>> Voorlopig gebruik ik het bestand "nl.txt" van Maanrag, maar ik weet
>> niet, of ik die lijst mag distribueren.
>>
>> Dus: Als iemand een bruikbaar linkje weet, dan hoor ik dat graag.
>
>Op 12 september j.l. heb ik in een postje getiteld "Voor de echte
>anagrammengek" de volgende link genoemd:
>
>http://ftp.univie.ac.at/security/dictionaries/Dutch
>
>Volgens mij wordt in Maanrag dezelfde lijst gebruikt. Ik vrees dat je
>niet gauw een grotere lijst zult vinden, want alles staat er zo'n beetje
>in, inclusief verbuigingen en vervoegingen.
Die lijst heb ik een paar keer geprobeerd te downloaden, maar dat
mislukte steeds.
ftp://ftp.tue.nl/pub/tex/GB95/spell-nl-v5b/woorden/latin1/
Hier staan ook lijsten. De grootste heeft als nadeel dat er vreemde
tekens staan tussen de lettergrepen. Maar dat is met een
tekstverwerker en de zoek en vervang functie op te lossen.
Het grootste bestand is ongeveer 3 Mb groot.
--
Antoinet
> >
> >http://ftp.univie.ac.at/security/dictionaries/Dutch
>
> Die lijst heb ik een paar keer geprobeerd te downloaden, maar dat
> mislukte steeds.
Het lukt waarschijnlijk als je ipv http, ftp typt. Dus:
ftp://ftp.univie.ac.at/security/dictionaries/Dutch
Dit lijkt me bij nader inzien onzin, maar A2000 beweert tegenwoordig dat
je eigen berichten niet van jou afkomstig zijn, en dus kon ik het niet
cancellen. Waarom is het downloaden niet gelukt? Ga naar dat adres (via
http of ftp), laat de woordenlijst op je scherm verschijnen en haal hem
daarna binnen met een optie als File / Save As. Moet toch lukken?
Ik heb de door jou genoemde lijst gedownload en vergeleken met de
Maanraglijst. Beide lijsten bevatten behalve woorden ook Nederlandse
plaatsnamen. De Maanraglijst telt 181.612 woorden en namen. De door jou
genoemde lijst woor-den.max (zo heet-ie, met streepje) telt 222.937
woorden en namen. (Ik heb dit uitgezocht door de bestanden in een
tekstverwerker te laden en naar het paginanummer te kijken.)
Volgens mij is het in Maanrag mogelijk een nieuwe lijst aan de
Maanraglijst toe te voegen -- op die manier zijn de plaatsnamen aan de
woordenlijst toegevoegd (dat zal wel "merge" of zoiets heten). Maar
eerst moeten de lettergreepscheidingstekentjes uit woor-den.max worden
gewist. Ik ga een en ander binnenkort verder uitzoeken.
Bedankt voor de woordenlijstlinkjes. Ze werkten allebei.
Ik heb de resultaten even samengevat:
ftp://ftp.tue.nl/pub/tex/GB95/spell-nl-v5b/woorden/latin1/woor-den.max
:
222930 woorden / 3.0 MB
In woor-den.max is een 'vreemd' tekentje gebruikt om de
lettergrepen te scheiden.
ftp://ftp.univie.ac.at/security/dictionaries/Dutch/words.dutch :
178429 woorden / 1.9 MB
nl.txt van Maanrag :
178356 woorden / 2.1 MB
De laatste twee zijn vrijwel gelijk.
> [ blabla]
Sorry, even een opmerking van Gerrit over het hoofd gezien.
Gerrit wil de rare tekens uit de woordenlijst wegfilteren.
sed -e 's/[^a-zA-Z'\''\\-]//g' woor-den.max > woorden.max
aan de prompt maakt een nieuwe woordenlijst "woorden.max"
aan, zonder rare tekens.
> sed -e 's/[^a-zA-Z'\''\\-]//g' woor-den.max > woorden.max
>
> aan de prompt maakt een nieuwe woordenlijst "woorden.max"
> aan, zonder rare tekens.
Nooit geweten dat je in DOS een soort programmacode kunt invoeren. Het
is me overigens niet gelukt. Evenmin is het me gelukt met de
zoek-en-vervangopdracht in Word en Wordpad. Bij Word kon ik het teken ·
(bij mij ALT-250) niet in het Find-invoervakje krijgen. Bij Wordpad wel,
maar dat was na een uur nog bezig op mijn toch redelijk snelle (350 MHz)
apparaat. Daarom graag wat uitleg over bovenstaand commando. Als niets
helpt, schrijf ik er een Pascal-programmaatje voor. Of het mergen in
Maanrag mogelijk is, is me nog niet helemaal duidelijk.
'sed' is een typisch unix commando. Het betekent 'stream editor'. Zeer nuttig
programmaatje.
Schrijf maar een pascal-programmatje dan, want SED (Stream
Editor) is een Unox c.q. Linux tool. En dat pascal-programma
heb je vast sneller af dan wanneer je op het net zou gaan
zoeken naar een DOS-versie van SED (die er vast wel zal
zijn) en je hebt verdiept in de eigenaardigheden van de
'regular expressions'.
--
Ruud Bruijnesteijn
SDS Sport.Data.Systems GmbH
> Net even met Word7 ALT-250 laten verwijderen uit woor-den.max.
> De stoom kwam uit mijn computer, hij klaagde regelmatig dat de
> Temp-directory van 250 MB vol was, maar na 6 minuten was 't 'beurd.
Hartelijk dank voor je bericht over Word7 en het mergen in Maanrag. Maar
hoe heb je nu die ····'s in het Find & Replace-vakje van Word7 gekregen?
Bij mij werkte ALT-250 niet, Copy & Paste ook niet en Insert / Symbol
ook niet.
Ik heb van alles geprobeerd, maar het is niet gelukt. Het devies van
Bill G. is kennelijk: Let's make things worse! Ik heb in arren moede dus
maar dat programmaatje geschreven. (De · was opeens niet meer #250 maar
#183.) De uitvoering kostte een keurige 1 minuut 10.
--
Gerrit de Blaauw
Sincerity is the key. If you can fake that, you've got it made.
- George Burns
> Maanrag meldde dat er 162968 woorden al vóórkwamen. De oorspronkelijke
> lijst van Maanrag bevat 178355 woorden, woorden.max 222930.
> Volgens Word7, ik heb het niet zitten turven. En mijn zakjapanner beweert
> dat er nu 238317 woorden in Maanrag staan. Ik ga het niet controleren.
Bij mij meldde Maanrag vóór de merge: 181375. Na de merge: 240826.
Toegevoegd dus 59451 woorden.
MM> Gerrit de Blaauw <g.de....@hot.a2000.nl> writes:
>> Ray Zandbergen wrote:
>>
>> > sed -e 's/[^a-zA-Z'\''\\-]//g' woor-den.max > woorden.max
>> >
>> > aan de prompt maakt een nieuwe woordenlijst "woorden.max"
>> > aan, zonder rare tekens.
>>
>> Nooit geweten dat je in DOS een soort programmacode kunt invoeren. Het
>> is me overigens niet gelukt. Evenmin is het me gelukt met de
>> zoek-en-vervangopdracht in Word en Wordpad. Bij Word kon ik het teken ·
>> (bij mij ALT-250) niet in het Find-invoervakje krijgen. Bij Wordpad wel,
>> maar dat was na een uur nog bezig op mijn toch redelijk snelle (350 MHz)
>> apparaat. Daarom graag wat uitleg over bovenstaand commando. Als niets
>> helpt, schrijf ik er een Pascal-programmaatje voor. Of het mergen in
>> Maanrag mogelijk is, is me nog niet helemaal duidelijk.
MM> 'sed' is een typisch unix commando. Het betekent 'stream editor'. Zeer
MM> nuttig programmaatje.
En loopt ook prima op MS-DOS/Windows, alleen moet je dan de
opdracht zo geven:
sed -e "s+[^a-zA-Z'-]++g"
--
Piet van Oostrum <pi...@cs.uu.nl>
URL: http://www.cs.uu.nl/~piet [PGP]
Private email: Piet.van...@gironet.nl
>Ray Zandbergen wrote:
>
>> sed -e 's/[^a-zA-Z'\''\\-]//g' woor-den.max > woorden.max
>>
>> aan de prompt maakt een nieuwe woordenlijst "woorden.max"
>> aan, zonder rare tekens.
>
>Nooit geweten dat je in DOS een soort programmacode kunt invoeren. Het
>is me overigens niet gelukt.
Ja, dat is een Unix-prompt. Je zou Perl op je DOS kunnen zetten,
daar kan het ook mee:
perl -pe 's/[^a-zA-Z'\''\\-]//g' woor-den.max > woorden.max
(Misschien moet dat gekwoot met \ en ' iets anders onder DOS.)
--
Reinier
http://wuarchive.wustl.edu/systems/ibmpc/garbo.uwasa.fi/editor/u-sedit2.zip
> en je hebt verdiept in de eigenaardigheden van de 'regular expressions'.
Er zit goede documentatie bij.
Wimjan
--
Research shows that mildly depressed people are often more realistic about
the world than happy people. - Shelley Taylorin in Positive Illusions
RZ> Ray Zandbergen schreef:
>> [ blabla]
RZ> Sorry, even een opmerking van Gerrit over het hoofd gezien.
RZ> Gerrit wil de rare tekens uit de woordenlijst wegfilteren.
RZ> sed -e 's/[^a-zA-Z'\''\\-]//g' woor-den.max > woorden.max
RZ> aan de prompt maakt een nieuwe woordenlijst "woorden.max"
RZ> aan, zonder rare tekens.
Ik heb een woorden.max (dus zonder de afbreektekens) gezet in:
http://www.ntg.nl/spell-nl-v5b/woorden/
Deze directory bevat een mirror van de oospronkelijke op de TUE.
Met dank voor het opzoekwerk!
[zoek- en vervangperikelen]
>Ik heb van alles geprobeerd, maar het is niet gelukt. Het devies van
>Bill G. is kennelijk: Let's make things worse! Ik heb in arren moede
>dus maar dat programmaatje geschreven. (De · was opeens niet
>meer #250 maar #183.) De uitvoering kostte een keurige 1 minuut
>10.
Niet dat Word of soortgelijk spul nu net het meest doelmatige of snelste
middel is om uitgebreide (laat staan samengestelde) zoek- en vervangfuncties
in los te laten, maar zou het niet (de onvoorstelbare traagheid even buiten
beschouwing gelaten) gelukt kunnen zijn als je bedoeld karakter ergens in
het document had geselecteerd en het dan met Ctrl-C en Ctrl-V had
overgebracht naar het zoekraampje?
Met heel wat prutswerk (je moet ook nog eens afzonderlijk alle accenten edm
er uithalen) kom je er uiteindelijk toch ook met een tekstverwerker, niet?
Groeten,
Bart.