saluti,
pier luigi
Ah, la crittografia!
Ciao
Ale
--
Namárië Valinor
no, niente forza bruta. i miei sono scopi musical-tecnologico-chitarristici.
"{gleeman} / Pier Luigi" <gle...@tiscalolepalle.it> ha scritto nel
messaggio news:MNspb.403144$R32.13...@news2.tin.it...
Ale...tesoro...allora forza e coraggio: è il tuo pane.
--
lu.
Ultima Badessa Di Passaggio
* Tu m'hai lasciato il segno. Tu mordevi come una fiera*
G.d'Annunzio, Il fuoco
> Ale...tesoro...allora forza e coraggio: è il tuo pane.
Be', sì, in effetti... a suo tempo scrissi anche del software per la musica
automatica. Ma Gleeman pone una domanda precisa, alla quale non ho risposta.
So che questi studi esistono, ma ci sono persone molto più ferrate (e
informate) di me. Attendiamo tutti speranzosi...
--
lu.
Ultima Badessa Di Passaggio
"Quella tua semplicità divina
per cui sembra che ogni tuo atto
incominci dall'infinito e si compia all'infinito"
(dedica di D'Annunzio alla Duse).
>cerco disperatamente la lista delle sillabe più usate nella lingua
>italiana, se esiste. confido nel vostro aiuto.
>
Ciao, tempo fa avevo postato perchè avevo un problema simile.
Ho fatto dei programmini che forse ti possono aiutare.
Tra questi c'è un generatore di parole pronunciabili inventate.
Se preferisci ci si puo' scrivere in privato per maggiori dettagli
Saluti
Stefano
Perché non in pubblico? anch'io sono interessato.
--
oggi no, domani sì
>
>Perché non in pubblico? anch'io sono interessato.
Perchè non vorrei essere OT.
Non c'è nessun problema a parlarne anche pubblicamente.
Ho fatto un programmino (banalissimo) che esamina un testo e ne estrae
tutte le coppie di lettere riportandole in un file in modo univoco,
quindi senza doppioni.
Per ora non le conta perche' a me non serviva quando l'ho creato, ma
ci sto lavorando.
Il programma recupera anche tutti i gruppi di tre consonanti e li
elenca nel solito file di destinazione.
Questo lavoro è servito per poter dare delle istruzioni precise a un
secondo programma che genera parole inventate ma pronunciabili.
Il programma è completato da una serie di regole per la costruzione
della parola.
Tutto nasce solo come esercizio di programmazione quindi se potesse
essere utile ai fini pratici ben venga. Naturalmente posso provare ad
eseguire le modifiche richieste.
stefano
> On Sat, 08 Nov 2003 20:21:58 GMT, AD <flyh...@mosq.it>
> wrote:
>
>>
>>Perché non in pubblico? anch'io sono interessato.
>
> Perchè non vorrei essere OT.
> Non c'è nessun problema a parlarne anche pubblicamente.
>
> Ho fatto un programmino (banalissimo) che esamina un testo
> e ne estrae tutte le coppie di lettere riportandole in un
> file in modo univoco, quindi senza doppioni.
> Per ora non le conta perche' a me non serviva quando l'ho
> creato, ma ci sto lavorando.
Potresti farci vedere i risultati?
> Il programma recupera anche tutti i gruppi di tre
> consonanti e li elenca nel solito file di destinazione.
Idem c.s.
> Questo lavoro è servito per poter dare delle istruzioni
> precise a un secondo programma che genera parole inventate
> ma pronunciabili.
>
> Il programma è completato da una serie di regole per la
> costruzione della parola.
Bello! facci vedere i risultati.
>
> Tutto nasce solo come esercizio di programmazione quindi
> se potesse essere utile ai fini pratici ben venga.
> Naturalmente posso provare ad eseguire le modifiche
> richieste.
>
> stefano
Sarebbe bello poter leggere un testo "à la
Dante/Manzoni/Calvino ecc." ottenuto da statistiche
ricavate dai testi originali.
Ecco l'elenco dei gruppi di tre consonanti trovati.
Il testo usato è Pinocchio.
Naturalmente più testi si usano più maggiore sara' la probabilità di
avere tutti i gruppi.
A tal proposito sarei grato se mi indicaste dove posso trovare altri
testi in modo completare gli elenchi.
Quelli di due lettere sono sicuramente incompleti.
Non appena elaborerò altri testi postero' i risultati.
Ciao
bbl
bbr
cch
ccl
ccr
ddr
ffl
ffr
ggh
ggr
lch
lcr
ldr
lfr
lgh
ltr
mbr
mpl
mpr
nch
ncl
ncr
ndr
nfl
nfr
ngh
ngr
nsp
nst
ntr
ppl
ppr
rch
rgh
rgl
rpl
rpr
rst
rtr
sbr
sch
scl
scr
sdr
sfr
sgh
sgr
spl
spr
str
ttr
> ccl
> ccr
> ddr
> ffl
Forse ho capito male la domanda iniziale, ma a me queste non sembrano
sillabe ma (piu' genericamente) gruppi di lettere...
Ciao R.
>
>Forse ho capito male la domanda iniziale, ma a me queste non sembrano
>sillabe ma (piu' genericamente) gruppi di lettere...
>
Verissimo.
Forse hai perso qualche post successivo alla domanda.
L'elenco che ho postato è il risultato di un programmino che ha
estratto tutti i gruppi di tre consonanti da un testo.
Non sono in grado di generare un programma di sillabazione.
Però ho l'elenco di tutti gruppi di lettere e questo mi ha permesso di
creare un programma che genera parole inventate ma pronunciabili.
Sto cercando di migliorarlo per poi postare i risultati come
richiesto.
ciao
>Ecco l'elenco dei gruppi di tre consonanti trovati.
>Il testo usato è Pinocchio.
>Naturalmente più testi si usano più maggiore sara' la probabilità di
>avere tutti i gruppi.
>A tal proposito sarei grato se mi indicaste dove posso trovare altri
>testi in modo completare gli elenchi.
>Quelli di due lettere sono sicuramente incompleti.
>Non appena elaborerò altri testi postero' i risultati.
Ma se ti serviva l'elenco e la frequenza dei gruppi non era meglio
estrarli da un dizionario?
Da circa 56000 lemmi (compresi quelli di origine o lingue diverse
identificabili dal fatto che hanno pochissime ricorrenze) si ricava che:
bbl 28
bbr 79
bgl 1
brr 1
bsc 1
bst 1
btr 1
cch 595
ccl 24
ccr 13
chb 1
chl 1
chm 1
chn 1
cht 1
csc 1
cst 1
ctr 2
ddr 2
dsm 1
dst 1
ffl 24
ffr 57
ffs 2
fgh 1
ftb 1
gfl 1
ggh 10
ggl 9
ggr 71
ghr 1
ght 5
gll 1
gst 2
hmm 1
lch 22
lcl 2
lcm 1
lcr 10
ldm 1
ldr 4
lds 1
lfr 3
lgr 1
lld 2
llm 2
llv 1
lsc 3
lst 3
lth 2
ltm 1
ltr 116
ltz 1
mbd 1
mbl 12
mbr 148
mpd 1
mph 1
mpl 75
mpr 136
mps 4
mpt 1
msc 1
nch 154
ncl 32
ncn 1
ncr 90
nct 6
ndg 1
ndh 1
ndl 1
ndr 91
nds 1
nfl 34
nfr 70
ngh 57
ngl 32
ngn 1
ngr 68
ngs 4
npr 1
nps 1
nsc 24
nsf 5
nsl 4
nsm 1
nsp 9
nst 25
nsv 1
ntd 1
ntg 3
nth 2
ntl 2
ntr 495
nts 1
ntz 1
ppl 29
ppr 66
pss 1
ptr 1
rch 175
rcl 8
rcr 5
rct 1
rdl 1
rdm 1
rdr 3
rfl 1
rfm 1
rfr 2
rgh 21
rgl 3
rgn 1
rgr 4
rnm 1
rpl 6
rpr 9
rpt 1
rsc 7
rsh 3
rsp 6
rst 15
rtf 1
rth 1
rtn 2
rtr 26
rts 3
rtz 3
sbl 2
sbr 48
sch 309
scl 39
scr 152
sdr 16
sfr 39
sgh 11
sgn 1
sgr 64
shb 1
shd 1
shm 3
shn 1
shr 1
spl 41
spn 2
spr 88
ssd 1
ssm 1
stb 1
stc 5
std 4
stf 1
stg 1
stl 2
stm 3
stp 2
str 892
stv 2
szt 1
tbc 1
tch 15
thl 5
thr 2
tsc 3
ttl 2
ttr 170
tts 2
vch 1
--
Ciao.
Sergio®
L'elenco può darsi ma la frequenza decisamente no.
In un dizionario ogni parola compare esattamente una volta, sia che si
tratti della comunissima preposizione "di" sia che si tratti dell'inusuale
aggettivo "nederlandese".
Per fare analisi sulla frequenza delle parole occorre invece un corpus si
testi quanto più grande e omogeneo possibile. Per esempio, per ricavare le
frequenze dell'italiano contemporaneo informale, l'ideale sarebbe scaricare
un'intera annata di post dalla gerarchia Usenet "it.*".
Ciao.
Marco
--------------------------------
Inviato via http://arianna.libero.it/usenet/
>Sergio ha scritto:
>> Ma se ti serviva l'elenco e la frequenza dei gruppi non era
>> meglio estrarli da un dizionario?
>
>L'elenco può darsi ma la frequenza decisamente no.
>
>In un dizionario ogni parola compare esattamente una volta, sia che si
>tratti della comunissima preposizione "di" sia che si tratti dell'inusuale
>aggettivo "nederlandese".
>
>Per fare analisi sulla frequenza delle parole occorre invece un corpus si
>testi quanto più grande e omogeneo possibile. Per esempio, per ricavare le
>frequenze dell'italiano contemporaneo informale, l'ideale sarebbe scaricare
>un'intera annata di post dalla gerarchia Usenet "it.*".
Cerchi di confondermi? ;-))
All'inizio si parlo' di sillabe (e' anche rimasto nel titolo del
filone), poi si disse che non di sillabe si trattava ma di gruppi di tre
consonanti. Ora tu parli di parole.
Se si tratta di parole hai sicuramente ragione. E' inutile in
quanto,come sottolinei, in un vocabolario la frequenza e' pressoche'
unica.
In un testo la cosa e' senz'altro rilevante, da' notizie interessanti
sul modo di scrivere di un autore.
Ma qui stiamo parlando di gruppi di tre consonanti consecutive che
stanno, e' vero, all'interno di parole, ma non sono indicative delle
parole stesse. Mi dicono solo che "str" e' stato usato x volte, ma non
mi dicono se e' servito per x parole diverse o per scrivere x volte la
stessa parola.
Ora, se il programma di cui si parla deve servire per "costruire" parole
inventate, ma pronunciabili, non vedo a cosa serva l'analisi di uno o
piu' testi omogenei per vedere quante volte viene usato "str".
Se poi l'individuazione dei gruppi deve servire per una pedissequa
sostituzione con altra combinazione, non vedo a cosa possa servire
contarne la frequenza.
--
Ciao.
Sergio®
Faccio presente che non nel mio caso specifico il programma non conta
le ripetizioni perchč.... non sono stato capace di farlo (sigh), ma ci
sto provando. Uso VB 6. Mi date qualche dritta? Questo argomento perň
rischia di diventare OT.
l'elenco da me prodotto si appoggia alle sole parole italiane ed
esclude quelle straniere.
Mi dite dove posso trovare il dizionario che avete usato in formato
elettronico (senza comprarlo). Sarebbe comunque utile per migliorare
il programma
L'elenco delle parole pronunciabili inventate e i Criteri (filtri) di
generazione possono interessare?
Grazie
Stefano
Perché no?
Ecco il file di parole composte da 5 lettere.
Dalle 6 lettere in su i file iniziano ad assumere dimensioni
decisamente corpose e non basterebbe una vita per leggerle tutte.
E' più divertente creare delle parole mirate.
Alcune regole sono un po' forzate (tipo due vocali uguali vicine e
finali in U)
Sono state usate solo combinazioni (coppie) di lettere esistenti
nelle parole italiane.
Tutte le parole devono finire per vocale. Ho escluso la u come finale.
I gruppi di tre consonanti ammessi sono quelli indicati
precedentemente
Naturalmente ci sono una serie di filtri sulle lettere doppie e
triple.
Non sono ammesse due vocali uguali vicine.
H seguito sempre da E ed I
H preceduta da C e G
Q seguita da U
S impura non raddoppia
Z non raddoppia con i dittonghi IA IE IO
G non raddoppia in finale IONE
B non raddoppia con finale BILE e BILMENTE
Z non raddoppia in finale IONE
Si accettano suggerimenti e idee per costringermi a migliorare il
programma e le mie conoscenze di programmazione.
Ciao
s.
>On Sat, 15 Nov 2003 00:16:54 +0100, Sergio <sergio_...@tin.it>
>wrote:
>
>Faccio presente che non nel mio caso specifico il programma non conta
>le ripetizioni perchè.... non sono stato capace di farlo (sigh), ma ci
>sto provando. Uso VB 6. Mi date qualche dritta? Questo argomento però
>rischia di diventare OT.
Le scrivi in un DB, le metti in ordine alfabetico e rileggi contando
quelle uguali. Oppure, come ho fatto io, le scrivi in file .txt, le
carichi in Excel, le ordini e le salvi in un .txt.
Comunque quelle che ho scritte io sono gia' contate.
>l'elenco da me prodotto si appoggia alle sole parole italiane ed
>esclude quelle straniere.
Anche "brr", "substrato" e "subtropicale" sono italiane...
>Mi dite dove posso trovare il dizionario che avete usato in formato
>elettronico (senza comprarlo). Sarebbe comunque utile per migliorare
>il programma
Omnia 97.
Poi c'e' itaword, ma lì i lemmi sono declinati e coniugati...
--
Ciao.
Sergio®
Cu, iù? Mai mi pirmittessi di cunfondirci a Vussia!
> All'inizio si parlo' di sillabe (e' anche rimasto nel titolo
> del filone), poi si disse che non di sillabe si trattava ma di
> gruppi di tre consonanti.
E io che c'entro? Non capisco neanch'io da dove siano usciti quei gruppi di
tre consonanti. Io continuavo a riferirmi alle sillabe di cui parlava il
messaggio iniziale.
> Ora tu parli di parole.
Be', le sillabe mica crescono sugli alberi... stanno dentro alle parole!
Quello che pensavo è: si prende un testo (o una collezione di testi)
sufficientemente lunga, si estrae ogni parola, la si scompone in sillabe, e
poi si contano le occorrenze di ogni sillaba.
Il problema è definire l'algoritmo che spezza le parole in sillabe o, in
altri termini, definire che cosa si intende esattamente per sillaba.
Perché la cosa non è per niente scontata. Ad esempio: come suddivido la
parole "tasto"? Secondo fonetica, dovrei dividere "tas-to" ma secondo la
regola ortografica della s impura dovrei invece dividere "ta-sto".
Insomma, mi interessano le vere e proprie sillabe fonetiche oppure le
cosiddette "sillabe" ortografiche?
Se mi interessano le sillabe fonetiche, la "an" di "anta" e la "han" di
"hanno" sono la stessa sillaba: [an]. Al contrario, la "ac" "accadere" e la
"ac" di "accendere" sono sillabe diverse: [ak] e [aC].
Per non parlare poi delle parole che si pronunciano in modi diversi: a
fronte della parola "media", conto una sillaba [mE] o una sillaba [mi]?
Se invece mi interessano le "sillabe" ortografiche devo comunque pormi
qualche domanda. Ad esempio, prendo o non in considerazione gli accenti e
gli apostrofi? Cioè: la "ta" di "tavolo" e la "tà" di "città" sono la stessa
sillaba o no? E la "lo" di "lontra" e la "l'o" di "l'orologio"?
Se qualcuno necessita di fare strane elaborazioni sulle parole italiane
e sulla divisione in sillabe delle stesse può essere utile un dizionario
su file dei lemmi usati in italiano (circa un MB) e della suddivisione
in sillabe (pochi KB).
Si possono scaricare liberamente da OpenOffice.org
http://lingucomponent.openoffice.org/download_dictionary.html
--
____________________________________
Giancarlo Pillan - Ivrea - Italy
____________________________________
Scusate ma non e' previsto dalla netiquette il "divieto" di postare
files binari (anche se encodati) sui gruppi di discussione ?
Non sarebbe piu' opportuno (oltre che meno sprecone della banda)
metterli in qualche sito http o ftp e rendere pubblico solo un puntatore
(URL)
--
----------------------------------------------------------------------
nos...@ifctr.mi.cnr.it is a newsreading account used by more persons to
avoid unwanted spam. Any mail returning to this address will be rejected.
Users can disclose their e-mail address in the article if they wish so.
il mio server tedesco, che a detta anche di americani ecc. e' in assoluto
uno dei migliori free, non li passa proprio, i binari (col circonflesso). di
questo thread vedo solo le risposte...
questo ng non ha un 'sito comune' ? per vb c'e', per cultura classica
anche...
j.
>Sergio ha scritto:
>> Cerchi di confondermi? ;-))
>
>Cu, iù? Mai mi pirmittessi di cunfondirci a Vussia!
Allora chiffa', 'a posu 'a lupara? ;-))
>Be', le sillabe mica crescono sugli alberi... stanno dentro alle parole!
Ipotesi santa e giusta!
>Quello che pensavo è: si prende un testo (o una collezione di testi)
>sufficientemente lunga, si estrae ogni parola, la si scompone in sillabe, e
>poi si contano le occorrenze di ogni sillaba.
>
>Il problema è definire l'algoritmo che spezza le parole in sillabe o, in
>altri termini, definire che cosa si intende esattamente per sillaba.
Se ne parlo' (filone: Aìta, aìta) qualche mese fa. Ma non si raggiunse
una conclusione.
>Perché la cosa non è per niente scontata. Ad esempio: come suddivido la
>parole "tasto"? Secondo fonetica, dovrei dividere "tas-to" ma secondo la
>regola ortografica della s impura dovrei invece dividere "ta-sto".
Beh, dovrebbero applicarsi le regole ortografiche, ma anche queste
falliscono nell'automatismo non tanto sui gruppi di consonanti quanto
sui gruppi di vocali. Ne' si possono fare regole fonetiche basandosi
sugli accenti: spì-a, spi-à-re, guì-do, su-ì-no...
>Insomma, mi interessano le vere e proprie sillabe fonetiche oppure le
>cosiddette "sillabe" ortografiche?
>
>Se mi interessano le sillabe fonetiche, la "an" di "anta" e la "han" di
>"hanno" sono la stessa sillaba: [an]. Al contrario, la "ac" "accadere" e la
>"ac" di "accendere" sono sillabe diverse: [ak] e [aC].
>
>Per non parlare poi delle parole che si pronunciano in modi diversi: a
>fronte della parola "media", conto una sillaba [mE] o una sillaba [mi]?
>
>Se invece mi interessano le "sillabe" ortografiche devo comunque pormi
>qualche domanda. Ad esempio, prendo o non in considerazione gli accenti e
>gli apostrofi? Cioè: la "ta" di "tavolo" e la "tà" di "città" sono la stessa
>sillaba o no? E la "lo" di "lontra" e la "l'o" di "l'orologio"?
E in pa-tà-ta?
Pero' di questo passo dovremmo distinguere sillabe toniche, semitoniche
e atone. E automaticamente e' dura.
--
Ciao.
Sergio®