Localitățile din România în dicționar

57 views
Skip to first unread message

Strainu

unread,
Sep 7, 2012, 5:17:02 PM9/7/12
to ros...@googlegroups.com
Salut,

Având de lucru destul de mult cu localitățile din România am observat
că ele sunt considerate erori de speller. N-ar fi bine să fie incluse
în dicționar? Sunt în jur de 14000, lista lor putând fi descărcată de
pe site-ul INSSE, baza de date SIRUTA. Dacă vă ajută, pot să le scot
eu într-un format ok pentru voi.

Strainu

Sorin Paliga

unread,
Sep 8, 2012, 3:39:53 AM9/8/12
to ros...@googlegroups.com
Ba da, mie mi-ar fi util acest dicționar. Așa cum apare pe siteul ciimec, sunt însă fără semne diacritice, de multe ori asta e o problemă, nu știi cum e, cu s ori cu ș? cu t ori cu ț? cu a ori cu ă? Nu totdeauna poți deduce diacriticul.
Sper să fie doar problemă de afișaj, originalul bazei de date să fie corect introdus.


Strainu

--
Aţi primit acest mesaj deoarece sunteţi abonat(ă) la grupul „rospell: corectoare ortografice românești” din Grupuri Google.

Pentru a publica pe acest grup, trimiteţi e-mail la ros...@googlegroups.com.
Pentru a vă dezabona de la acest grup, trimiteţi e-mail la rospell+u...@googlegroups.com.
Pentru opţiuni suplimentare, vizitaţi acest grup la adresa http://groups.google.com/group/rospell?hl=ro.




--
Sorin Paliga, Ph.D.
Univ. din București / Univ. of Bucharest
Catedra de Limbi Slave / Dept. of Slavic Languages
București / Bucharest, România

Strainu

unread,
Sep 8, 2012, 7:04:04 AM9/8/12
to ros...@googlegroups.com
Originalul SIRUTA e cu diacritice. Pentru conveniență, am făcut eu un
fișier pe baza satelor din Wikipedia. Sunt 11334 de denumiri unice de
sate. Disclaimer: datele s-ar putea să nu fie la zi și/sau să conțină
erori. În plus, orașele nu sunt incluse, nu aveam nevoie de ele pentru
ce voiam eu să realizez.

Link: https://wikiro.googlecode.com/svn/trunk/data/village_names.txt

Strainu

În data de 8 septembrie 2012, 10:39, Sorin Paliga
<sorin....@gmail.com> a scris:

Sorin Paliga

unread,
Sep 8, 2012, 7:56:50 AM9/8/12
to ros...@googlegroups.com
Da, super. Încă o întrebare: ce encoding a fost folosit la text? UTF
8 nu este recunoscut? Dacă aleg manual Latin 2, de asemenea nu merge.
> Pentru a vă dezabona de la acest grup, trimiteţi e-mail la rospell+unsubscribe@googlegroups.c

Strainu

unread,
Sep 8, 2012, 8:31:30 AM9/8/12
to ros...@googlegroups.com
Mmm....eu zic că e utf-8.

andrei@emily:~/cod/svn/wikiro.googlecode.com/data$ file -bi village_names.txt
text/plain; charset=utf-8

La fel îmi zice și Firefox la versiunea online.

Poate n-ai fonturile bune instalate? Fișierul e scris cu diacritice cu virgulă.
Strainu

În data de 8 septembrie 2012, 14:56, Sorin Paliga

Sorin Paliga

unread,
Sep 8, 2012, 12:08:06 PM9/8/12
to ros...@googlegroups.com
Da, pus pe automat nu vedea corect, am ales manual UTF 8 și s-a
deschis OK. bună treabă, mulțumesc. Ar fi un pas spre un dicționar
etimologic toponomic.

Mulțumesc
> Pentru a vă dezabona de la acest grup, trimiteţi e-mail la rospell+unsubscribe@googlegroups.c

Lucian Constantin

unread,
Sep 29, 2012, 10:59:53 AM9/29/12
to ros...@googlegroups.com

 Salut,

Poți să faci o listă cu ele? Eu mai am o grămadă de alte modificări care s-au adunat în cursul anului, cred că este timpul să scot o nouă versiune de dicționar.

Lucian

Sorin Paliga

unread,
Sep 29, 2012, 11:29:33 AM9/29/12
to ros...@googlegroups.com
Ar fi grozav, da... localitățile ar trebui incluse în dicționar.
--
Aţi primit acest mesaj deoarece sunteţi abonat(ă) la grupul „rospell: corectoare ortografice românești” din Grupuri Google.
Pentru a vizualiza această discuţie pe web, accesaţi https://groups.google.com/d/msg/rospell/-/nTMJ-UgBgYIJ.

Strainu

unread,
Sep 29, 2012, 11:59:36 AM9/29/12
to ros...@googlegroups.com
În data de 29 septembrie 2012, 18:29, Sorin Paliga
<sorin....@gmail.com> a scris:
> Ar fi grozav, da... localitățile ar trebui incluse în dicționar.
>
> On Sep 29, 2012, at 5:59 PM, Lucian Constantin wrote:
>
> On Friday, September 7, 2012 5:17:43 PM UTC-4, Strainu wrote:
>>
>> Având de lucru destul de mult cu localitățile din România am observat
>> că ele sunt considerate erori de speller. N-ar fi bine să fie incluse
>> în dicționar? Sunt în jur de 14000, lista lor putând fi descărcată de
>> pe site-ul INSSE, baza de date SIRUTA. Dacă vă ajută, pot să le scot
>> eu într-un format ok pentru voi.
>
>
> Salut,
>
> Poți să faci o listă cu ele? Eu mai am o grămadă de alte modificări care
> s-au adunat în cursul anului, cred că este timpul să scot o nouă versiune de
> dicționar.
>
> Lucian

Ahem...vezi mai sus, i-am trimis-o pe cea pe care o am lui Sorin și
implicit pe listă :)

E posibil să obțin și restul săptămâna asta.

Strainu

Lucian Constantin

unread,
Sep 29, 2012, 2:11:36 PM9/29/12
to ros...@googlegroups.com
On Saturday, September 29, 2012 12:00:17 PM UTC-4, Strainu wrote:
Ahem...vezi mai sus, i-am trimis-o pe cea pe care o am lui Sorin și
implicit pe listă :)

E posibil să obțin și restul săptămâna asta.


Mersi, le-am găsit - se mutaseră în /trunk/data/geo... Le aștept și pe restul.

Lucian

Strainu

unread,
Sep 29, 2012, 3:01:59 PM9/29/12
to ros...@googlegroups.com
În data de 29 septembrie 2012, 21:11, Lucian Constantin
<struct_b...@yahoo.com> a scris:
Ah, da, uitasem că le-am mutat :)

Lista localităților de la comună în sus este la
http://code.google.com/p/wikiro/source/browse/trunk/data/geo/city_names.csv

Cele 2 liste nu sunt disjuncte (unele comune apar probabil și ca sate
și datele au și surse diferite), trebuie trecute probabil printr-un
uniq sau ceva.

Strainu

Lucian Constantin

unread,
Sep 30, 2012, 8:15:02 AM9/30/12
to ros...@googlegroups.com
On Saturday, September 29, 2012 3:02:40 PM UTC-4, Strainu wrote:
Cele 2 liste nu sunt disjuncte (unele comune apar probabil și ca sate
și datele au și surse diferite), trebuie trecute probabil printr-un
uniq sau ceva.

Mulțumesc, se face.

Lucian
Reply all
Reply to author
Forward
0 new messages