Proširenje aspell baze reči

98 views
Skip to first unread message

Milan Babuskov

unread,
Jan 22, 2011, 3:23:50 PM1/22/11
to Провера писања
Pozdrav svima,

Ja sam vlasnik sajta slagalica.tv gde igrači igraju igre iz TV kviza.
Kao što možda znate, prva igra je slaganje što dužeg anagrama od
ponuđenih slova. Ubrzo nakon što je sajt lansiran (2009 godine)
pojavila se potreba za automatskom proverom ispravnosti unetih reči.
Kao početnu bazu sam uzeo aspell.

Ono što je bitno je da se ova baza svakodnevno proširuje kako igrači
igraju igre, jer reči koje ne postoje u bazi idu prvo na glasanje od
strane posetioca sajta, i ono što prođe glasanje se posle toga još
jednom proveri pre dodavanja u bazu. Za reči koje su mi sumnjive
igračima priznam poene, ali ih ne dodam u bazu.

Verovatno se svi slažete da bi bilo dobro da se ove dodate reči dodaju
i u aspell bazu. Pisao sam Goranu Rakiću mail na ovu temu još pre
skoro godinu dana, ali izgleda da nije prošao spam filter, pa šaljem
ovde. Šta mislite, da li bi to neko trebao još jednom da pregleda pre
nego što se doda? Nekad imam da pregledam po par stotina dnevno, pa se
može desiti da je prošlo ponešto i što nije trebalo.

Milan Babuškov
http://www.slagalica.tv


Goran Rakic

unread,
Jan 22, 2011, 3:36:30 PM1/22/11
to Milan Babuskov, Провера писања
У суб, 22. 01 2011. у 12:23 -0800, Milan Babuskov пише:

> Šta mislite, da li bi to neko trebao još jednom da pregleda pre
> nego što se doda? Nekad imam da pregledam po par stotina dnevno, pa se
> može desiti da je prošlo ponešto i što nije trebalo.

Zgodan trik jeste da beležiš broj puta koliko se neka reč pojavila. Tada
možeš da podvučeš crtu i da za sve reči sa većim brojem pojavljivanja
automatski osnovano veruješ da su tačne.

Spisak slobodno pošalji, ja ću ga uporediti u odnosu na
http://openoffice.rs/dict-sr/ i prirediti razliku. Nemam razloga da
verujem da reči koje su sada u spisku imaju išta veću tačnost od tvoje
liste.

Zamolio bih te da pogledaš i ovu poruku [1] na listi i javi imaš li
interes da zajednički učestvujemo i postavimo temelje za rečnik tako da
jednim unosom u rečnik ulaze i svi oblici te reči.

[1]
http://groups.google.com/group/proverapisanja/browse_thread/thread/a8adac86f62dfd2f

Očekujem uskoro neke lepe vesti vezane za Hunspell podršku za srpski
jezik, sastavio sam jedan predlog projekta za MATF, čim bude nekih vesti
tim povodom, javiću se preko liste.

pp,
Goran


Milan Babuskov

unread,
Jan 22, 2011, 4:01:59 PM1/22/11
to Провера писања
2011/1/22 Goran Rakic <gra...@devbase.net>:

> У суб, 22. 01 2011. у 12:23 -0800, Milan Babuskov пише:
>> Šta mislite, da li bi to neko trebao još jednom da pregleda pre
>> nego što se doda? Nekad imam da pregledam po par stotina dnevno, pa se
>> može desiti da je prošlo ponešto i što nije trebalo.
>
> Zgodan trik jeste da beležiš broj puta koliko se neka reč pojavila. Tada
> možeš da podvučeš crtu i da za sve reči sa većim brojem pojavljivanja
> automatski osnovano veruješ da su tačne.

Dobra ideja. Samo moram promeniti kako stvari rade da bi mogao to da
uradim, jer trenutno kada reč dodam u bazu više nikad ne dođe na
proveru, jer se automatski prizna igraču.

> Spisak slobodno pošalji, ja ću ga uporediti u odnosu na
> http://openoffice.rs/dict-sr/ i prirediti razliku. Nemam razloga da
> verujem da reči koje su sada u spisku imaju išta veću tačnost od tvoje
> liste.

http://www.comp.rs/izradasajta/reci.tgz

Ima 2 fajla, oba su UTF-8 latinica, lista0.txt su domaće, a lista9.txt
su razne reči stranog porekla. Mislim da listu0 možeš automatski
ubaciti, a listu9 treba malo pogledati. Kasnije sam ukapirao da
latinica nije baš bila dobra ideja, jer se ćirilica uvek može
konvertovati 1:1, ali tada nisam još znao za aspell bazu...

> Zamolio bih te da pogledaš i ovu poruku [1] na listi i javi imaš li
> interes da zajednički učestvujemo i postavimo temelje za rečnik tako da
> jednim unosom u rečnik ulaze i svi oblici te reči.
>
> [1]
> http://groups.google.com/group/proverapisanja/browse_thread/thread/a8adac86f62dfd2f

Pročitao sam, ali mi nije baš jasno koji je tačno cilj, verovatno jer
ne razumem neke od termina. Može li ukratko odgovor na 3 pitanja:

1. Šta imamo sada?
2. Šta dobijamo posle?
3. Šta tačno treba da se uradi da dođemo od ovog što imamo do onog što
ćemo imati?

I za kraj još jedno pitanje: Da li postoji negde javno dostupna
trenutna verzija aspell baze?

Pozdrav,

--
Milan Babuskov
http://www.slagalica.tv

Goran Rakic

unread,
Jan 23, 2011, 6:19:53 AM1/23/11
to Milan Babuskov, Провера писања
У суб, 22. 01 2011. у 22:01 +0100, Milan Babuskov пише:

> http://www.comp.rs/izradasajta/reci.tgz
>
> Ima 2 fajla, oba su UTF-8 latinica, lista0.txt su domaće, a lista9.txt
> su razne reči stranog porekla. Mislim da listu0 možeš automatski
> ubaciti, a listu9 treba malo pogledati. Kasnije sam ukapirao da
> latinica nije baš bila dobra ideja, jer se ćirilica uvek može
> konvertovati 1:1, ali tada nisam još znao za aspell bazu...
>

Možeš li da obradiš prvu datoteku, slova pretvoriš u mala i prebaciš u
ćirilicu? Biće mi lakše da ih ubacim u spisak.

Pogledao sam drugu datoteku, mislim da nam nije upotrebljiva.


> 1. Šta imamo sada?
> 2. Šta dobijamo posle?
> 3. Šta tačno treba da se uradi da dođemo od ovog što imamo do onog što
> ćemo imati?

1. Sada imamo spiskove reči i oblika. Problem je što često jedna reč u
spisku postoji samo u delu mogućih oblika (imenica nedostaje u genitivu,
ili dativu množine).
2. Dobijamo pravila za morfološku gradnju oblika, pa u listi navodimo
samo rečnički oblik i pravilo koje se primenjuje. Dodatno, uz svaki
prepoznati oblik sada imamo i morfološko-gramatičku kategoriju pa drugi
programi, rečnik sinonima na primer, mogu da poklope oblik pri zameni
3. Napisati pravila, tačnije transformaciju od pravila zadatih grafom u
Hunspell šemu. Označiti reči u rečniku, dopuniti rečnik.

Usput nije loše napraviti i neki sajtić ili Fejsbuk aplikaciju, da kroz
igru pozovemo ljude da pomognu unos novih reči. Nešto slično onome što
tvoj sajt nudi, samo malo doterano prema rezultatu koji nam treba.


> I za kraj još jedno pitanje: Da li postoji negde javno dostupna
> trenutna verzija aspell baze?

Ono što je javno dostupno, stoji na http://openoffice.rs/dict-sr/

pp,
Goran

Reply all
Reply to author
Forward
0 new messages