Zgodan trik jeste da beležiš broj puta koliko se neka reč pojavila. Tada
možeš da podvučeš crtu i da za sve reči sa većim brojem pojavljivanja
automatski osnovano veruješ da su tačne.
Spisak slobodno pošalji, ja ću ga uporediti u odnosu na
http://openoffice.rs/dict-sr/ i prirediti razliku. Nemam razloga da
verujem da reči koje su sada u spisku imaju išta veću tačnost od tvoje
liste.
Zamolio bih te da pogledaš i ovu poruku [1] na listi i javi imaš li
interes da zajednički učestvujemo i postavimo temelje za rečnik tako da
jednim unosom u rečnik ulaze i svi oblici te reči.
[1]
http://groups.google.com/group/proverapisanja/browse_thread/thread/a8adac86f62dfd2f
Očekujem uskoro neke lepe vesti vezane za Hunspell podršku za srpski
jezik, sastavio sam jedan predlog projekta za MATF, čim bude nekih vesti
tim povodom, javiću se preko liste.
pp,
Goran
Dobra ideja. Samo moram promeniti kako stvari rade da bi mogao to da
uradim, jer trenutno kada reč dodam u bazu više nikad ne dođe na
proveru, jer se automatski prizna igraču.
> Spisak slobodno pošalji, ja ću ga uporediti u odnosu na
> http://openoffice.rs/dict-sr/ i prirediti razliku. Nemam razloga da
> verujem da reči koje su sada u spisku imaju išta veću tačnost od tvoje
> liste.
http://www.comp.rs/izradasajta/reci.tgz
Ima 2 fajla, oba su UTF-8 latinica, lista0.txt su domaće, a lista9.txt
su razne reči stranog porekla. Mislim da listu0 možeš automatski
ubaciti, a listu9 treba malo pogledati. Kasnije sam ukapirao da
latinica nije baš bila dobra ideja, jer se ćirilica uvek može
konvertovati 1:1, ali tada nisam još znao za aspell bazu...
> Zamolio bih te da pogledaš i ovu poruku [1] na listi i javi imaš li
> interes da zajednički učestvujemo i postavimo temelje za rečnik tako da
> jednim unosom u rečnik ulaze i svi oblici te reči.
>
> [1]
> http://groups.google.com/group/proverapisanja/browse_thread/thread/a8adac86f62dfd2f
Pročitao sam, ali mi nije baš jasno koji je tačno cilj, verovatno jer
ne razumem neke od termina. Može li ukratko odgovor na 3 pitanja:
1. Šta imamo sada?
2. Šta dobijamo posle?
3. Šta tačno treba da se uradi da dođemo od ovog što imamo do onog što
ćemo imati?
I za kraj još jedno pitanje: Da li postoji negde javno dostupna
trenutna verzija aspell baze?
Pozdrav,
--
Milan Babuskov
http://www.slagalica.tv
> http://www.comp.rs/izradasajta/reci.tgz
>
> Ima 2 fajla, oba su UTF-8 latinica, lista0.txt su domaće, a lista9.txt
> su razne reči stranog porekla. Mislim da listu0 možeš automatski
> ubaciti, a listu9 treba malo pogledati. Kasnije sam ukapirao da
> latinica nije baš bila dobra ideja, jer se ćirilica uvek može
> konvertovati 1:1, ali tada nisam još znao za aspell bazu...
>
Možeš li da obradiš prvu datoteku, slova pretvoriš u mala i prebaciš u
ćirilicu? Biće mi lakše da ih ubacim u spisak.
Pogledao sam drugu datoteku, mislim da nam nije upotrebljiva.
> 1. Šta imamo sada?
> 2. Šta dobijamo posle?
> 3. Šta tačno treba da se uradi da dođemo od ovog što imamo do onog što
> ćemo imati?
1. Sada imamo spiskove reči i oblika. Problem je što često jedna reč u
spisku postoji samo u delu mogućih oblika (imenica nedostaje u genitivu,
ili dativu množine).
2. Dobijamo pravila za morfološku gradnju oblika, pa u listi navodimo
samo rečnički oblik i pravilo koje se primenjuje. Dodatno, uz svaki
prepoznati oblik sada imamo i morfološko-gramatičku kategoriju pa drugi
programi, rečnik sinonima na primer, mogu da poklope oblik pri zameni
3. Napisati pravila, tačnije transformaciju od pravila zadatih grafom u
Hunspell šemu. Označiti reči u rečniku, dopuniti rečnik.
Usput nije loše napraviti i neki sajtić ili Fejsbuk aplikaciju, da kroz
igru pozovemo ljude da pomognu unos novih reči. Nešto slično onome što
tvoj sajt nudi, samo malo doterano prema rezultatu koji nam treba.
> I za kraj još jedno pitanje: Da li postoji negde javno dostupna
> trenutna verzija aspell baze?
Ono što je javno dostupno, stoji na http://openoffice.rs/dict-sr/
pp,
Goran