Ivan Capan wrote: > Zanima me, da li se moze nekako dobiti tekstualni fajl onih riječi koje > sam ja osobno dodao u standard.dic? Gdje se sve to nalazi? Evo, baš sam > dodao "srušilo" koje nije bilo. Gdje je zapisana, i da li je u binarnom > formatu?
% file ~/.openoffice.org2/user/wordbook/standard.dic /home/vedranf/.openoffice.org2/user/wordbook/standard.dic: DBase 3 index file
Imam ih više u rječniku od thunderbirda, ali ne znam gdje se taj nalazi.
> Spojimo sve te riječi (pa nek svatko od nas pošalje 50, kad izdvojimo > duplikate nek ih je 1000) i damo nekome tko će za naknadu to napraviti > (ako je mala baza, naknada ce biti mala).
Da, tako sam nešto i ja mislio. Složimo jedan wiki (s autorizacijom) pa nek ljudi stavljaju svoje riječi. A onda kad ih se skupi dovoljno...
-- Men are born ignorant, not stupid. They are made stupid by education. --Bertrand Russell
Ivan Capan <capicn...@kset.org> writes: > Inace, takvi rjecnici se rade da se uzmu kvalitetni lektorirani > tekstovi i propusti ih se kroz nesto sto ce uniq-ati svaku rijec.
Nije mi jasna ta teorija u kontekstu hrvatskog jezika koji ima padeže. Koliko lektorirane građe moraš imati da bi se svaka imenica pojavila u svakom mogućem padežu i broju? A to su samo imenice -- pridjevi su gori jer imaju i rod, a glagoli još gori jer se moraju pojaviti u svim licima i vremenima.
> Nije mi jasna ta teorija u kontekstu hrvatskog jezika koji ima padeže. > Koliko lektorirane građe moraš imati da bi se svaka imenica pojavila u > svakom mogućem padežu i broju? A to su samo imenice -- pridjevi su > gori jer imaju i rod, a glagoli još gori jer se moraju pojaviti u svim > licima i vremenima.
Ne misliš da bi stotinjak knjiga što starijih što novijih pisaca, raznih stilova i žanrova, postiglo zadovoljavajući učinak? Pod pretpostavkom da su jako kvalitetno ekturirani i da nam netko da na korištenje digitalne primjerke uradaka.
-- Ha ha ha, hee hee hee I'm a laughing Gnome and you can't catch me Ha ha ha, hee hee hee I'm a laughing Gnome and you can't catch me
Mato Kutlić <m...@mk.potjeh.hr> writes: > Dana Wed, 05 Jul 2006 12:28:28 +0200, Hrvoje Niksic <hnik...@xemacs.org> > napisa: >> Nije mi jasna ta teorija u kontekstu hrvatskog jezika koji ima padeže. >> Koliko lektorirane građe moraš imati da bi se svaka imenica pojavila u >> svakom mogućem padežu i broju? A to su samo imenice -- pridjevi su >> gori jer imaju i rod, a glagoli još gori jer se moraju pojaviti u svim >> licima i vremenima.
> Ne misliš da bi stotinjak knjiga što starijih što novijih pisaca, raznih > stilova i žanrova, postiglo zadovoljavajući učinak?
Ne mislim, iako bih volio da me netko razuvjeri. Broj kombinacija opisanih gore je enorman, a riječi se u knjigama itekako ponavljaju, dakle stotinjak knjiga ne sadrži toliko riječi koliko bi se mogao ponadati. Nije problem u veličini građe (stotinjak knjiga bi bilo više nego dovoljno za počupati *korijene*), problem je u metodologiji prema kojoj sam sumnjičav.
Naravno, zadovoljavajući učinak je rastezljiv pojam. Ako se zadovoljimo time da checker "zaboravi" poneku riječ samo zato što se u korištenoj građi nije pojavila u odgovarajućem kontekstu, onda će i ovo biti dobro. U tom slučaju hrvatski spelling checker nikad neće biti autoritativan kao što su engleski, njemački itd.
Hrvoje Niksic <hnik...@xemacs.org> wrote: > Koliko lektorirane građe moraš imati da bi se svaka imenica pojavila u
Hm, koliko inace koristis npr. vokativ u tekstu, oj Hrvoje! Neke će riječi nedostajati, naravno, ali trenutno ih nedostaje toliko očitih da se nešto mora napraviti.
> gori jer imaju i rod, a glagoli još gori jer se moraju pojaviti u svim > licima i vremenima.
tako je, mislim na rijeci neke i na ta odvajanja od korijena. ja bih poslao svoj custom.dic file s rijecima koje samo ispravili pa bi bilo dobro kada bi i drugi to napravili. Samo gdje to slati?
e, da, a kome se obratiti za feature request za OO.org Npr; frend mi je radio diplomski i kada je iz svoje građevinske aplikacije napravio copy/paste "101e3" OO.org bi mu to prepoznao kao tekst pa je kukao kako mu je na excelu to radilo da dobije broj kada napravi paste. Kome se obratiti za ovaj bug ili feature request?
Ivan Capan wrote: > Valent <valent.turko...@gmail.com> wrote: > > Htio bih submitati bugove u spellcheckingu (hrvatski) za OpenOffice.org > > 2. Kome trebam se obratiti?
Moja draga je fan open sourcea i prof. Hrvatkog jezika a znamo ih još par, pa bismo ponudili profesionalnu pomoć na rješavanju ovog problema. Kome se trebamo javiti, ili eto molim vas da se vi meni javite za dalje dogovore.
Ivan Capan wrote: > Ante Karamati? <iv...@grad.hr> wrote: > > S obzirom da se nece popraviti sam od sebe, mozda bi trebali sloziti > > neki cvs/svn na kojem bi onda svi mi radili i popravljali greske?
> A da se dade nekom jezicaru da to profesionalno napravi? Ovako ce ljudi > svasta ubacivati.
Ante Karamatić wrote: > On Tue, 4 Jul 2006 16:27:46 +0000 (UTC) > Ivan Capan <capicn...@kset.org> wrote:
> > A da se dade nekom jezicaru da to profesionalno napravi? Ovako ce > > ljudi svasta ubacivati.
> Jos bolja ideja. Ima li netko nekoga ili smo voljni platiti covjeka da > sjedne i napravi to?
> -- > Ante Karamatic | 0xD3BDA225 | 0x0A4A0161 > iv...@grad.hr | iv...@ubuntu.com | ivoks.blogspot.com > "Tomorrow is my day off, so please stay off the powder!"
Mislim da je ovo za početak najbolji put. Organizirati skupljanje custom riječnika od svih koje znate, onda to dati nekome na lekturu i ubaciti u OO.org. Ponudio sam svoje vrijeme i svoje drage (ona je prof. hratskog jezika), a mozda bi mogli neke jos naci profesore u Osijeku koji bi pomogli ovom projektu.
Igor Pozgaj wrote: > On Tue, 04 Jul 2006 18:18:11 +0200, Ante Karamatić wrote: > > S obzirom da se nece popraviti sam od sebe, mozda bi trebali sloziti > > neki cvs/svn na kojem bi onda svi mi radili i popravljali greske?
> ja cu drage volje poslati svoj custom rijecnik sa dodanim rijecima...
Ivan Capan <capicn...@kset.org> writes: > Hrvoje Niksic <hnik...@xemacs.org> wrote: >> Koliko lektorirane građe moraš imati da bi se svaka imenica pojavila u
> Hm, koliko inace koristis npr. vokativ u tekstu, oj Hrvoje!
Ne znam koliko, Ivane, ali dogodi se. :-) (Naravno, vokativ je vokativ i bez "oj"-kanja.)
Ne vidim zašto bi frekventnost upotrebe bila presudan faktor. Ponekad ti spell checker *upravo* treba za rjeđe riječi za koje nisi siguran kako se pišu. Koliko vidim, engleski spelling-checkeri pridaju jednaku važnost "rijetkim" i "čestim" riječima i oblicima.
>> gori jer imaju i rod, a glagoli još gori jer se moraju pojaviti u >> svim licima i vremenima.
> Ni Microsoftov nema recimo superlative..
Vidiš, komparacija pridjeva mi nije ni pala na pamet.
> Ok, u cemu je problem? Moze se i svako slovo razbit na komade. A > uostalom, jel to treba bit sutra gotovo? Ili do kraja godine, recimo > (posto su sad godisnji, nitko nece htjet radit)?
Tako je, ne mora biti odmah gotovo. Bitno je da netko poradi na organizaciji (eh ta organizacija) tj. da osigura neki cvs ili bilo sta, sto se mene citi mozemo to sve slati nekome na mail. Ja se javljam da budem sljaker... e posto vi tamo bolje znate tehnicki dio stvari bilo bi dobro da netko uzme taj dio.
> sam ja osobno dodao u standard.dic? Gdje se sve to nalazi? Evo, baš sam > dodao "srušilo" koje nije bilo. Gdje je zapisana, i da li je u binarnom > formatu?
~/.openoffice.org2.0/user/wordbook/standard.dic je binaran je
> Spojimo sve te riječi (pa nek svatko od nas pošalje 50, kad izdvojimo > duplikate nek ih je 1000) i damo nekome tko će za naknadu to napraviti > (ako je mala baza, naknada ce biti mala).
> -- > /* Nobody will ever see this message :-) */ > panic("Cannot initialize video hardware\n"); > 2.0.38 /usr/src/linux/arch/m68k/atari/atafb.c
>> Ne misliš da bi stotinjak knjiga što starijih što novijih pisaca, raznih >> stilova i žanrova, postiglo zadovoljavajući učinak?
> Ne mislim, iako bih volio da me netko razuvjeri.
Ja bih volio da mi neko pruži priliku da te pokušam razuvjeriti.
> Broj kombinacija > opisanih gore je enorman, a riječi se u knjigama itekako ponavljaju, > dakle stotinjak knjiga ne sadrži toliko riječi koliko bi se mogao > ponadati.
Ne znam odakle ti ta ( možda pogrešno protumačena ) sigurnost, a zanima me. Pitanje je i odabira knjiga. Nikako ne možeš jednog Krležu staviti u isti rang s Krilićem, mada mi je drugi bolji :) Pametnim odabirom bi se moglo postići znatno više nego pukim slaganjem knjiga, ali dobro, možda je 100 stvarno zanemariv broj. No veći problem je što tih knjiga ionako nema, a pitanje je možemo li ikako i doći do njih.
> Nije problem u veličini građe (stotinjak knjiga bi bilo > više nego dovoljno za počupati *korijene*), problem je u metodologiji > prema kojoj sam sumnjičav.
Ne znam toliko za hrvatske pisce, ali sumnjam da postoji oblik riječi koji Selimović, Andrić, Krleža, i Vesna Krmpotić nisu upotrijebili. Osim stručnih i novokovanih ( sleng, novotvordba i sl. spike ) pojmova.
> Naravno, zadovoljavajući učinak je rastezljiv pojam. Ako se > zadovoljimo time da checker "zaboravi" poneku riječ samo zato što se u > korištenoj građi nije pojavila u odgovarajućem kontekstu, onda će i > ovo biti dobro. U tom slučaju hrvatski spelling checker nikad neće > biti autoritativan kao što su engleski, njemački itd.
Dobro, mislim da je besmisleno očekivati jednako dobru podršku za jedan mali ( ali prekrasan! ) jezik kao i za velikane poput njemačkog ili engleskog. Uostalom, koji se ja jarac petljam. Nikad nisam koristio ta čudesa, a i ne nameravam :)
-- Ha ha ha, hee hee hee I'm a laughing Gnome and you can't catch me Ha ha ha, hee hee hee I'm a laughing Gnome and you can't catch me
Mato Kutlić <m...@mk.potjeh.hr> writes: > Dana Wed, 05 Jul 2006 12:47:50 +0200, Hrvoje Niksic <hnik...@xemacs.org> > napisa: >>> Ne misliš da bi stotinjak knjiga što starijih što novijih pisaca, raznih >>> stilova i žanrova, postiglo zadovoljavajući učinak?
>> Ne mislim, iako bih volio da me netko razuvjeri.
> Ja bih volio da mi neko pruži priliku da te pokušam razuvjeriti.
Ovaj thread je savršena prilika.
>> Nije problem u veličini građe (stotinjak knjiga bi bilo više nego >> dovoljno za počupati *korijene*), problem je u metodologiji prema >> kojoj sam sumnjičav.
> Ne znam toliko za hrvatske pisce, ali sumnjam da postoji oblik riječi > koji Selimović, Andrić, Krleža, i Vesna Krmpotić nisu upotrijebili.
Zbilja? Uzmimo jednu riječ, na primjer "zakiseliti". Misliš li da su svi oblici te riječi pokriveni u djelima navedenih autora? I tako za svaki glagol ili imenicu koji bi poželio imati u spell checkeru? Ja ozbiljno sumnjam u to.
Nema ni najmanje sumnje sumnje da su upotrijebili sve korijene koje nas zanimaju (osim modernih i tehničkih, ali njih možemo dobiti iz drugih izvora), ali nisu mogli upotrijebiti svaki oblik svake riječi. Čak i konzervativne procjene broja kombinacija dovode do velikih brojeva za koje ne možeš izvući dovoljno knjiga u elektronskom formatu.
>> Naravno, zadovoljavajući učinak je rastezljiv pojam. Ako se >> zadovoljimo time da checker "zaboravi" poneku riječ samo zato što >> se u korištenoj građi nije pojavila u odgovarajućem kontekstu, onda >> će i ovo biti dobro. U tom slučaju hrvatski spelling checker nikad >> neće biti autoritativan kao što su engleski, njemački itd.
> Dobro, mislim da je besmisleno očekivati jednako dobru podršku za jedan > mali ( ali prekrasan! ) jezik kao i za velikane poput njemačkog ili > engleskog.
Ne vidim zašto bi to bilo besmisleno, ipak se radi o spell checkeru, ne o grammar checkeru ili sličnim perverzijama. Takve stvari su već rađene, i bile su bolje od ovog u OpenOfficeu.
Valent <valent.turko...@gmail.com> wrote: > ~/.openoffice.org2.0/user/wordbook/standard.dic > je binaran je
Hm, ništa se nije dogodilo kad sam dodao. Fajl ima 22 bajta!? To je jedini tog imena na sustavu. Imam dozvole pisanja po njemu, OO mi ponudi upravo taj dict da dodam u njega, ne javi gresku, ali se jednostavno ne doda. Ima li neki alternativni?
Hrvoje Niksic <hnik...@xemacs.org> wrote: > Ne znam koliko, Ivane, ali dogodi se. :-) (Naravno, vokativ je > vokativ i bez "oj"-kanja.)
Znam da jest, ali htjedoh naglasiti oblik.
> Ne vidim zašto bi frekventnost upotrebe bila presudan faktor. Ponekad > ti spell checker *upravo* treba za rjeđe riječi za koje nisi siguran
Zapravo, treba najvise za one rijeci na kojima se ljudi najvise bune, dakle treba podrzavati sve one koje u sebi imaju čć, zatim ije i je, pa ne znam što već ne. A ako baš jedna osoba od 10000 korisnika treba u nekom trenu neku zaista rijetku riječ, nek se snađe drugačije. Njoj ne bi pomogao ni MSOffice checker.
P.S. u tekstu Linux Linuxa Linuxi Linuxima Linuxov Linuxu nije podvukao samo prvu riječ. Nema ni "Internet".
Valent <valent.turko...@gmail.com> wrote: > Mislim da je ovo za početak najbolji put. Organizirati skupljanje > custom riječnika od svih koje znate, onda to dati nekome na lekturu i
Prvo ih trebamo početi puniti. Previše puta sam preskočio neku riječ ne dodavši ju, no sad ću ih dodavati jer znam da ima svrhe. Lako se to onda na kraju agregira.
> Ponudio sam svoje vrijeme i svoje drage (ona je prof. hratskog jezika), > a mozda bi mogli neke jos naci profesore u Osijeku koji bi pomogli ovom
>> Dana Wed, 05 Jul 2006 12:47:50 +0200, Hrvoje Niksic <hnik...@xemacs.org> >> napisa: >>>> Ne misliš da bi stotinjak knjiga što starijih što novijih pisaca, raznih >>>> stilova i žanrova, postiglo zadovoljavajući učinak? >>> Ne mislim, iako bih volio da me netko razuvjeri. >> Ja bih volio da mi neko pruži priliku da te pokušam razuvjeriti.
> Ovaj thread je savršena prilika.
>>> Nije problem u veličini građe (stotinjak knjiga bi bilo više nego >>> dovoljno za počupati *korijene*), problem je u metodologiji prema >>> kojoj sam sumnjičav. >> Ne znam toliko za hrvatske pisce, ali sumnjam da postoji oblik riječi >> koji Selimović, Andrić, Krleža, i Vesna Krmpotić nisu upotrijebili.
> Zbilja? Uzmimo jednu riječ, na primjer "zakiseliti". Misliš li da su > svi oblici te riječi pokriveni u djelima navedenih autora? I tako za > svaki glagol ili imenicu koji bi poželio imati u spell checkeru? Ja > ozbiljno sumnjam u to.
Ne krećemo od nule, u rječniku već postoji veliki broj riječi:
Zakiseliti
Zakiselim Zakiseliš Zakiseli <- fali Zakiselimo Zakiselite Zakisele <- fali
Hrvoje Niksic wrote: > Ne vidim zašto bi frekventnost upotrebe bila presudan faktor. Ponekad > ti spell checker *upravo* treba za rjeđe riječi za koje nisi siguran
Ne bih se složio. Većina ljudi zna napisati otorinolaringologija, ali će dobar dio faliti r(i)ječnik. Dovoljno ti je da pogledaš usenet, većina grešaka je u često korištenima riječima.
-- Men are born ignorant, not stupid. They are made stupid by education. --Bertrand Russell
Ivan Capan wrote: > Ante Karamati? <iv...@grad.hr> wrote: >> S obzirom da se nece popraviti sam od sebe, mozda bi trebali sloziti >> neki cvs/svn na kojem bi onda svi mi radili i popravljali greske?
> A da se dade nekom jezicaru da to profesionalno napravi? Ovako ce ljudi > svasta ubacivati.
U većini slučajeva nema potrebe za lektorom jer, kao što si i sam rekao, fale riječi tipa "internet" i "linux", a s njima se i sami možemo snaći.
-- Men are born ignorant, not stupid. They are made stupid by education. --Bertrand Russell
Valent wrote: > Vedran Furač wrote: >> Dinko Korunic wrote: >>> On Tue, 04 Jul 2006 16:09:12 +0200, Vedran Furač wrote: >>>> Valent wrote: >>>>> Htio bih submitati bugove u spellcheckingu (hrvatski) za OpenOffice.org >>>>> 2. Kome trebam se obratiti? >>>> O kakvom je bugu riječ? >>> Kako to mislis? Pa radi *ocajno* >> Ali bolje nego prije. :-)
>>> ogroman broj rijeci ne prepoznaje ili >> To onda nije bug u myspell-u, već u nedostatak riječi u rječniku.
>>> prepoznaje sa sufiksom *odvojenim* od korijena :-( >> A ovo je poznat problem, iako se danas (OOo2) javlja *puno* rjeđe nego >> prije (OOo1). Zanimalo me da li govori o tome ili o nečemu drugom.
> govorim o tome
Da to je bug i trebao bi ga prijaviti openoffice timu. Ne znam točan link. Probaj u neki fajl na disku staviti sve riječi koje ti razlomi.
> ali i o tome da ako napišeš "neču" i "neću" niti > jednu riječ ne podvuče kao neispravnu ?!?
Ovo mi nije poznato. Meni uredno podvuče "neču" kao neispravnu. Jesi siguran da je spellcheck bio uključen?
-- Men are born ignorant, not stupid. They are made stupid by education. --Bertrand Russell
Ivan Capan wrote: > Valent <valent.turko...@gmail.com> wrote: >> ~/.openoffice.org2.0/user/wordbook/standard.dic >> je binaran je
> Hm, ništa se nije dogodilo kad sam dodao. Fajl ima 22 bajta!? > To je jedini tog imena na sustavu. Imam dozvole pisanja po njemu, OO mi > ponudi upravo taj dict da dodam u njega, ne javi gresku, ali se > jednostavno ne doda. Ima li neki alternativni?
Ima, ako kliknes na new. Onda mozes dikshenery nazvat "Rvacki" pa utipkavat rich po rich. Kad izadje nova verzija OOo-a promijenit ce binarni format a nece napravit konverter za stare juzer dikshnerije. Ako si nadobudan, Ti ces oplest stringzima po bekapu od juzer dikshnerija, isprintat i ponovno utpkavat. I tako ad nauseam. Onda ce te mudrijasi pitati zasto je nestala rijec "ali" iz nove verzije rjecnika. Ti ces se tuc uglavu i govorit: "Zasto nisan procita man stranicu o' stringza?".
8:)
p.s. Oni je smajli na kraju triba bit "propelerhed", ali u skracenoj verziji (bez nosa i osovine o' propele). Ako mozilla/thunderbird korisnici ne dobiju graficku verziju smajlija, molim da dobro zaspamaju mozillinu bugzillu svojim "bug reportovima".