> Htio bih submitati bugove u spellcheckingu (hrvatski) za OpenOffice.org
> 2. Kome trebam se obratiti?
Ili na Bugzillu svog distributera pa će on to eventualno proslijediti
"upstream".
--
Igor Jagec
O kakvom je bugu riječ?
--
Men are born ignorant, not stupid. They are made stupid by education.
--Bertrand Russell
Krive rijeci ili bugove u samoj aplikaciji?
Kako to mislis? Pa radi *ocajno* -- ogroman broj rijeci ne prepoznaje ili
prepoznaje sa sufiksom *odvojenim* od korijena :-(
--
NAME:Dinko.kreator.Korunic NOTE:Standard.disclaimer.applies
URL:http://dkorunic.net IRC:kre ICQ:16965294 PGP:0xea160d0b
Ali bolje nego prije. :-)
> ogroman broj rijeci ne prepoznaje ili
To onda nije bug u myspell-u, već u nedostatak riječi u rječniku.
> prepoznaje sa sufiksom *odvojenim* od korijena :-(
A ovo je poznat problem, iako se danas (OOo2) javlja *puno* rjeđe nego
prije (OOo1). Zanimalo me da li govori o tome ili o nečemu drugom.
Iskreno ne vidim razliku izmedju OO1 i OO2 spell checkera za HR. Mozda sam
(opet) u krivu, ali ne vidim ikakva poboljsanja.
> Valent wrote:
>> Htio bih submitati bugove u spellcheckingu (hrvatski) za OpenOffice.org
>> 2. Kome trebam se obratiti?
>
> O kakvom je bugu riječ?
Ti se salis? OOo spell checker (hrvatski) je toliko los da je prakticki
neupotrebljiv. Bas danas sam isao prekontrolirati spell u seminarskom
(oko 30ak stranica teksta) i trebalo mi je oko sat vremena dok mu
nisam ubacio sve rijeci koje nije imao, da ne spominjem gluposti tipa
da za neke riječi nedostaje pola padeza, a neke rijeci bez nekog
posebnog razloga oznaci neispravnima i ponudi isto to ali sa spaceom
iza korijena rijeci.
--
Igor Pozgaj | ipozgaj at fly.srk.fer.hr
ICQ: 126002505 | IRC: @thunder (#linux@IdolNet)
PGP: 0xEF36A092 | http://fly.srk.fer.hr/~ipozgaj
http://ipozgaj.blogspot.com (/atom.xml RSS feed)
> Ti se salis? OOo spell checker (hrvatski) je toliko los da je
> prakticki neupotrebljiv. Bas danas sam isao prekontrolirati spell u
> seminarskom (oko 30ak stranica teksta) i trebalo mi je oko sat
> vremena dok mu nisam ubacio sve rijeci koje nije imao, da ne
> spominjem gluposti tipa da za neke riječi nedostaje pola padeza, a
> neke rijeci bez nekog posebnog razloga oznaci neispravnima i ponudi
> isto to ali sa spaceom iza korijena rijeci.
S obzirom da se nece popraviti sam od sebe, mozda bi trebali sloziti
neki cvs/svn na kojem bi onda svi mi radili i popravljali greske?
--
Ante Karamatic | 0xD3BDA225 | 0x0A4A0161
iv...@grad.hr | iv...@ubuntu.com | ivoks.blogspot.com
"Tomorrow is my day off, so please stay off the powder!"
A da se dade nekom jezicaru da to profesionalno napravi? Ovako ce ljudi
svasta ubacivati.
> A da se dade nekom jezicaru da to profesionalno napravi? Ovako ce
> ljudi svasta ubacivati.
Jos bolja ideja. Ima li netko nekoga ili smo voljni platiti covjeka da
sjedne i napravi to?
Debian? Čudno. Meni je OOo1 rastavljao više od 50% riječi u prosječnom
tekstu i kao takav bio neupotrebljiv. OOo2, s druge strane to radi za
manje od 1% riječi. Isto vrijedi i za thunderbird (isto myspell) 1.5 u
odnosu na 1.0.
> On Tue, 4 Jul 2006 16:27:46 +0000 (UTC)
> Ivan Capan <capi...@kset.org> wrote:
>
>> A da se dade nekom jezicaru da to profesionalno napravi? Ovako ce
>> ljudi svasta ubacivati.
>
> Jos bolja ideja. Ima li netko nekoga ili smo voljni platiti covjeka
> da sjedne i napravi to?
Teško je reći prije nego što je uopće jasno što je to što treba
napraviti. Meni se već dulje vrijeme čini da je promašeno raditi
spell-checker za hrvatski ili bilo koji drugi slavenski jezik po
principu samog rječnika. Unošenje svakog pojedinačnog padeža, bilo da
to rade volonteri u svn-u ili jezičar za pare, je Sizifov posao koji
nikad neće proizvesti autoritativan checker, a trebat će godine da
uopće bude upotrebljiv.
Dobar checker bi morao imati listu korijena i pravila tvorbe riječi,
kao i liste izuzetaka od istih. Izrada takvog čega zahtijeva suradnju
kompetentnih jezičara i programera, dakle ono što neki vole nazvati
"multidisciplinarnim timom". Ne znam može li se to dobiti kao plod
volonterskog rada; nekako sumnjam. :-(
Ne, ti?
> OOo spell checker (hrvatski) je toliko los da je prakticki
> neupotrebljiv. Bas danas sam isao prekontrolirati spell u seminarskom
> (oko 30ak stranica teksta) i trebalo mi je oko sat vremena dok mu
> nisam ubacio sve rijeci koje nije imao, da ne spominjem gluposti tipa
> da za neke riječi nedostaje pola padeza,
Zato sam i pitao originalnog postera u čemu je točno problem. Da li u
nedostatku riječi ili u nekom određenom bugu pri provjeri pravopisa. Ako
je prvo onda prijave idu na jedno mjesto, ako je drugo, onda prijave idu
na drugo mjesto. Ili, ako je problem u samom myspell-hr paketu, a čovjek
koristi debian/ubuntu onda prijave idu direktno k meni. Stoga mislim da je
moje pitanje bilo na mjestu. Primijeti da ja nisam rekao da nema nikakvih
problema, već samo pitao o čemu je točno riječ.
S druge strane, ako je tvoj seminar bio stručne naravi, onda je i za
očekivati da će nedostajati veliki broj riječi. U tom slučaju dodaš ih u
svoj lokalni rječnik, kao što to ja činim i onda, nakon godinu dana,
dodamo sakupljene riječi u rječnik.
> a neke rijeci bez nekog
> posebnog razloga oznaci neispravnima i ponudi isto to ali sa spaceom
> iza korijena rijeci.
Poznat problem, ali, bar kod mene, jako rijedak:
http://www.inet.hr/~vfurac/myspell_mozilla.png
> "multidisciplinarnim timom". Ne znam može li se to dobiti kao plod
> volonterskog rada; nekako sumnjam. :-(
Zasto bi to bilo volonterski? Vjerujem da mozemo naci neke nacine
financiranja ljudi koji bi to radili.
> Dobar checker bi morao imati listu korijena i pravila tvorbe riječi,
> kao i liste izuzetaka od istih.
Sve one glasovne promjene...bilo bi tu dosta posla.
A i korijen ne bi mogao biti samo npr. "Zagreb", već:
- Zagreb
- Zagrebački
- Zagrepčanin
- Zagrepčanka
[...]
ja cu drage volje poslati svoj custom rijecnik sa dodanim rijecima...
Khm, khm, ili bolje nemoj slati khm, nesto >:-)
--
Zlatko
> A da uzmemo pravopise i rijecnike i svatko uhvati jedno slovo?
Rjecnike :) Jedno pocetno slovo po glavi je nekoliko tisuca rijeci po
glavi.
> i jel bi to bilo samo za taj vas tutuuuu ili bi mogli i fedorasi brke
> omastit od tog svega?
To bi bilo za myspell spellchecker, ne za distribucije. A fond rijeci
mogao bi se koristiti i na Windowsima IIRC.
Eto, sad vidis kolika je potreba za dobrim... rjecnikom? :)
--
Zlatko
> Ok, u cemu je problem? Moze se i svako slovo razbit na komade. A
> uostalom, jel to treba bit sutra gotovo? Ili do kraja godine, recimo
> (posto su sad godisnji, nitko nece htjet radit)?
Nije problem, samo zelim istaknuti da je to puno posla i da se ne moze
napraviti na ho-ruk.
Ja bih volio ispitati mogucnosti financiranja kroz neke programe (CARDS
i sl.).
Ako smo do sad cekali... No, otkud nam svima rjecnici? Ja imam
Londonac-pravopis i ne kupuje mi se Anić zbog toga (mogao bih posuditi,
ali ne mogu to svi nabaviti). Inače, ovaj moj pravopis ima 200 stranica
rjecnika, po tri stupca. I što je "akšamlučar"? Da li bi trebali i takvu
riječ dodavati?
Inače, slova ima 30. Ako se razbiju na 3 dijela to je 90 ljudi. Koliko
nas ima na grupi i izvan koji bi se tog mogli-stigli-htjeli primiti?
20-30?
Inace, takvi rjecnici se rade da se uzmu kvalitetni lektorirani tekstovi
i propusti ih se kroz nesto sto ce uniq-ati svaku rijec. Naravno, moraju
biti interdisciplinarni da pokupimo i tehničke izraze.
No, mislim da bi bilo lakse, ako nadjemo nekog tko ce lektorirati nase
razlike, da slozimo infrastrukturu koja ce to raditi.
Zanima me, da li se moze nekako dobiti tekstualni fajl onih riječi koje
sam ja osobno dodao u standard.dic? Gdje se sve to nalazi? Evo, baš sam
dodao "srušilo" koje nije bilo. Gdje je zapisana, i da li je u binarnom
formatu?
Spojimo sve te riječi (pa nek svatko od nas pošalje 50, kad izdvojimo
duplikate nek ih je 1000) i damo nekome tko će za naknadu to napraviti
(ako je mala baza, naknada ce biti mala).
--
/* Nobody will ever see this message :-) */
panic("Cannot initialize video hardware\n");
2.0.38 /usr/src/linux/arch/m68k/atari/atafb.c
Naravno da treba.
Pazi:
Moj jarane, Sulejmane,
Moj jarane, Sulejmane,
Jel ti žao Banja Luke?
Banjalučkih teferidža,
Kraj Vrbasa akšamluka?
Akšamluk je neizostavni dio sevdalinki, a čovjek bez sevdaha nije
čovjek, pa čak ni kad je geek.
--
Ha ha ha, hee hee hee
I'm a laughing Gnome and you can't catch me
Ha ha ha, hee hee hee
I'm a laughing Gnome and you can't catch me
> Zanima me, da li se moze nekako dobiti tekstualni fajl onih riječi koje
> sam ja osobno dodao u standard.dic? Gdje se sve to nalazi? Evo, baš sam
> dodao "srušilo" koje nije bilo. Gdje je zapisana, i da li je u binarnom
> formatu?
% file ~/.openoffice.org2/user/wordbook/standard.dic
/home/vedranf/.openoffice.org2/user/wordbook/standard.dic: DBase 3 index file
% strings ~/.openoffice.org2/user/wordbook/standard.dic
Adijabata
Linearizacijom
Nadomjesna
Supstitucijama
armaturnog
elektromotornog
hidrostatskom
integralnog
istosmjernog
kompenzira
laminarnog
linearizirane
multipleksor
nadomjesnom
nadtlak
[...]
Imam ih više u rječniku od thunderbirda, ali ne znam gdje se taj nalazi.
> Spojimo sve te riječi (pa nek svatko od nas pošalje 50, kad izdvojimo
> duplikate nek ih je 1000) i damo nekome tko će za naknadu to napraviti
> (ako je mala baza, naknada ce biti mala).
Da, tako sam nešto i ja mislio. Složimo jedan wiki (s autorizacijom) pa
nek ljudi stavljaju svoje riječi. A onda kad ih se skupi dovoljno...
> Inace, takvi rjecnici se rade da se uzmu kvalitetni lektorirani
> tekstovi i propusti ih se kroz nesto sto ce uniq-ati svaku rijec.
Nije mi jasna ta teorija u kontekstu hrvatskog jezika koji ima padeže.
Koliko lektorirane građe moraš imati da bi se svaka imenica pojavila u
svakom mogućem padežu i broju? A to su samo imenice -- pridjevi su
gori jer imaju i rod, a glagoli još gori jer se moraju pojaviti u svim
licima i vremenima.
Ne misliš da bi stotinjak knjiga što starijih što novijih pisaca, raznih
stilova i žanrova, postiglo zadovoljavajući učinak? Pod pretpostavkom da
su jako kvalitetno ekturirani i da nam netko da na korištenje digitalne
primjerke uradaka.
> Dana Wed, 05 Jul 2006 12:28:28 +0200, Hrvoje Niksic <hni...@xemacs.org>
> napisa:
>> Nije mi jasna ta teorija u kontekstu hrvatskog jezika koji ima padeže.
>> Koliko lektorirane građe moraš imati da bi se svaka imenica pojavila u
>> svakom mogućem padežu i broju? A to su samo imenice -- pridjevi su
>> gori jer imaju i rod, a glagoli još gori jer se moraju pojaviti u svim
>> licima i vremenima.
>
> Ne misliš da bi stotinjak knjiga što starijih što novijih pisaca, raznih
> stilova i žanrova, postiglo zadovoljavajući učinak?
Ne mislim, iako bih volio da me netko razuvjeri. Broj kombinacija
opisanih gore je enorman, a riječi se u knjigama itekako ponavljaju,
dakle stotinjak knjiga ne sadrži toliko riječi koliko bi se mogao
ponadati. Nije problem u veličini građe (stotinjak knjiga bi bilo
više nego dovoljno za počupati *korijene*), problem je u metodologiji
prema kojoj sam sumnjičav.
Naravno, zadovoljavajući učinak je rastezljiv pojam. Ako se
zadovoljimo time da checker "zaboravi" poneku riječ samo zato što se u
korištenoj građi nije pojavila u odgovarajućem kontekstu, onda će i
ovo biti dobro. U tom slučaju hrvatski spelling checker nikad neće
biti autoritativan kao što su engleski, njemački itd.
Hm, koliko inace koristis npr. vokativ u tekstu, oj Hrvoje! Neke će
riječi nedostajati, naravno, ali trenutno ih nedostaje toliko očitih da
se nešto mora napraviti.
> gori jer imaju i rod, a glagoli još gori jer se moraju pojaviti u svim
> licima i vremenima.
Ni Microsoftov nema recimo superlative..
Dinko Korunic wrote:
> On Tue, 04 Jul 2006 16:09:12 +0200, Vedran Furač wrote:
> > Valent wrote:
> >> Htio bih submitati bugove u spellcheckingu (hrvatski) za OpenOffice.org
> >> 2. Kome trebam se obratiti?
> >
> > O kakvom je bugu riječ?
>
> Kako to mislis? Pa radi *ocajno* -- ogroman broj rijeci ne prepoznaje ili
> prepoznaje sa sufiksom *odvojenim* od korijena :-(
e, da, a kome se obratiti za feature request za OO.org
Npr; frend mi je radio diplomski i kada je iz svoje građevinske
aplikacije napravio copy/paste "101e3" OO.org bi mu to prepoznao kao
tekst pa je kukao kako mu je na excelu to radilo da dobije broj kada
napravi paste. Kome se obratiti za ovaj bug ili feature request?
Ivan Capan wrote:
> Valent <valent....@gmail.com> wrote:
> > Htio bih submitati bugove u spellcheckingu (hrvatski) za OpenOffice.org
> > 2. Kome trebam se obratiti?
>
> Krive rijeci ili bugove u samoj aplikaciji?
govorim o tome ali i o tome da ako napišeš "neču" i "neću" niti
jednu riječ ne podvuče kao neispravnu ?!?
Valent Turkovic
valent....@gmail.com
Valent.
> Hrvoje Niksic <hni...@xemacs.org> wrote:
>> Koliko lektorirane građe moraš imati da bi se svaka imenica pojavila u
>
> Hm, koliko inace koristis npr. vokativ u tekstu, oj Hrvoje!
Ne znam koliko, Ivane, ali dogodi se. :-) (Naravno, vokativ je
vokativ i bez "oj"-kanja.)
Ne vidim zašto bi frekventnost upotrebe bila presudan faktor. Ponekad
ti spell checker *upravo* treba za rjeđe riječi za koje nisi siguran
kako se pišu. Koliko vidim, engleski spelling-checkeri pridaju
jednaku važnost "rijetkim" i "čestim" riječima i oblicima.
>> gori jer imaju i rod, a glagoli još gori jer se moraju pojaviti u
>> svim licima i vremenima.
>
> Ni Microsoftov nema recimo superlative..
Vidiš, komparacija pridjeva mi nije ni pala na pamet.
Tako je, ne mora biti odmah gotovo. Bitno je da netko poradi na
organizaciji (eh ta organizacija) tj. da osigura neki cvs ili bilo sta,
sto se mene citi mozemo to sve slati nekome na mail.
Ja se javljam da budem sljaker... e posto vi tamo bolje znate tehnicki
dio stvari bilo bi dobro da netko uzme taj dio.
~/.openoffice.org2.0/user/wordbook/standard.dic
je binaran je
Ja bih volio da mi neko pruži priliku da te pokušam razuvjeriti.
> Broj kombinacija
> opisanih gore je enorman, a riječi se u knjigama itekako ponavljaju,
> dakle stotinjak knjiga ne sadrži toliko riječi koliko bi se mogao
> ponadati.
Ne znam odakle ti ta ( možda pogrešno protumačena ) sigurnost, a
zanima me. Pitanje je i odabira knjiga. Nikako ne možeš jednog Krležu
staviti u isti rang s Krilićem, mada mi je drugi bolji :) Pametnim
odabirom bi se moglo postići znatno više nego pukim slaganjem knjiga,
ali dobro, možda je 100 stvarno zanemariv broj. No veći problem je što
tih knjiga ionako nema, a pitanje je možemo li ikako i doći do njih.
> Nije problem u veličini građe (stotinjak knjiga bi bilo
> više nego dovoljno za počupati *korijene*), problem je u metodologiji
> prema kojoj sam sumnjičav.
Ne znam toliko za hrvatske pisce, ali sumnjam da postoji oblik riječi
koji Selimović, Andrić, Krleža, i Vesna Krmpotić nisu upotrijebili. Osim
stručnih i novokovanih ( sleng, novotvordba i sl. spike ) pojmova.
> Naravno, zadovoljavajući učinak je rastezljiv pojam. Ako se
> zadovoljimo time da checker "zaboravi" poneku riječ samo zato što se u
> korištenoj građi nije pojavila u odgovarajućem kontekstu, onda će i
> ovo biti dobro. U tom slučaju hrvatski spelling checker nikad neće
> biti autoritativan kao što su engleski, njemački itd.
Dobro, mislim da je besmisleno očekivati jednako dobru podršku za jedan
mali ( ali prekrasan! ) jezik kao i za velikane poput njemačkog ili
engleskog.
Uostalom, koji se ja jarac petljam. Nikad nisam koristio ta čudesa, a i
ne nameravam :)
> Dana Wed, 05 Jul 2006 12:47:50 +0200, Hrvoje Niksic <hni...@xemacs.org>
> napisa:
>>> Ne misliš da bi stotinjak knjiga što starijih što novijih pisaca, raznih
>>> stilova i žanrova, postiglo zadovoljavajući učinak?
>>
>> Ne mislim, iako bih volio da me netko razuvjeri.
>
> Ja bih volio da mi neko pruži priliku da te pokušam razuvjeriti.
Ovaj thread je savršena prilika.
>> Nije problem u veličini građe (stotinjak knjiga bi bilo više nego
>> dovoljno za počupati *korijene*), problem je u metodologiji prema
>> kojoj sam sumnjičav.
>
> Ne znam toliko za hrvatske pisce, ali sumnjam da postoji oblik riječi
> koji Selimović, Andrić, Krleža, i Vesna Krmpotić nisu upotrijebili.
Zbilja? Uzmimo jednu riječ, na primjer "zakiseliti". Misliš li da su
svi oblici te riječi pokriveni u djelima navedenih autora? I tako za
svaki glagol ili imenicu koji bi poželio imati u spell checkeru? Ja
ozbiljno sumnjam u to.
Nema ni najmanje sumnje sumnje da su upotrijebili sve korijene koje
nas zanimaju (osim modernih i tehničkih, ali njih možemo dobiti iz
drugih izvora), ali nisu mogli upotrijebiti svaki oblik svake riječi.
Čak i konzervativne procjene broja kombinacija dovode do velikih
brojeva za koje ne možeš izvući dovoljno knjiga u elektronskom
formatu.
>> Naravno, zadovoljavajući učinak je rastezljiv pojam. Ako se
>> zadovoljimo time da checker "zaboravi" poneku riječ samo zato što
>> se u korištenoj građi nije pojavila u odgovarajućem kontekstu, onda
>> će i ovo biti dobro. U tom slučaju hrvatski spelling checker nikad
>> neće biti autoritativan kao što su engleski, njemački itd.
>
> Dobro, mislim da je besmisleno očekivati jednako dobru podršku za jedan
> mali ( ali prekrasan! ) jezik kao i za velikane poput njemačkog ili
> engleskog.
Ne vidim zašto bi to bilo besmisleno, ipak se radi o spell checkeru,
ne o grammar checkeru ili sličnim perverzijama. Takve stvari su već
rađene, i bile su bolje od ovog u OpenOfficeu.
Hm, ništa se nije dogodilo kad sam dodao. Fajl ima 22 bajta!?
To je jedini tog imena na sustavu. Imam dozvole pisanja po njemu, OO mi
ponudi upravo taj dict da dodam u njega, ne javi gresku, ali se
jednostavno ne doda. Ima li neki alternativni?
Znam da jest, ali htjedoh naglasiti oblik.
> Ne vidim zašto bi frekventnost upotrebe bila presudan faktor. Ponekad
> ti spell checker *upravo* treba za rjeđe riječi za koje nisi siguran
Zapravo, treba najvise za one rijeci na kojima se ljudi najvise bune,
dakle treba podrzavati sve one koje u sebi imaju čć, zatim ije i je, pa
ne znam što već ne. A ako baš jedna osoba od 10000 korisnika treba u
nekom trenu neku zaista rijetku riječ, nek se snađe drugačije. Njoj ne
bi pomogao ni MSOffice checker.
P.S. u tekstu
Linux Linuxa Linuxi Linuxima Linuxov Linuxu
nije podvukao samo prvu riječ. Nema ni "Internet".
Prvo ih trebamo početi puniti. Previše puta sam preskočio neku riječ ne
dodavši ju, no sad ću ih dodavati jer znam da ima svrhe. Lako se to onda
na kraju agregira.
> Ponudio sam svoje vrijeme i svoje drage (ona je prof. hratskog jezika),
> a mozda bi mogli neke jos naci profesore u Osijeku koji bi pomogli ovom
Odlično!
Ne krećemo od nule, u rječniku već postoji veliki broj riječi:
Zakiseliti
Zakiselim
Zakiseliš
Zakiseli <- fali
Zakiselimo
Zakiselite
Zakisele <- fali
Zakiselio
Zakiselila
Zakiseliste
Zakiselismo
Zakiseliše
[...]
Usput, sve riječi koje sam gore qvotao postoje u rječniku osim imena i
riječi "razuvjeri".
> Ne vidim zašto bi frekventnost upotrebe bila presudan faktor. Ponekad
> ti spell checker *upravo* treba za rjeđe riječi za koje nisi siguran
Ne bih se složio. Većina ljudi zna napisati otorinolaringologija, ali će
dobar dio faliti r(i)ječnik. Dovoljno ti je da pogledaš usenet, većina
grešaka je u često korištenima riječima.
U većini slučajeva nema potrebe za lektorom jer, kao što si i sam rekao,
fale riječi tipa "internet" i "linux", a s njima se i sami možemo snaći.
Da to je bug i trebao bi ga prijaviti openoffice timu. Ne znam točan link.
Probaj u neki fajl na disku staviti sve riječi koje ti razlomi.
> ali i o tome da ako napišeš "neču" i "neću" niti
> jednu riječ ne podvuče kao neispravnu ?!?
Ovo mi nije poznato. Meni uredno podvuče "neču" kao neispravnu. Jesi
siguran da je spellcheck bio uključen?
> Ne bih se složio. Većina ljudi zna napisati otorinolaringologija, ali će
> dobar dio faliti r(i)ječnik.
To stoji, ali opet ne pomaže ako ti spell checker odbije jednostavnu
riječ jer je Meša Selimović nije upotrijebio u nekom padežu. :-)
Ima, ako kliknes na new. Onda mozes dikshenery nazvat "Rvacki" pa
utipkavat rich po rich. Kad izadje nova verzija OOo-a promijenit ce
binarni format a nece napravit konverter za stare juzer dikshnerije. Ako
si nadobudan, Ti ces oplest stringzima po bekapu od juzer dikshnerija,
isprintat i ponovno utpkavat. I tako ad nauseam. Onda ce te mudrijasi
pitati zasto je nestala rijec "ali" iz nove verzije rjecnika. Ti ces se
tuc uglavu i govorit: "Zasto nisan procita man stranicu o' stringza?".
8:)
p.s. Oni je smajli na kraju triba bit "propelerhed", ali u skracenoj
verziji (bez nosa i osovine o' propele). Ako mozilla/thunderbird
korisnici ne dobiju graficku verziju smajlija, molim da dobro zaspamaju
mozillinu bugzillu svojim "bug reportovima".
Teško, jer mišljah na mogućnost da te knjige dobijemo u elektronskom
obliku, da ih obradimo, i na kraju pogledamo praktičnu upotrbljivost
dobivenog fonda riječi.
> Zbilja? Uzmimo jednu riječ, na primjer "zakiseliti". Misliš li da su
> svi oblici te riječi pokriveni u djelima navedenih autora? I tako za
> svaki glagol ili imenicu koji bi poželio imati u spell checkeru? Ja
> ozbiljno sumnjam u to.
Ja ozbiljno mislim da bi konačna količina primjerenih autora bila
dovoljna da dobijemo upotrebljive rezultate, no kako nikada, a možda ni
onda, ti i ja nećemo biti u prilici da to provjerimo u praksi, to
pitanje će ostati akademsko.
> Nema ni najmanje sumnje sumnje da su upotrijebili sve korijene koje
> nas zanimaju (osim modernih i tehničkih, ali njih možemo dobiti iz
> drugih izvora), ali nisu mogli upotrijebiti svaki oblik svake riječi.
> Čak i konzervativne procjene broja kombinacija dovode do velikih
> brojeva za koje ne možeš izvući dovoljno knjiga u elektronskom
> formatu.
Malo googlanja me dovelo do korpusa, skupa pomno odabranih tekstova koji
mogu predstavljati cijeli jezik. Za hrvatski se veličina korpusa
procjenjuje na 25-30 milijuna riječi. Nisam siguran odnosi li se to na
same "korijene" ili ne, ali sklon sam vjerovati da je to _ukupan_broj
riječi, dakle svih oblika. Imaš li ti neku precizniju matematiku?
> Ne vidim zašto bi to bilo besmisleno, ipak se radi o spell checkeru,
> ne o grammar checkeru ili sličnim perverzijama. Takve stvari su već
> rađene, i bile su bolje od ovog u OpenOfficeu.
Tko ih je radio, kako, za koga, i može li se to iskoristiti?
A čuj, ako nije Meša, Dževad ili Aleksa sigurno jesu :)
Ante i Hrvoje su stari, ali poslušajte njihov savjet: pravi spelling
checker (kakav opisuje HN) je ključan projekt za uspjeh slobodnog
softvera u Hrvatskoj. Openoffice je gotovo svim drugim kvalitetama
dovoljno dobra zamjena za Microsoftov Word, i provjera pravopisa
definitivno drži gomilu ljudi vezanim za MS-ov tekst-procesor.
Za ovo će trebati stručnjaci, i ozbiljni novci. Olakotna okolnost
trebala bi biti lingvistička manjevišeekvivalentnost hrvatskog sa
susjednim jezicima pa se dio love može povući na zajedničkoj HR-BA-CG-SR
platformi.
Ognjen
?!?!?
Pripazi malo što pričaš... :-)))
--
GI
> Ante i Hrvoje su stari, ali poslušajte njihov savjet: pravi spelling
> checker (kakav opisuje HN) je ključan projekt za uspjeh slobodnog
> softvera u Hrvatskoj.
Hmm. Iz našeg prošlog razgovora sam stekao dojam da se ne slažeš s
mojim razmišljanjima o spell checkeru. Dapače, nadao sam se da ćeš ti
biti taj koji ćeš me argumentima razuvjeriti :-) jer mi se čini da se
spell checker kakav predlažem neće tako skoro materijalizirati.
Poznaješ li ti ljude koji su u stanju tako nešto napraviti, ili barem
dati kompetentne smjernice? Ja se sjećam da je pred 7-8 godina na
njuze (hr.sci.jezik, tada hr.sci.lang) postao čovjek koji je
sudjelovao u izradi spell checkera, ali ne sjećam se imena njegovog ni
projekta.
Goran Imbrišić?
> Hmm. Iz našeg prošlog razgovora sam stekao dojam da se ne slažeš s
> mojim razmišljanjima o spell checkeru. Dapače, nadao sam se da ćeš ti
> biti taj koji ćeš me argumentima razuvjeriti :-) jer mi se čini da se
> spell checker kakav predlažem neće tako skoro materijalizirati.
Ti si cijelo vrijeme bio u pravu. Moja polurješenja su samo to --
improvizacija i krpanje rupa.
Da ne privatiziram raspravu, ja sam pokusno krenuo s nekim zahvatima u
bazu riječi, čisteći postojeći rječnik od (prohibitivno velikog broja)
grešaka i paralelno radeći na dopuni korpusa tekstom objavljenih knjiga
Naklade Jesenski i Turk (ne želite vidjeti moje skripte :)
Predlagao sam da se angažiraju autori i drugi novinski i knjiški
izdavači, i da se tako popunjava baza. Budući da MySpell ima neloše
metode kompresije nastavaka (statističkih, ne lingvističkih), sve skupa
ne bi ispalo preogromno.
Međutim, sve to skupa iziskuje puno organizacijskog, lektorskog i
korektorskog rada, a konačni proizvod nikad ne bi bio više nego
prihvatljivo dobar. Nakon svega, prihvaćam tvoje mišljenje. Treba
krenuti u taj posao krajnje profesionalno jer će to na koncu biti temelj
svih jezičnih alata, a ne rasipati energiju na nešto što nikad neće biti
Prava Stvar.
> Poznaješ li ti ljude koji su u stanju tako nešto napraviti, ili barem
> dati kompetentne smjernice?
Trebalo bi službeno pristupiti Odsjeku za lingvistiku,
http://www.ffzg.hr/oling/nastavnici.html , a neslužbeno vjerojatno
Krešimiru Šojatu, http://www.hnk.ffzg.hr/ks/, kojem je to uža specijalnost.
i Vladi,
http://www.vlada.hr/default.asp?ru=313&gl=200401080000003&sid=&jezik=1 .
možda najbolje Domagoj Juričić, a stekao sam dojam da i Diana Šimić kuži
o čemu je riječ.
Hoću reći, neke od njih poznajem, ali nije stvar u tome :)
O.
> Dana Fri, 07 Jul 2006 13:46:44 +0200, Hrvoje Niksic <hni...@xemacs.org>
> napisa:
>> njuze (hr.sci.jezik, tada hr.sci.lang) postao čovjek koji je
>> sudjelovao u izradi spell checkera, ali ne sjećam se imena njegovog ni
>> projekta.
>
> Goran Imbrišić?
Nije taj.
> Hoću reći, neke od njih poznajem, ali nije stvar u tome :)
ja znam u chem je stvar
e
ochu rech nesh ste zabaravli barba Zmaju
aha
Tek sad ovo vidim: u OOo 2.0.2 myspell je zamijenjen hunspellom.
http://hunspell.sourceforge.net/
Dakle, treba imati verziju >=2.0.2.
Reci Neno, dušo i srce moje, što ti je na pameti.
> Reci Neno, dušo i srce moje, što ti je na pameti.
dodje
pa opet ode
tu je
a nije tu
u trenu pari da vridi
a onda opet
nema veze sa ichin
koda pricha
uvik istu
rich
aha
Nikad ništa od mene, uvijek je govorila mati...
> Nikad ništa od mene, uvijek je govorila mati...
e onda chemo dat mamama da popunjaju bazu za majspel
kad smo mi djechica nesposobni
ali
koche dobit chokoladu!?