Fwd: aspell

22 views
Skip to first unread message

Sasa Stefanovic

unread,
Nov 18, 2008, 7:14:12 AM11/18/08
to provera...@googlegroups.com
Група је покренута након следеће дискусије.

Forwarded conversation

Subject: aspell
------------------------

From: Sasa Stefanovic <dje...@gmail.com>
Date: 2008/11/18
To: g...@devbase.net


Да ли се ускоро планира са издавањем новог Аспела ? Примећујем да много речи постоји, али комбинација заиста премало. Ето, рецимо реч "комбинација" нема :) Постоји ли неки начин да шира јавност допринесе побољшању овога или ... Предлажете ли неки други програм ?

Поздрав

--
Саша Стефановић
site: http://djevrek.blogspot.com/
mail: dje...@googlemail.com
icq: 137936207

----------
From: Goran Rakic <g...@devbase.net>
Date: 2008/11/18
To: dje...@googlemail.com


У уто, 18. 11 2008. у 10:57 +0100, Sasa Stefanovic пише:
Sve ispravke rečnika su dobrodošle. Slobodno pošaljite spisak reči za
uklanjanje i dodavanje, a ja ću ažurirati http://srpski.org/aspell


Kako koristite aspell, pretpostavljam da već imate lični rečnik sa
rečima koje nisu u listi. To je zgodno za prvi korak, a mogli bismo i da
oglasimo drugim korisnicima da pošalju lične rečnike.

Postoji dosta problema u rečniku.

Ima dosta grešaka, nedovoljna je pokrivenost savremenog korpusa,
vlastite imenice nisu propisno obeležene velikim slovom, ne koriste se
pravila za izvođenje oblika (npr. fleksija imenica ili komparacija
prideva) iz korenske reči već su svi oblici tretirani kao različite reči
(pa ako neki oblik nije bio u ulaznom korpusu teksta, nema ga ni u
listi). Značajan je broj unosa u rečnik sa nepravilnim glasovnim
promenama, što bi relativno lako moglo da se prekontroliše i ispravi.

Nedostaju nam i standardni brojevi u spisku reči, a što je najgore čak
postoji i programsko rešenje da to napravimo...
http://sr.openoffice.org/prosirenja/slovima/

Pre par dana sam primio veću ispravku za reči koje sadrže "n+j" i "l+j"
kao dva, umesto kao jedno slovo, a evo i Vi se sada interesujete za
budućnost rečnika.

Ako se skupi još par dopuna, objaviću novu verziju. Svi drugi slobodni
programi za koje ja znam da sadrže proveru pisanja za srpski jezik
(OpenOffice.org, Firefox,...) podatke dobijaju upravo iz aspell rečnika.

Srdačno,
Goran Rakić



----------
From: Sasa Stefanovic <dje...@gmail.com>
Date: 2008/11/18
To: Goran Rakic <g...@devbase.net>


Одлично. Драго ми је да је још неко заинтересован. Користим тај Ваш додатак за ватрену лију и тако проверавам. Иначе сам један од администратора на Википедији на српском језику и оваква, назваћу је, алатка би ми добро дошла. За почетак не би било лоше направити бар комплетнији списак речи са падежима и гласовним променама. А касније, лако ћемо се скупити па направити списак најчешћих граматичких и других грешака у српском језику. Наравно, све ово треба направити на оба писма, тј. ћирилици и латиници.

Не знам колико је могуће, али било би лепо направити неки додак за ватрену лију која би радила извоз речи које ја додам преко "Add to dictionary" и које су исправне и проверене, па ту разлику спојити са тренутном базом речи. То ми је најлакше и најједноставније тако урадити. Некако слично ради и већина софтвера отвореног кода, преко програма SVN, CVS итд. О томе не морам да дужим пошто претпостављам да сте довољно упознати са тиме.

Такође мислим да би требало издавати бар бета верзије аспел-а кад год добијете неку мању допуну или исправку. Покушаћу, још данас, уколико је могуће, ступити са неким људима који се мало више разумеју у ову "проблематику", већина их је лингвистички добро потковано, а такође и у рачунарском смислу. Поразговараћу са њима у вези овога и послушати њихове предлоге, па ако постоји могућност, за почетак, да оснујемо бар неку групу где би даље разговарали на ову тему.

Имате ли неке идеје поводом овога ?

Све најбоље !

2008/11/18 Goran Rakic <g...@devbase.net>



----------
From: Goran Rakic <g...@devbase.net>
Date: 2008/11/18
To: dje...@googlemail.com


У уто, 18. 11 2008. у 11:45 +0100, Sasa Stefanovic пише:
Идеја увек има, мало је оних који хоће да помогну.

Могућа су бета издања, чак нема разлога да их уопште и зовемо бетама,
док год се број грешака у њима смањује.

Не знам како и где Фајерфокс чува личне речнике. Можда би Филип Милетић,
аутор Фајерфокс локализације, знао нешто више о томе.


Тренутно сам веома заузет због последњих припрема пред пуштање
локализованог издања пакета OpenOffice.org 3 у дивљину, али без обзира
на то ту сам да поразговарамо.

Поздравите Ранчића, ако сте и њега имали у виду.


пп,
Горан



----------
From: Sasa Stefanovic <dje...@gmail.com>
Date: 2008/11/18
To: Goran Rakic <g...@devbase.net>


Горане, један познаник, чуо си за њега, Никола Смоленски, такође је заинтересован за ово, па бих те замолио уколико би могао одмах да отвориш групу за проширење аспела како би могли тамо да наставимо дискусију. Може и гугл група. Поздравићу Милоша, у плану ми је и њега да "увучем" у све ово.

У уто, 18. 11 2008. у 11:45 +0100, Sasa Stefanovic пише:



----------
From: Goran Rakic <g...@devbase.net>
Date: 2008/11/18
To: dje...@googlemail.com


Ime grupe: "proverapisanja" ?

Postoji mogućnost da će uskoro Hunspell potpuno zameniti aspell, pa ne
bih naglašavao ime programa u nazivu grupe.

pp,
Goran

У уто, 18. 11 2008. у 12:03 +0100, Sasa Stefanovic пише:

----------
From: Sasa Stefanovic <dje...@gmail.com>
Date: 2008/11/18
To: Goran Rakic <g...@devbase.net>


Које год ти име одабереш. Хмм, ја бих да то буде нешто глобално. Уколико си сигуран да ће он заменити аспел, онда треба контактирати ауторе па направити заједничку базу и сви да радимо на њој.

Ime grupe: "proverapisanja" ?



----------
From: Goran Rakic <g...@devbase.net>
Date: 2008/11/18
To: dje...@googlemail.com


Ista je baza.

Ako Kevin prestane da razvija aspell (on je jedini programer) onda ćemo
mi našu bazu reči i pravila za srpski preneti u Hunspell. Firefox
koristi MySpell, pa kao što vidiš nije bilo problema da to uradimo.

Imaš li neki predlog za to "globalno"?


pp,
Goran


У уто, 18. 11 2008. у 12:10 +0100, Sasa Stefanovic пише:

----------
From: Sasa Stefanovic <dje...@gmail.com>
Date: 2008/11/18
To: Goran Rakic <g...@devbase.net>


Па баш то о чему сам причао. Да глобално за српски језик постоји само једна база. А од ње нека прави ко шта хоће и нек га назове и рекламира како хоће. Дакле, да направимо за почетак глобалну листу за координацију свих нас који су вољни да припомогну реализацији тога, а касније да почнемо и са самим пројектом. Никола ми прича, а већ! је кренуо и да прави скрипту која би узимала текстове са познатих сајтова (блиц, новости, б92, растко итд.) и пролазила кроз текст и узимала речи и од тога правила базу, касније са том основном базом можемо да радимо шта год хоћемо. Има и неке идеје за прављење базе грешака итд. За почетак, само направи ту групу па да се почнемо скупљати.

----------
From: Goran Rakic <g...@devbase.net>
Date: 2008/11/18
To: dje...@googlemail.com


У уто, 18. 11 2008. у 12:27 +0100, Sasa Stefanovic пише:
Skripta već postoji. Na korpusu srpske Vikipedije, Politike, kulinarskih
recepata Krstarice i još par izvora je i nastala lista reči koju
koristiš svakoga dana.

Predloženo „proverapisanja" mi deluje dovoljno „globalno" u tom svetlu.
http://groups.google.com/group/proverapisanja/

Otvorio sam grupu, ali kao što rekoh, danas i sutra, a verovatno do
kraja nedelje sam veoma zauzet, pa nemojte da očekujete da ću odmah moći
da pogledam i odgovorim ako se tamo započne neka plodonosna diskusija.

pp,
Goran






--
Саша Стефановић
site: http://djevrek.blogspot.com/
mail: dje...@googlemail.com
icq: 137936207

Nikola Smolenski

unread,
Nov 18, 2008, 7:47:45 AM11/18/08
to provera...@googlegroups.com
> Nedostaju nam i standardni brojevi u spisku reči, a što je najgore čak
> postoji i programsko rešenje da to napravimo...
> http://sr.openoffice.org/prosirenja/slovima/

Нажалост, нисам сигуран да би било добро ово користити, јер колико је
мени познато бројеви се по нашем правопису пишу са размаком (четрдесет
два), осим када су придеви (четрдесетдруги). Али, није проблем написати
нови генератор бројева, који би давао и редне бројеве и сл.

Било би лепо и додати ручно падежне облике бројева које данас мало ко и
зна - трима, четирима, петорима, четворе, петоре, шесторе... као и
чувене речи са лј, нј и дж паровима да би се једном ставила тачка на то.

> Не знам колико је могуће, али било би лепо направити неки додак за
> ватрену лију која би радила извоз речи које ја додам преко "Add to
> dictionary" и које су исправне и проверене, па ту разлику спојити са
> тренутном базом речи. То ми је најлакше и најједноставније тако урадити.

Не мора ни да буде додатак, довољно је да дамо људима упутство где им је
фајл са речником и направимо формулар на сајту за слање речника. Потом
се могу убацивати речи које се налазе у више речника независних
корисника. Овде је међутим проблем што људи могу убацивати честе
неисправне речи мислећи да су исправне...

> Па баш то о чему сам причао. Да глобално за српски језик постоји само
> једна база. А од ње нека прави ко шта хоће и нек га назове и рекламира
> како хоће. Дакле, да направимо за почетак глобалну листу за координацију

И та база би могла да садржи одељене речнике по категоријама, који се
после спајају у велики речник, тако да нпр. неко ко прави пребацивач
латиница-ћирилица може да нађе речи са лј нј дж и избаци и слично...
Неки од спискова би се могли поставити и на Викиречник... Додатно се
могу објавити и програми којима су генерисани речници (под ГНУ лиценцама
наравно).

> Skripta već postoji. Na korpusu srpske Vikipedije, Politike, kulinarskih
> recepata Krstarice i još par izvora je i nastala lista reči koju
> koristiš svakoga dana.

Било би добро да знамо тачно који су извори коришћени, да не бисмо
дуплирали посао, већ скидали само додатне изворе. На пример, Блиц, Глас,
Б92 имају велике архиве које се могу употребити.

Размишљам и о мало напреднијој скрипти која не би само бележила
фреквенцију речи, већ и фреквенцију варијанти писаних великим словом,
испред и иза тачке...

Goran Rakic

unread,
Nov 18, 2008, 8:13:50 AM11/18/08
to Nikola Smolenski, provera...@googlegroups.com
У уто, 18. 11 2008. у 13:47 +0100, Nikola Smolenski пише:
> Било би добро да знамо тачно који су извори коришћени, да не бисмо
> дуплирали посао, већ скидали само додатне изворе. На пример, Блиц, Глас,
> Б92 имају велике архиве које се могу употребити.

Više se i ne sećam šta je korišćeno za ovo javno izdanje liste reči.
Sve što ja imam završava negde u 2006. godini, a i lako ćemo uporediti
tako da nemaj brige.


> Размишљам и о мало напреднијој скрипти која не би само бележила
> фреквенцију речи, већ и фреквенцију варијанти писаних великим словом,
> испред и иза тачке...

Nadam se da skripta povlači ceo materijal, a ne samo reči.

Ako imaš razloga da to ne radiš (autorska prava mogu biti jedan razlog,
mada je to veliko sivilo), dodao bih u pomenutu listu i spisak par
prethodnih i par narednih reči, zarad mogućnosti da kasnije odredimo
vrstu reči.

pp,
Goran


Reply all
Reply to author
Forward
0 new messages