Re: [sr.openoffice.org] recnik

34 views
Skip to first unread message

Goran Rakic

unread,
Jan 27, 2009, 3:48:52 PM1/27/09
to d...@sr.openoffice.org, provera...@googlegroups.com
[ Prosleđujem poruku na grupu proverapisanja koju me nateraše da otvorim
pre par meseci... ]

Odlični ste!

Za vikend obećavam novo izdanje GNU aspell rečnika kao i novi
dict-sr.oxt paket na http://extensions.services.openoffice.org.

Integrisaću ispravke i u lokalizovano izdanje OOo 3.0.1 koje upravo
pripremam (prevod gotov, kompiliranje u toku).

Ranko, nisam primetio da afiksi ne rade (ako se dobro sećam engleski
rečnik je radio sasvim očekivano). Možda je pogrešna oznaka kraja
linije.

Ja sam za to da se u rečniku nađu i česta imena, poželjno sa velikim
početnim slovom, a nemam ništa ni protiv naziva firmi i ustanova. Za
skraćenice si u pravu, zapis velikim slovima bi bilo ispravno rešenje.

pp,
Goran


У уто, 27. 01 2009. у 20:18 +0000, Miloš Komarčević пише:
> Ranko
>
> Hvala na ispravkama.
>
> Ja sam Goranu slao neki spisak grešaka pre par meseci, ne znam da li
> je to stiglo do tebe, te ga šaljem ispod još jednom, ne bi bilo loše
> da ga pogledaš (neke stvari si verovatno već sredio).
>
> U prilogu je i moj kompletni rečnik (bez ispravki za lj, nj, i sl. i
> sa duplikatima), pa ih možeš već nekako uporediti i spojiti.
>
> Pozdrav,
> Miloš
>
> ---------- Forwarded message ----------
> Evo šta sam ja do sada našao (u MySpellovom rečniku, a verovatno se
> znači nalazi i aspellovom, mada ima situacija npr. kada nečega već ima
> u MySpellovom što je u mom ličnom dodatnom za aspell?)
>
> - прикаS -> прикан
>
> - соунд, софтwер, спеед, спејс, спектејтор, сциентифиц, сциенце,
> сцхоол, сцхрифтен (trenutno sam na s, ovoga verovatno ima gomila, i po
> mom mišljenju ne treba da su strane reči u rečniku, čak i kada su
> pravilno transkribovane, osim naravno kada domaća reč ne postoji ili
> je strana u širokoj primeni - npr. keš, klon, kopija i sl.)
>
> - бwв, бy, бyтес, бабy, бмw, боx, боyс, броwн, броwсер... (iks i
> ipsilon, w, q u pitanju)
>
> - нј, лј, дж, дј (treba paziti na izuztke naravno: injekcija,
> konjugacija, ijekavica...)
>
>
> У уто, 27. 01 2009. у 17:18 +0100, Ranko Tomic пише:
> > Ево речника који се дистрибуира уз ОО 3.0, исправио сам га (избацио
> > ијекавицу где год сам нашао, исправио дж - џ, лј - љ, нј - њ, дј - ђ
> > итд.), обрисао неке погрешне речи које сам нашао, избацио дупликате
> > којих је било, а додао сам и речи из мог личног речника (оне које
> > нису биле у речнику, а које се користе у текстовима које ја имам у
> > рачунару).
> >
> > Даље, сматрам да би из речника требало да избацимо страна имена и
> > презимена (њих свако може да додаје у лични речники или игнор
> > списак), а да би требало да избацимо и имена фирми. Такође, занима
> > ме да ли лична имена, презимена и честе скраћенице (нпр. ДОО или
> > СФРЈ) треба да се у речнику пишу великим словима (имена почетним)?
> >
> > Има ли ико ко зна зашто афикси не раде на Windows издању ОО?
> >
> > Поздрав,
> >
> > Ранко
> >

Igor Miletic

unread,
Jan 27, 2009, 4:17:16 PM1/27/09
to d...@sr.openoffice.org, provera...@googlegroups.com


2009/1/27 Ranko Tomic <ra...@cirilica.org>
Још ме занима, ако ћемо користити афиксе, може ли се направити аутоматизација и неких честих сложеница (ваннаставни, вантелесни, ванјезични итд.) и негација, тј. могу ли речи истовремено имати и префикс и суфикс?

Да, то је могуће, овде имаш више о томе http://pwet.fr/man/linux/fichiers_speciaux/hunspell

Поздрав,
Игор

Goran Rakic

unread,
Jan 27, 2009, 4:37:45 PM1/27/09
to d...@sr.openoffice.org, proverapisanja
У уто, 27. 01 2009. у 21:53 +0100, Ranko Tomic пише:
> Ниџа ми је предложио да направимо интерни речник где би били само основни
> облици речи са афиксима, па да користимо хунспел да помоћу њега правимо
> речник са свим облицима који се тако добијају, пошто хунспел не ради на
> виноузима.
>
> Шта мислите о томе? Добар је предлог, јер кад проради, имаћемо спреман
> речник. Сад, мене занима шта треба да буду основни облици. Ево, покушавам да
> дођем до тога, али ми баш не иде. Има ли неко да ме подучи?

Мени то делује неозбиљно.

Колико ми је познато, а не верујем да грешим, Хунспел прописно ради на
Windows-у, а можеш лако да провериш да афикси раде у енглеском речнику
за OpenOffice.org.

Прављењем сопствених афикс правила које бисмо расписивали компликујемо
сами себи посао, а и алгоритам за оцењивање предлога ради другачије са
афиксним правилима и без њих.

пп,
Горан


Goran Rakic

unread,
Jan 27, 2009, 5:31:07 PM1/27/09
to d...@sr.openoffice.org, provera...@googlegroups.com
У уто, 27. 01 2009. у 23:12 +0100, Ranko Tomic пише:
> Али проверено не ради са српским речником. Шта онда предлажеш као решење?
> Такође, неопходно је да направимо афиксна правила за српски, јер једино тако
> можемо да имамо употребљив речник.

U novembru sam slao na grupu probni paket koji radi pod GNU/Linuksom.
Ako ti kažeš da ne radi pod Windowsom ostaje da instaliram to zlo i
proverim lično. Jesi li ti probao taj paket na različitim sistemima?

Ako zaista ne radi, treba otkloniti grešku u Hunspelu. Naravno da moramo
imati pravila ako želimo kompletan rečnik.

pp,
Goran


Nikola Smolenski

unread,
Jan 27, 2009, 5:28:35 PM1/27/09
to provera...@googlegroups.com
On Tuesday 27 January 2009 22:37:45 Goran Rakic wrote:
> Колико ми је познато, а не верујем да грешим, Хунспел прописно ради на
> Windows-у, а можеш лако да провериш да афикси раде у енглеском речнику
> за OpenOffice.org.

Па да, у енглеском. Али српски речник са афиксима још не видех, ни у Хунспелу
ни у Аспелу.

Goran Rakic

unread,
Jan 27, 2009, 5:38:02 PM1/27/09
to Nikola Smolenski, dev, proverapisanja
У уто, 27. 01 2009. у 23:28 +0100, Nikola Smolenski пише:

>
> Па да, у енглеском. Али српски речник са афиксима још не видех, ни у
> Хунспелу ни у Аспелу.
>

Мислиш ли на то да речник нема дефинисане афиксе или да не ради када их
дефинишеш? Не разумем те.

Ранко овде каже како афикси уопште не раде у Хунспелу на Виндоусу и зато
треба да користимо неки наш нови систем означавања. Ја нисам сигуран да
је заиста тако и мислим да је коришћење нашег система глупо. Ту негде
смо заглавили...

Нико не оспорава да афикси за српски не постоје.

пп,
Горан

Nikola Smolenski

unread,
Jan 28, 2009, 12:25:34 PM1/28/09
to Goran Rakic, proverapisanja, dev
On Tuesday 27 January 2009 23:38:02 you wrote:
> У уто, 27. 01 2009. у 23:28 +0100, Nikola Smolenski пише:
> > Па да, у енглеском. Али српски речник са афиксима још не видех, ни у
> > Хунспелу ни у Аспелу.
>
> Мислиш ли на то да речник нема дефинисане афиксе или да не ради када их
> дефинишеш? Не разумем те.

Не ради када их дефинишем. Није ми радило када сам својевремено пробао под
Линуксом, не знам да ли је то исправљено, али према Ранку свеједно не ради на
Вину.

> Ранко овде каже како афикси уопште не раде у Хунспелу на Виндоусу и зато
> треба да користимо неки наш нови систем означавања. Ја нисам сигуран да
> је заиста тако и мислим да је коришћење нашег система глупо. Ту негде
> смо заглавили...

Наравно, не морамо да смишљамо топлу воду, можемо користити постојећи формат
па онда пустити *спел да направи пун речник према том нашем списку афикса.

Goran Rakic

unread,
Feb 12, 2009, 6:55:51 PM2/12/09
to proverapisanja, dev
Priredio sam datoteke add_sr_goran.dic i add_sr_ranko.dic, spiskove reči
koje ću dodati u rečnik.

Spisak del_sr_ranko.dic su reči koje ću izbaciti iz rečnika.

Spisak ign_sr_ranko.dic je zanimljiv. To su reči koje se nalaze samo u
Rankovom rečniku, ali sam ih ja u brzom čitanju označio kao neispravne.

Datoteke su dostupne na grupi proverapisanja:
http://groups.google.com/group/proverapisanja/web/add_sr_goran.dic
http://groups.google.com/group/proverapisanja/web/add_sr_ranko.dic
http://groups.google.com/group/proverapisanja/web/del_sr_ranko.dic
http://groups.google.com/group/proverapisanja/web/ign_sr_ranko.dic

Molio bih da pogledate nisam li napravio neke greške. add_ treba da
sadrži samo ispravne reči, del_ samo neispravne, a iz ign_ treba
izdvojiti reči koje su ipak ispravne.

pp,
Goran


Nikola Smolenski

unread,
Feb 13, 2009, 12:54:01 AM2/13/09
to provera...@googlegroups.com

Па има понека :)

Речник add_sr_goran.dic сам прегледао потпуно:

Адоби - можда Адоуби?

глосара - ултранеологизам, мислим да га не треба убацити.

Дебиан - прилично сам сигуран да је Дебијан.

фотогарфије - грешка.

Хафмановом - ја сам чуо само за Хофмана?


Можда постоји и неки Хафман, међутим овде долазимо до једне ствари о којој
досад није било речи, а нисам сигуран ни у којој мери комерцијални речници за
проверу правописа на то обраћају пажњу. Наиме, речник не би требало да садржи
све исправне речи, већ само оне за које је вероватноћа да ће се појавити као
исправне већа него вероватноћа да ће се појавити као погрешни облици неких
других исправних речи. Више примера доле.

У add_sr_ranko.dic сам нажалост нашао доста грешака, ево га преглед до слова
В:

азуки - јапанско име? Онда треба великим словом.

амонијум - колико је мени познато, ова реч се јавља само у полусложеницама
(амонијум-нитрат нпр.); уопште, какво је третирање полусложеница у речнику?

AMS
AMSJ - ово су исправне скраћенице и ћирилицом, дакле АМС и АМСЈ. Може се
додати и АМСС да будемо потпуни :)

архитект - да ли је ово дублет са архитекта? Мрзи ме да идем до речника :)

баковић
баковића
баковићи - треба великим.

бакоња
бакоњом - Бакоња фра-Брне је наравно познат, али у значењу "бик" је локализам
па је питање треба ли да буде у речнику.

биџа - ако је у питању извесни политичар, треба великим.

бољшој - великим, бар мислим да се једино користи за Бољшој театар. Мада,
можда је овде исправно Баљшој театар?

буњац - ?
бургоњ - ?
бургоње - ?

ваљар
ваљара - е ово је одличан пример. "Ваљар" је вероватно сасвим исправна реч
(неко ко нешто ваља) а такође је и наше презиме. Међутим, лако могу да
замислим неког ко "вајар" изговара и пише неисправно "ваљар". Пошто се вајари
помињу неупоредиво чешће него ваљари (Гугл на .yu домену налази 8,350
погодака за http://www.google.com/search?q=%2Bvajar+site%3Ayu а само 22 за
http://www.google.com/search?q=%2Bvaljar+site%3Ayu ), мислим да ово не треба
да уђе у речник.

ваљевка - великим?

васиљ
васиљев
васиљева - великим.

велењу - град у Македонији, треба великим. Постоји ли и као реч?

вељком - великим.

вињети - вињете?

вирџинија
вирџиније
вирџинији - великим.

врањанац
врањанаца
врањанци - великим?

врањем
врањску
врњачка
врњачке
врњачкој
врњачку - великим.

Додатно, ево списка речи које садрже латинична слова:

AMS
AMSJ
Aнy
Aна
ветеринарy
иx
мy
нa
одабранa
тyпе
техничкe
фаx

Део стандардне процедуре за додавање нових речи у речник би требало да буде
скрипта која би налазила речи које садрже латинична слова.

ign_sr_ranko.dic сам прегледао само до Ж. Ево (полу)исправних речи:

акуњин - руски аутор, великим.

армирачки - исправна реч.

арслан - можда је архаизам.

арсланагић - великим.

арсо
артањан
атаљанц - великим.

бабy - неисправно, латинично y.

бакотић
бакочевић
бакочевића - великим.

бокеља
бокељи - великим?

бољковац
виљем
виљема
виљнусу - великим.

вишестраначја - исправна реч.

г - појављује се само, нпр. као скраћеница речи "година". С тим у вези, мислим
да би речник требало да садржи сва појединачна слова.

галиматијасу
гиберелин
гнусобом
диваљ - исправне речи.

дикси - само великим? Или може и малим?

добриња
добриње
добрињи - великим.

документацијe - неисправно, латинично e

ђетиње
ђетињи - великим.

ердељи - ако је у питању мађарско презиме, великим.

жребању - исправна реч.

жабаљ - великим.

Goran Rakic

unread,
Feb 13, 2009, 1:54:02 AM2/13/09
to Nikola Smolenski, provera...@googlegroups.com
Било би одлично ако би имао времена да прегледаш и остатак списка.

Потпуно се слажем са твојим запажањем о потребним условима да би реч
нашла своје место у списку. Можемо ли да одредимо неке критеријуме за
властите именице, нпр. да на .yu и .rs домену или на претрази страница
на српском има X појављивања? Да ли можемо боље од тога?


> глосара - ултранеологизам, мислим да га не треба убацити.

Хех, људи од струке ме убедише једном како постоји разлика између
речника (који обавезно садржи одредницу) и глосара (који има само
упарене речи).


> Хафмановом - ја сам чуо само за Хофмана?

http://en.wikipedia.org/wiki/Huffman_coding
Реченица из које је потекло је "... пренето у Хафмановом коду..."


> амонијум - колико је мени познато, ова реч се јавља само у полусложеницама
> (амонијум-нитрат нпр.); уопште, какво је третирање полусложеница у речнику?

Цртица је означена као знак који раздваја речи па ће независно са
списком бити упоређена реч пре и она после.


> AMS
> AMSJ - ово су исправне скраћенице и ћирилицом, дакле АМС и АМСЈ. Може се
> додати и АМСС да будемо потпуни :)

Упс. Скрипта која проверава присуство латинице постоји, али сам ја
пропустио да је применим. Заправо, реч је о једноставном регуларном
изразу /q|w|e|r|t|y|u|i|o|p|š|đ|a|s|d|f|g|h|j|k|l|č|ć|ž|m|n|b|v|c|x|z/i.


> баковић
> баковића
> баковићи - треба великим.

Треба, требају и многе друге ;)


> бакоња
> бакоњом - Бакоња фра-Брне је наравно познат, али у значењу "бик" је локализам
> па је питање треба ли да буде у речнику.

ја--


> Мада, можда је овде исправно Баљшој театар?

Википедија каже „Бољшој“.


> бургоњ - ?

Село у Француској, 1999. године имало је 888 становника са просечном
густином 61 становник/km2 :) Летеће напоље у првом следећем сређивању.


> вињети - вињете?

Баш о тој вињети ти говорим...


> арслан - можда је архаизам.

Ја не знам шта значи, а нема је ни на Вокабулару.

> атаљанц - великим.

Шта је Атаљанц? Страно име?


> г - појављује се само, нпр. као скраћеница речи "година". С тим у вези, мислим
> да би речник требало да садржи сва појединачна слова.

Тиме „ч еп“ постаје исправно, и бројне друге. Можда је довољно а, и, е,
у, г и још по неко.

> дикси - само великим? Или може и малим?

Не знам. ;)


пп,
Горан


Nikola Smolenski

unread,
Feb 13, 2009, 2:28:49 AM2/13/09
to provera...@googlegroups.com
Goran Rakic wrote:
> Било би одлично ако би имао времена да прегледаш и остатак списка.

Пошто ову листу прати више људи, претпостављам да ће свако дати свој
допринос :)

> Потпуно се слажем са твојим запажањем о потребним условима да би реч
> нашла своје место у списку. Можемо ли да одредимо неке критеријуме за
> властите именице, нпр. да на .yu и .rs домену или на претрази страница
> на српском има X појављивања? Да ли можемо боље од тога?

Па није баш тако једноставно :( Као прво, морали бисмо да видимо какве
све грешке људи праве, и колико често их праве. Ја сам једном копао по
Интернету у потрази за овим и нисам Бог зна шта нашао (али на пример -
занимљиво је да ће људи при куцању чешће погрешити тако што притисну
тастер поред оног који треба него изнад или испод). Тек онда можемо
почети да тражимо речи које се појављују ређе него грешке.

>> глосара - ултранеологизам, мислим да га не треба убацити.
>
> Хех, људи од струке ме убедише једном како постоји разлика између
> речника (који обавезно садржи одредницу) и глосара (који има само
> упарене речи).

Постоји, али ако је тим људима струка српски језик, дужност им је и да
измисле српске речи за те две врсте речника, тако да им не бих повлађивао.

>> Хафмановом - ја сам чуо само за Хофмана?
>
> http://en.wikipedia.org/wiki/Huffman_coding
> Реченица из које је потекло је "... пренето у Хафмановом коду..."

На њега сам и мислио :( Изгледа да је у питању честа грешка, а ситуацију
компликује то што је ушла и у наша презимена (нпр.
http://www.bemus.co.yu/english/archive/07/november2007.htm ).

>> амонијум - колико је мени познато, ова реч се јавља само у полусложеницама
>> (амонијум-нитрат нпр.); уопште, какво је третирање полусложеница у речнику?
>
> Цртица је означена као знак који раздваја речи па ће независно са
> списком бити упоређена реч пре и она после.

Ја се сећам да је Аспел имао нека посебна правила у вези овог али нисам
расположен да даље истражујем. Претпоставимо да се у речнику налази
амонијум-нитрат али да се не налази сама реч амонијум. Да ли ће
амонијум-нитрат бити препознато као исправно или погрешно?

>> баковић
>> баковића
>> баковићи - треба великим.
>
> Треба, требају и многе друге ;)

Мислим да сам до В нашао све такве.

Осим скрипте за налажење латинице, може се направити и скрипта за
налажење сумњивих речи - нпр. речи које имају у себи лј, нј, дж као и
речи које се завршавају на ић, ића, ићи, ићима итд. а почињу малим словом.

>> бакоња
>> бакоњом - Бакоња фра-Брне је наравно познат, али у значењу "бик" је локализам
>> па је питање треба ли да буде у речнику.
>
> ја--

Предомислио сам се - пошто не подсећа ни на једну другу реч, што не би и
ушла :)

>> Мада, можда је овде исправно Баљшој театар?
>
> Википедија каже „Бољшој“.

Можда је опет честа грешка? Но, пошто и енглеска каже Bolshoi Theatre
склон сам да се сложим :)

>> бургоњ - ?
>
> Село у Француској, 1999. године имало је 888 становника са просечном
> густином 61 становник/km2 :) Летеће напоље у првом следећем сређивању.

Ово ћу да наводим као пример следећи пут кад ми неко каже да чланци о
француским селима ничему не служе :D

>> арслан - можда је архаизам.
>
> Ја не знам шта значи, а нема је ни на Вокабулару.

"Љутит ага мрко гледа
Гдје се силом дивит' мора
Силан арслан горском мишу."

На турском значи/је значило лав па је ушло и у наш језик а често се
појављује и као име. Мислим да би требало да буде у речнику као име
(великим словом) пошто ће се данас ретко појавити као реч.

>> атаљанц - великим.
>
> Шта је Атаљанц? Страно име?

Ашхен Атаљанц, позната балерина.

>> дикси - само великим? Или може и малим?
>
> Не знам. ;)

Боље само великим, не могу да нађем случај у коме би требало малим.

Nikola Smolenski

unread,
Feb 13, 2009, 2:52:40 AM2/13/09
to provera...@googlegroups.com
Nikola Smolenski wrote:

> Goran Rakic wrote:
>> Потпуно се слажем са твојим запажањем о потребним условима да би реч
>> нашла своје место у списку. Можемо ли да одредимо неке критеријуме за
>> властите именице, нпр. да на .yu и .rs домену или на претрази страница
>> на српском има X појављивања? Да ли можемо боље од тога?
>
> Па није баш тако једноставно :( Као прво, морали бисмо да видимо какве
> све грешке људи праве, и колико често их праве. Ја сам једном копао по
> Интернету у потрази за овим и нисам Бог зна шта нашао (али на пример -
> занимљиво је да ће људи при куцању чешће погрешити тако што притисну
> тастер поред оног који треба него изнад или испод). Тек онда можемо
> почети да тражимо речи које се појављују ређе него грешке.

Али ево једног мини истраживања на ову тему:

http://www.google.com/search?q=%2Bbeograd+%2Bje+site%3Ayu - 2,470,000
http://www.google.com/search?q=%2Bveograd+%2Bje+site%3Ayu - 9
http://www.google.com/search?q=%2Bneograd+%2Bje+site%3Ayu - 8
http://www.google.com/search?q=%2Bgeograd+%2Bje+site%3Ayu - 8 (али само
2 релевантне)
http://www.google.com/search?q=%2Bheograd+%2Bje+site%3Ayu - 0
http://www.google.com/search?q=%2Bbwograd+%2Bje+site%3Ayu - 0 (?)
http://www.google.com/search?q=%2Bbnjograd+%2Bje+site%3Ayu - 0 (?)
http://www.google.com/search?q=%2Bbrograd+%2Bje+site%3Ayu - 41 (??)
http://www.google.com/search?q=%2Bbsograd+%2Bje+site%3Ayu - 0
http://www.google.com/search?q=%2Bbdograd+%2Bje+site%3Ayu - 1
http://www.google.com/search?q=%2Bbeigrad+%2Bje+site%3Ayu - 17
http://www.google.com/search?q=%2Bbepgrad+%2Bje+site%3Ayu - 64
http://www.google.com/search?q=%2Bbelgrad+%2Bje+site%3Ayu - неупотребљиво
http://www.google.com/search?q=%2Bbeofrad+%2Bje+site%3Ayu - 3
http://www.google.com/search?q=%2Bbeohrad+%2Bje+site%3Ayu - 2
http://www.google.com/search?q=%2Bbeovrad+%2Bje+site%3Ayu - 0
http://www.google.com/search?q=%2Bbeobrad+%2Bje+site%3Ayu - 13
http://www.google.com/search?q=%2Bbeotrad+%2Bje+site%3Ayu - 2
http://www.google.com/search?q=%2Bbeoyrad+%2Bje+site%3Ayu - 2

Да не терам даље, изгледа да:

- Људи чешће праве грешке тако што притисну тастер десно од оног који
треба него лево од оног који треба???

- Људи чешће праве грешке које су сазвучне са језиком него оне које нису
(претпостављам да ове друге пре примете па исправе). Другим речима,
требаће нам вештачка интелигенција да бисмо нашли нешто корисно.

- Пошто не знамо колико Гугл стварно налази резултата за исправну реч,
овај списак нам је прилично неупотребљив и мораћемо сами да анализирамо
неки корпус.

Reply all
Reply to author
Forward
0 new messages