Slogovi u srpskom jeziku

280 views
Skip to first unread message

Branko Djurkovic

unread,
Jan 25, 2010, 7:45:27 PM1/25/10
to Провера писања
Caos!

Pricao sam sa Goranom (http://twitter.com/grakic/status/8213823190) pa
mi rece da se javnem ovde.
Imao sam neki projekat za koji mi je potrebno deljenje reci na
slogove. Za isti projekat mi je trebala i procena ukupnog broja
razlicitih slogova (bez ponavljanja) u srpskom jeziku.
Pored toga, pisem neki softver za Savez slepih Srbije, koji radi sa
brajevim pismom, pa mi je ista stvar potrebna i za to.
Gledao sam po Internetu o tim opdelama i klasifikacijama slogova
(http://scindeks.nb.rs/article.aspx?artid=0354-87599801101K) pa se
setih da je bilo price o tome da je su pravila za podelu reci na
slogove u srpskom jeziku implementirana u okviru srpskog recnika za
OO.org (http://extensions.services.openoffice.org/project/dict-sr)

Zanima me gde mogu da pogledam implementaciju tih pravila (za podelu
reci na slogove) i da li to odradjeno u C-u ili nekom drugom jeziku?
Pretpostavljam da sve sto mi je potrebno mogu da pronadjem ovde:
http://srpski.org/aspell/ nego rekoh bolje da pitam, nego da skitam :)

Pozdrav,
Branko Djurkovic

Горан Ракић

unread,
Jan 25, 2010, 9:05:52 PM1/25/10
to Провера писања
Поздрав колега,

За растављање на слогове користи се добро познат алгоритам из Теxа.
Имплементацију овог алгоритма ћеш сигурно пронаћи у било ком
програмском језику. OpenOffice.org конкретно користи libhyphen [1]
који је написао Ласло Немет (László Németh) Погледај [2] за више
информација.

Обрасце за српски је по Правопису српског језика (аутори Пешикан,
Јерковић, Пижурица; 1995) ручно саставио Дејан Мухамедагић и изворно
су доступни у CTAN архиви. На захтев аутора обрасци су објављена под
„sh“ кодом у ћириличној [3] и латиничној [4] варијанти (разлика је
услед диграфа љ, њ,... [5]). Обрасци су без измеа преузети у пакет
српског речника за OpenOffice.org [6].

У дистрибуцији библиотеке libhyphen [1] постоји програм example који
за дате обрасце исписује могуће поделе у списку речи. Једноставна AWK/
Perl/Python скрипта би могла да раздвоји излаз и испише јединствене
слогове.

Као почетну листу речи можеш да употребиш ону скромну из српског
речника за OpenOffice.org. Ако ти то није задовољавајуће или те поред
броја слогова занима и фрекфенција могу да пропустим скрипту на
пристојном корпусу (Википедија, Политика, део Ебарт архиве, и разни
други извори...) па да окачим резултат на групу.

пп,
Горан

ПС - Срећно код Митића ;)

[1] http://downloads.sourceforge.net/hunspell/hyphen-2.4.tar.gz
[2] http://www.tug.org/TUGboat/Articles/tb27-1/tb86nemeth.pdf
[3] http://mirror.ctan.org/language/hyph-utf8/tex/generic/hyph-utf8/patterns/hyph-sh-cyrl.tex
[4] http://mirror.ctan.org/language/hyph-utf8/tex/generic/hyph-utf8/patterns/hyph-sh-latn.tex
[5] http://goranrakic.com/tmp/cyrl-latn.diff
[6] http://extensions.services.openoffice.org/project/dict-sr

Reply all
Reply to author
Forward
0 new messages