Крећемо полако

66 views
Skip to first unread message

Goran Rakic

unread,
Jan 17, 2010, 12:01:45 AM1/17/10
to proverapisanja
Пример из прилога обезбеђује подлогу за морфолошку анализу.

Ознаке су у складу са Хунспел упутством[1]:
st: речнички облик (лема)
po: врста речи/ клас. категорија (енгл. Part Of Speech)
ts: завршна морфолошка ознака/ грам. категорија
is: изведена морфолошка ознака, преписује „ts:“

Проширење је ознака „sm:“ која оставља простор остала семантичка
својства.

Вредности су из MULTEXT-East 3.0 морфолошке спецификације за српски
језик, па тако у примеру имамо:

прозорима
прозорима st:прозор po:N po:Tc po:Gm ts:Ns ts:Gn sm:An is:Np is:Ci
прозорима st:прозор po:N po:Tc po:Gm ts:Ns ts:Gn sm:An is:Np is:Cl
прозорима st:прозор po:N po:Tc po:Gm ts:Ns ts:Gn sm:An is:Np is:Cd

где је:
po:N po:Tc po:Gm именица, заједничка, мушки род
is:Np is:Cd: датив множине
sm:An неживо


У дилеми сам да ли је можда боље имати само по једну ознаку (po:Ncf) и
да ли у вези са тим постоји неко ограничење у Хунспелу. Погледао сам
његов XML API доступан из OpenOffice.org-а кроз XSpellChecker::spell() и
колико видим не постоји ограничење, све ознаке се виде.

Друга дилема, тачније констатација пошто другачије решење и немам, је
везана за поступак рада. Иако правила која одражавају лингвистичку
позадину (као ова у примеру) лепо изгледају, не видим да је такво
састављање могуће. Структура која се добије је превише расписана и не
користи се могућност двоструког спуста по правилима, па нема ни било
какве оптимизације. Све гласовне промене виде се као изузеци.

Зато бих радо покушао да из морфолошки означеног речника конструишем
нечитљиви скуп правила са истим излазом. У раду „Hunmorph: Open source
word analysis“ нуди се једно решење, али ја бих се радије опробао на
превођењу из погодног описа графа извођења ([4], одељак „Inflection of
simple words“ стр. 58). Излаз је у сваком случају коначан па је језик
регуларан, нотација то не мења.

пп,
Горан

[1] http://ooo.matf.bg.ac.rs/hunspell.pdf
[2] http://nl.ijs.si/ME/V3/msd/msd.pdf
[3] http://mokk.bme.hu/archive/tron05hunmorph
[4] http://www-igm.univ-mlv.fr/~unitex/UnitexManual2.1.pdf

sr.dic
sr.aff

Горан Ракић

unread,
Jan 18, 2010, 3:36:51 PM1/18/10
to Провера писања
On 17 јан, 06:01, Goran Rakic <gra...@devbase.net> wrote:
> Пример из прилога обезбеђује подлогу за морфолошку анализу.

Закачио сам на страницу групе[1] нову датотеку "samo_nastavci" која
садржи суфиксе коришћене при флексији именица. Међу наставцима би
требало груписати варијације услед гласовних промена.

Прва колона даје број примена на леме у речнику, друга наводи слова
којима се реч дели сдесна, а трећа наводи суфиксе за седам падежа у
једнини и седам у множини.

Резултат је само мали експеримент и међукорак, али може бити и другима
од користи.

пп,
Горан

[1] http://groups.google.com/group/proverapisanja

Reply all
Reply to author
Forward
0 new messages