Sæl,
Ég er búinn að endurskrifa kjarnann í hunspell-is og útkoman er sú að ekki þarf
lengur að vinna þá handavinnu að færa beygingarreglur Wikiorðabókarinnar yfir í .aff
sniðið í Hunspell. Wikiorðabókin inniheldur yfir 300 beygingarreglur fyrir
nafnorð, sagnorð og lýsingarorð og eru þær fluttar inn í hunspell-is ásamt þeim
orðum sem nota reglurnar.
Áður en ég gef út nýja útgáfu ætla ég að biðja ykkur um að prófa og sjá hvort
allt sé í lagi, þá sérstaklega ef einhver orð sleppa í gegn sem eru ranglega
Önnur nýjung er að hvert uppflettiorð sem kemur úr Wikiorðabókinni hefur
skráðan orðflokk og beygingar eru málfræðigreindar. Sem dæmi er hægt að greina
orðið 'á' með eftirfarandi skipun
$ echo á | hunspell -m -d dicts/is
á st:á po:fs
á st:eiga po:so
á st:ær po:no is:2eó
á st:ær po:no is:3eó
á st:á po:no
á st:á po:no is:3eó
á st:á po:no is:2eó
og sjá að það tilheyrir þremur orðflokkum. Orðið er í þolfalli eða þágufalli
þegar það þýðir kind en ef átt er við fljót koma þrjú eintöluföll til greina.
Uppflettimyndin er einnig sýnd sem getur nýst t.d. í leitarvélum.
Hægt er að nota upplýsingarnar til að umbreyta textum, t.d. má setja sögn í þátíð:
$ echo "Strákurinn kallar á mömmu sína." > setning.txt
$ chmorph dicts/is.aff dicts/is.dic setning.txt "germynd-framsöguháttur-nútíð:hann" "germynd-framsöguháttur-þátíð:hann"
Strákurinn kallaði á mömmu sína.
Lightproof, sem einnig fylgir með LibreOffice, getur nýtt málfræðiupplýsingar
úr Hunspell orðabókum í samhengisháðri ritvilluleit. Ef einhver hefur áhuga á
bæta íslensku við Lightproof væri það þarft og gott.
kv.
Björgvin