Ný útgáfa af hunspell-is, nú með öllum beygingarmyndum úr Wikiorðabókinni

97 views
Skip to first unread message

Björgvin Ragnarsson

unread,
Aug 17, 2014, 8:35:21 PM8/17/14
to hunsp...@googlegroups.com
Sæl,

Ég er búinn að endurskrifa kjarnann í hunspell-is og útkoman er sú að ekki þarf
lengur að vinna þá handavinnu að færa beygingarreglur Wikiorðabókarinnar yfir í .aff
sniðið í Hunspell. Wikiorðabókin inniheldur yfir 300 beygingarreglur fyrir
nafnorð, sagnorð og lýsingarorð og eru þær fluttar inn í hunspell-is ásamt þeim
orðum sem nota reglurnar.

Áður en ég gef út nýja útgáfu ætla ég að biðja ykkur um að prófa og sjá hvort
allt sé í lagi, þá sérstaklega ef einhver orð sleppa í gegn sem eru ranglega
(Kóðinn er hér sem áður: https://github.com/nifgraup/hunspell-is)

Önnur nýjung er að hvert uppflettiorð sem kemur úr Wikiorðabókinni hefur
skráðan orðflokk og beygingar eru málfræðigreindar. Sem dæmi er hægt að greina
orðið 'á' með eftirfarandi skipun

$ echo á | hunspell -m -d dicts/is
á  st:á po:fs
á  st:eiga po:so
á  st:ær po:no is:2eó
á  st:ær po:no is:3eó
á  st:á po:no
á  st:á po:no is:3eó
á  st:á po:no is:2eó

og sjá að það tilheyrir þremur orðflokkum. Orðið er í þolfalli eða þágufalli
þegar það þýðir kind en ef átt er við fljót koma þrjú eintöluföll til greina.
Uppflettimyndin er einnig sýnd sem getur nýst t.d. í leitarvélum.

Hægt er að nota upplýsingarnar til að umbreyta textum, t.d. má setja sögn í þátíð:

$ echo "Strákurinn kallar á mömmu sína." > setning.txt
$ chmorph dicts/is.aff dicts/is.dic setning.txt "germynd-framsöguháttur-nútíð:hann" "germynd-framsöguháttur-þátíð:hann"
Strákurinn kallaði á mömmu sína.

Lightproof, sem einnig fylgir með LibreOffice, getur nýtt málfræðiupplýsingar
úr Hunspell orðabókum í samhengisháðri ritvilluleit. Ef einhver hefur áhuga á
bæta íslensku við Lightproof væri það þarft og gott.


kv.

Björgvin

Svavar Kjarrval

unread,
Aug 18, 2014, 11:52:40 AM8/18/14
to hunsp...@googlegroups.com
Hæ.

Frábært að vita af þessu.

Hafa verið einhverjar þreifingar undanfarið um að fá BÍN safnið í hunspell-is? Ágætt að athuga reglulega hjá þeim því þau gætu alveg eins hafa skipt um skoðun eða eru tilbúnari núna til þess að veita aðgang að hluta safnsins.

Með kveðju,
Svavar Kjarrval
--
You received this message because you are subscribed to the Google Groups "hunspell-is" group.
To unsubscribe from this group and stop receiving emails from it, send an email to hunspell-is...@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.

signature.asc

Björgvin Ragnarsson

unread,
Aug 18, 2014, 4:02:48 PM8/18/14
to hunsp...@googlegroups.com
Engar þreifingar undanfarið af minni hálfu, en ágætis punktur hjá þér,
það sakar ekki að athuga málið.


kv.

Björgvin

Bragi Halldorsson

unread,
Sep 15, 2014, 5:44:35 AM9/15/14
to hunsp...@googlegroups.com
Ég er ekki viss um hvað best er að ég einbeiti mér af í Wíkíorðabókinni. Mikið hefur verið sett inn að orðum án þess að setja inn beygingar og hef ég bara bætt þeim við þegar ég hef verið að bæta tengingum frá Wíkípedía yfir í Wíkíorðabókina. Er best að ég haldi bara áfram svona eða taki þetta eitthvað meira skipulagt fyrir og þá hvað? Fékk lista frá þér Svavar um hvaða beygingar vantaði en þegar ég fór að fara yfir hann sá ég að flestar þær beygingar voru þegar komnar inn.

kv
Bragi

Björgvin Ragnarsson

unread,
Sep 15, 2014, 8:11:10 PM9/15/14
to hunsp...@googlegroups.com
Það er ágætt að halda áfram eins og þú gerir held ég. Þótt beygingu
vanti á nafnorð eða sagnorð þá er orðið samt sett í hunspell-is. Ég á
eftir að gera það sama við lýsingarorð.

Út frá þeim sjónarhóli að búa til góða stafsetningarorðabók þá er
mikilvægast að öll algengustu orðin. Ef þú kemst í einhvern
orðtíðnilista þá væri sniðugt að bæta þeim orðum við Wikiorðabókina.

kv.

Björgvin

Bragi Halldorsson

unread,
Sep 16, 2014, 4:56:37 AM9/16/14
to hunsp...@googlegroups.com
Svavar er búin að búa til orðtíðnilista sem ég byrjaði á að fara eftir en er ekki komin langt niður hann aðallega vegna þess að búið var að setja inn næstum öll þau orð ásamt beygingum sem ég fór yfir, en já, halda áfram með þann lista+bæta handahófskennt við orðum samhliða því að greinar eru stofnaðar á WP, held áfram svona þá og smámsaman náum við þannig að skapa stóra góða orðabók og leiðréttingarforrit.

kv
Bragi

PS
Hefur þú uppfært orðtíðnilistan nýlega?
Reply all
Reply to author
Forward
0 new messages