У святле надыходзячага ажыўлення модуля спраўджвання
беларускага правапісу, спяшаюся паведаміць вам, што ў мяне
ёсць уласны, пакуль яшчэ жывы.
У жніўні 2008 году я зрабіў першую спробу стварыць уласны
слоўнік для спелчэкера, які б працаваў у OpenOffice.org.
Здаралася, цягам двух год падпольнай распрацоўкі я
спрабаваў расказаць пра гэта выпадковым і невыпадковым
людзям, якія, як мне здавалася, зацікаўленыя ў прадукце
такога кшталту. Могуць пацвердзіць, калі захочуць: Юры
Тарасевіч, Уладзімір Вараб'ёў, Уладзімір Кошчанка, Павел
Шут.
Летась, адчуваючы, што мая матывацыя мае межы, я
апублікаваў свой слоўнік у сеціве. Вось адрас:
https://sourceforge.net/projects/spell-be/
Цяпер крыху пра слоўнік.
Фармат - hunspell. Я не глядзеў, ці магчыма яго праца з
myspell (хутчэй да, чым не), але тое, што ў ispell яго так
проста не перанесці - факт;
Словазбор - аўтарскі. То бок, па-першае, я не карыстаўся
гатовымі словазборамі (іначай як для пошуку памылак), і
добра ўяўляю сабе ўсе недахопы гэтага падыходу, па-другое,
нават цяпер, калі папаўненне словазбору ідзе большай
часткай за конт ТСБЛМ-2005, захоўваецца істотная розніца;
Арфаграфія - паводле ТСБЛМ-05 (Суднік, Крыўко) з улікам
змяненняў, апісаных у "Правілах беларускай
арфаграфіі і пунктуацыі", апублікаваных у 2008 г., у т.л.
на pravo.by
Адметнай асаблівасцю слоўніка з'яўляюцца апісаныя ў
тэрмінах hunspell правілы падстаноўкі для слоў з памылкамі,
дзякуючы якім сярод прапаноў спелчэкера сустракаюцца
правільныя варыянты ("войскаў" для "войск", "афіцыйны"
для "афіцыяльны" і г.д.)
Мая ацэнка ступені гатоўнасці слоўніка - каля 0.3 (словы
на а б в г д е ё ж з і о у э ю я, часткова к паводле
ТСБЛМ-05). Але ўжо зараз я карыстаюся ім у выпадках, калі
мне важна мець мінімум арфаграфічных памылак у тэксце, і
знаходжу яго даволі карысным.
--
З найлепшымі,
Мікалай Удодаў <cro...@tut.by>
_______________________________________________
I18n mailing list
I1...@mova.org
http://mova.org/cgi-bin/mailman/listinfo/i18n
Пацверджваю, што праца сапраўды вялася, у т.л.,
згодна з "Кароткай граматыкай..." Ін-ту мовы
(Мн., 2007). :)
Нагадваю аб неабвешчанасці праектам такой рэчы,
як ліцэнзія.
Ю.Т.
On 10/21/2010 07:13 PM, Mikalai Udodau wrote:
...
> Летась, адчуваючы, што мая матывацыя мае межы, я
> апублікаваў свой слоўнік у сеціве. Вось адрас:
...
2010/10/21 Yury Tarasievich <yury.tar...@gmail.com>:
Таму мне здаецца, што асаблівага сэнсу ў тваёй працы няма. Усе наяўныя
*spell прыдатныя для ангельскай, але не для беларускай праз фанэтычны
прынцып апошняй.
Пэўна, нам давядзецца рабіць як зрабілі туркі — пісаць асобнуюю
праграму праверкі правапісу.
--
http://375gnu.wordpress.com
Вітаю,
Вы б хоць паглядзелі, як яно знутры працуе, першы чым такое казаць...
Для кожнага тыпу скланення прызначаныя свае мадэлі генерацыі
словаформаў - для вераб'я будзе адна мадэль, для каня - другая. Задача
складальніка слоўніка - вызначыць для кожнага слова прыдатныя для яго
мадэль (мадэлі). Таму ўсё выдатна працуе, як працуе і для іншых
славянскіх моў (для ўкраінскай, рускай ды інш.)
Ігар
Так ці іначай, віншую Мікалая з гэтым значным
пачынам.
Ю.Т.
On 10/21/2010 08:09 PM, Ihar Hrachyshka wrote:
> У выточным кодзе модуля ў README напісана: Creative Commons
> Attribution-ShareAlike 3.0 Unported
(І дзякуй Юрыю за дапамогу ў праекце і разварушванне аўтара.)
З павагай,
Ігар
2010/10/21 Mikalai Udodau <cro...@tut.by>:
Вось калі б існавала магчымасць далучаць
дадатковыя модулі, то можна было б даваць і
"дыскусійныя" рэчы, і тыя, якія "па-за ТСБЛМ і
"Арфаграфічным слоўнікам/2010"...
Ю.Т.
On 10/21/2010 08:03 PM, Ihar Hrachyshka wrote:
> 1) Пытанне па нарматыўнай базе: словы па-за ТСБЛМ і "Арфаграфічным
...
Пра нарматыўную базу я найперш пытаў у кантэксце адсутнасці некаторых
падставовых рэчаў у нарматыўных крыніцах, як-то "спадар".
Ігар
2010/10/21 Yury Tarasievich <yury.tar...@gmail.com>:
А галоўнае тут умець гэта рабіць. У мяне
склалася ўражанне (збоку), што гэта неяк цяжка.
Ю.Т.
2010/10/21 Yury Tarasievich <yury.tar...@gmail.com>:
> Вось калі б існавала магчымасць далучаць дадатковыя модулі,
OOo можа працаваць зь некалькімі модулямі для адной мовы, абы не
канфліктавалі файлы апісаньня.
Дзьмітры Габінскі
P.S. Здаецца, стварэньне модуляў праверкі правапісу для беларускай
мовы становіцца папулярным заняткам. Мой тут:
http://forum.linux.by/viewtopic.php?f=1&t=9942 (для савецкага
правапісу)
2010/10/22 Дмитрий Габинский <gdk...@tut.by>:
> Дзмітры, ваш слоўнік ці не з
> усім вядомага aspell-а створаны?
Першапачаткова — гэта слоўнік для ISpell Міхайляна.
> Здаецца, якраз *гэта* няцяжка зрабіць. Словы раскіданыя па асобных
> файлах (дзеясловы, назоўнікі, геаграфія...) Перад збудаваннем усе
> файлы аб'ядноўваюцца ў адно, і тады генеруецца гатовы для ўжытку
> модуль. На першым этапе ("усе файлы аб'ядноўваюцца") можна непатрэбнае
> выкінуць, каб атрымаць чысты слоўнік "для канцылярскага ўжытку".
Так, словы раскіданы па файлах. Часткі dzeeprym, dzejasl1,
dzejasl2, lich, naz, naz1, naz2, naz3, prym, prysl, pryst
даволі дакладна (не менш за 99,9%) прытрымліваюцца
пададзеных у ТСБЛМ-05, часткі chasc, pryn, zajm, zluch -
прыблізна, vykl - моцна адрозніваецца, словы з астатніх
частак у ТСБЛМ-05 прынцыпова адсутнічаюць.
Словы "спадар" і "спадарства" у ТСБЛМ-05 ёсць. Аднак, няма
"медыцына", "кружка", "бурштын" і г.д. - можаце глянуць у
частку abl.
У частку abl я паскладваў словы, якія, на мой погляд,
мусяць быць у слоўніку кшталту ТСБЛМ.
Так што, можна сабраць, для прыкладу, слоўнік з
словазборам, які на 99 і болей % будзе складзены з
загаловачных слоў з ТСБЛМ-05 (я спрабаваў - не скажу, каб
гэта мела практычную цікавасць). З другога боку, для сваіх
мэт я маю частку з абсцэннай лексікай, яе я не публікаваў і
наўрад ці буду.
І хаця па аб'ёму зараз тыя словы, што адсутнічаюць у
ТСБЛМ, складаюць толькі крыху больш 10%, я лічу, што гэта
частка значная (з-за частасці ужывання).
Я разглядаю любыя словы, якія трапляюцца ў
беларускамоўных тэкстах. На бягучы момант у пытанні
дадання-выкідання слоў я кіруюся сваім адчуваннем, і з
гэтым трэба штосьці рабіць. Напэўна, трэба шукаць слоўнікі,
дзе гэтыя словы ёсць.
Цяпер тое ж самае, у адваротна-алфавітным парадку:
zluch - злучнікі, паводле ТСБЛМ-05
zajm - займеннікі, ТСБЛМ
vykl - выклічнікі, клічная форма дзеясловаў, гукаперайманні
па магчымасці, з ТСБЛМ, астатняе з выпадковых крыніц
(пачаткова з "Беларуская мова: поўны школьны курс"
Красней, Лаўрэль)
sk - скарачэнні, з выпадковых крыніц
pryst - прыстаўкі, якія пішуцца праз злучок, ТСБЛМ
prysl - прыслоўі, ТСБЛМ
pryn - прыназоўнікі, (пачаткова Красней і Лаўрэль, зараз)
ТСБЛМ
prym - прыметнікі, ТСБЛМ
prozv - прозвішчы, (пачаткова паводле "Слоўніка цяжкасцяў
беларускай мовы" Плотнікава і Трайкоўскай, цяпер
моцна пашыраны) з выпадковых крыніц
naz3 - назоўнікі трэцяга скланення, ТСБЛМ
naz2 - назоўнікі 2 скланення, ТСБЛМ
naz1 - назоўнікі 1 скланення, ТСБЛМ
naz - назоўнікі агульнага роду ці толькі множнага ліку,
ТСБЛМ
najm - найменні божастваў, прозвішчы персанажаў,
клічкі - з выпадковых крыніц
lich - лічэбнікі, (Красней і Лаўрэль, з галавы), ТСБЛМ
im2 - імёны жаночыя, ("Слоўнік цяжкасцяў" з
дадаткам) з выпадковых крыніц
im1 - імёны мужчынскія, ("Слоўнік цяжкасцяў" з дадаткам)
з выпадковых крыніц
geagraph - геаграфічныя назвы, (пачаткова "Слоўнік
цяжкасцяў", але тут ужо лепш і не ўспамінаць),
з выпадковых крыніц
dzejasl2 - дзеясловы другога спражэння, ТСБЛМ
dzejasl1 - дзеясловы першага спражэння, ТСБЛМ
dzeeprysl - дзеепрыслоўі, з выпадковых крыніц
dzeeprym - дзеепрыметнікі, ТСБЛМ
chasc - часціцы, (пачаткова з "Беларуская мова: поўны
школьны курс" Краснея і Лаўрэля, зараз дадаю)
з ТСБЛМ
abl - ўсё, што не патрапіла ў азначаныя вышэй часткі.
diff-ы - на маю электронную пошту, ці ў
spell-...@lists.sourceforge.net
>
> 2010/10/21 Yury Tarasievich <yury.tar...@gmail.com>:
> > On 10/21/2010 09:23 PM, Ihar Hrachyshka wrote:
> >>
> >> У прынцыпе, для гэтага дастаткова стварыць дадатковыя падмодулі, якія
> >> будуць пры патрэбе ўключацца і выключацца з будовы слоўніка.
> >
> > А галоўнае тут умець гэта рабіць. У мяне склалася ўражанне (збоку), што гэта
> > неяк цяжка.
> >
> > Ю.Т.
> >
> > _______________________________________________
> > I18n mailing list
> > I1...@mova.org
> > http://mova.org/cgi-bin/mailman/listinfo/i18n
> _______________________________________________
> I18n mailing list
> I1...@mova.org
> http://mova.org/cgi-bin/mailman/listinfo/i18n
--
З найлепшымі,
Мікалай Удодаў <cro...@tut.by>
_______________________________________________
> 2010/10/21 Yury Tarasievich <yury.tar...@gmail.com>:
>
> > Вось калі б існавала магчымасць далучаць дадатковыя модулі,
>
> OOo можа працаваць зь некалькімі модулямі для адной мовы, абы не
> канфліктавалі файлы апісаньня.
>
> Дзьмітры Габінскі
>
> P.S. Здаецца, стварэньне модуляў праверкі правапісу для беларускай
> мовы становіцца папулярным заняткам. Мой тут:
> http://forum.linux.by/viewtopic.php?f=1&t=9942 (для савецкага
> правапісу)
Наколькі я зразумеў, вы дапрацоўвалі слоўнік Міхайляна, які
ён пачаў рабіць, спрабуючы перапісваць файл афіксаў рускага
слоўніка Лебедзева.
Здаецца, мне проста пашчасціла, што я адразу пачаў
рабіць у фармаце hunspell. Толькі нядаўна я даведаўся, што
ispell мае абмежаванне ў 26 афіксаў+прэфіксаў (можна
ўдвая больш у апошніх версіях, здаецца, але я не ведаю,
як). Зараз я ўжываю 20 афіксаў для дзеясловаў, 13 - для
назоўнікаў, 4 - для прыметнікаў, 1 - для прозвішчаў, і 5 для
прэфіксаў. А калі пачынаў, адразу зрабіў 10 прэфіксаў, і
літары кончыліся ўжо на назоўніках, а наперадзе яшчэ былі
прыметнікі і дзеясловы...
> _______________________________________________
> I18n mailing list
> I1...@mova.org
> http://mova.org/cgi-bin/mailman/listinfo/i18n
--
З найлепшымі,
Мікалай Удодаў <cro...@tut.by>
_______________________________________________
P.S. Здаецца, стварэньне модуляў праверкі правапісу для беларускай
мовы становіцца папулярным заняткам.
Прапанаваная схема прывабная. Ёсць, праўда, колькі мінусаў-заўваг:
1) стварэнне такой базы вымагае многа больш сілаў;
2) у выніку мы атрымоўваем той жа [hun|i|a|my]spell (сваю сістэму з
усімі яе магчымасцямі прычапіць да OOo і/ці ўсяго асяроддзя будзе
няпроста, хаця і магчыма - ёсць бібліятэкі абстракцыі модуляў праверкі
правапісу і граматыкі, як enchant).
Прапанаваная схема прывабная. Ёсць, праўда, колькі мінусаў-заўваг:
1) стварэнне такой базы вымагае многа больш сілаў;
2) у выніку мы атрымоўваем той жа [hun|i|a|my]spell (сваю сістэму з
усімі яе магчымасцямі прычапіць да OOo і/ці ўсяго асяроддзя будзе
няпроста, хаця і магчыма - ёсць бібліятэкі абстракцыі модуляў праверкі
правапісу і граматыкі, як enchant).
Усе гэтыя *spell нічым _прынчыпова_ не адрозьніваюцца ад старога
добрага ispell, зь якім я меў магчымасьць пазнаёміцца.
> Для кожнага тыпу скланення прызначаныя свае мадэлі генерацыі
> словаформаў - для вераб'я будзе адна мадэль, для каня - другая. Задача
> складальніка слоўніка - вызначыць для кожнага слова прыдатныя для яго
> мадэль (мадэлі). Таму ўсё выдатна працуе, як працуе і для іншых
> славянскіх моў (для ўкраінскай, рускай ды інш.)
Ну зрабі мадэль, якая будзе адпавядаць правілу «о не пад націскам
пераходзіць у а». Вось Удодаў ня здолеў, таму «конь» у ягонай базе без
аніякіх суфіксаў. Хіба, можна скакаць ад іншага склону, напрыклад,
роднага — «каня».
Альбо яшчэ паглядзець на languagetool, але ня маю ўяўленьня як яно
працуе. Ведаю, што напісана на жабе, а гэта ўжо дастатковая прычына,
каб адпужнуць.
--
http://375gnu.wordpress.com
Ужо адказалі, што ispell не падтрымлівае столькі мадэляў скланення,
колькі трэба для алгарытмізацыі генерацыі словаформаў.
>> Для кожнага тыпу скланення прызначаныя свае мадэлі генерацыі
>> словаформаў - для вераб'я будзе адна мадэль, для каня - другая. Задача
>> складальніка слоўніка - вызначыць для кожнага слова прыдатныя для яго
>> мадэль (мадэлі). Таму ўсё выдатна працуе, як працуе і для іншых
>> славянскіх моў (для ўкраінскай, рускай ды інш.)
>
> Ну зрабі мадэль, якая будзе адпавядаць правілу «о не пад націскам
> пераходзіць у а». Вось Удодаў ня здолеў, таму «конь» у ягонай базе без
> аніякіх суфіксаў. Хіба, можна скакаць ад іншага склону, напрыклад,
> роднага — «каня».
>
Так, правілы беларускай арфаграфіі не такія простыя для
алгарытмізацыі. Тым не менш, выкарыстанне набору суфіксаў для
азначэння мадэляў - гэта ўжо прагрэс. Так, заўсёды будуць выключэнні і
месцы, якія цяжка паддаюцца фармалізацыі, але нам з гэтым жыць.
Хочацца прасцей - англійская пад бокам. :)
Ігар
On 10/22/2010 12:03 PM, Mikalai Udodau wrote:
...
> Так што, можна сабраць, для прыкладу, слоўнік з
> словазборам, які на 99 і болей % будзе складзены з
> загаловачных слоў з ТСБЛМ-05 (я спрабаваў - не скажу, каб
> гэта мела практычную цікавасць). З другога боку, для сваіх
> мэт я маю частку з абсцэннай лексікай, яе я не публікаваў і
> наўрад ці буду.
...
Першая мера практычнай прыдатнасці праграмы
такога класу -- вядомасць яе нарматыўнай базы і
гарантаванасць адпаведнасці.
Тут не патрэбная ані "мяшанка правапісаў", ані
"аўтарскае меркаванне".
Выкананне той першай меры і ёсць прычына таго,
што ваш модуль на галаву вышэй рэшты сцэны
(хоць, можа, (яшчэ) і не "ловіць каня").
> Словы "спадар" і "спадарства" у ТСБЛМ-05 ёсць. Аднак, няма
"медыцына", "кружка", "бурштын" і г.д. - можаце
глянуць у
частку abl.
Каб мець "увесь фонд", трэба (як мы некалі
гаварылі) глядзець у 5-томнік. ТСБМ-2005 гэта
пашыраны апдэйт, але і звужэнне таксама.
Дарэчы, ТСБМ ёсць у (кепска) распазнанай форме. У прынцыпе, спіс
словаў адтуль узяць можна. Цяжэй для кожнай адзінкі падабраць
патрэбныя мадэлі.
Менавіта. Асноўная праца тут не распазнанне і не
спіс словаў. Трэсці (цюкаць) усё адно трэба.
З той самай прычыны модуль *spell не дапамога ў
пытанні задуманай чысткі тэрміналогіі (з
выняткам памылак, вядома).
Ю.Т.
<snip>
>
> Так, правілы беларускай арфаграфіі не такія простыя для
> алгарытмізацыі. Тым не менш, выкарыстанне набору суфіксаў для
> азначэння мадэляў - гэта ўжо прагрэс. Так, заўсёды будуць выключэнні і
> месцы, якія цяжка паддаюцца фармалізацыі, але нам з гэтым жыць.
> Хочацца прасцей - англійская пад бокам. :)
Вось вы кажаце, што *spell-ы разлічаны на англійскую мову,
і скланяеце каня. Ідэальнае адзінства меркаванняў...
І толькі аднаго мяне здзіўляе, што дзеяслоў "go" заўсёды
went у слоўнікі як мінімум дзвюма формамі.
>
> Ігар
> _______________________________________________
> I18n mailing list
> I1...@mova.org
> http://mova.org/cgi-bin/mailman/listinfo/i18n
--
З найлепшымі,
Мікалай Удодаў <cro...@tut.by>
_______________________________________________
Ты разумееш, што значыць слова «прынцыпова»?
--
http://375gnu.wordpress.com
> Вось каб вы зрабілі нейкую метрыку: скажам,
> версія А ўтрымлівае матэрыял ТСБМ адсюль і дасюль.
Як я ўжо казаў, паводле ТСБЛМ-05 я раблю наступныя часткі:
dzeeprym.dic
dzejasl1.dic
dzejasl2.dic
lich.dic
naz1.dic
naz2.dic
naz3.dic
naz.dic
prym.dic
pryst.dic
zajm.dic
У бягучы момант (25.10.2010) словы з гэтых частак, якія
пачынаюцца на літары а б в г д е ё ж з і к о у э ю я
(г.зн., усе галосныя, потым зычныя ад пачатку да к
уключна), за выключэннем тых памылак, пра якія я яшчэ не
ведаю (але не магу гарантаваць іх адсутнасць), цалкам
адпавядаюць матэрыялу ТСБЛМ-05.
Нажаль, я не магу сказаць так пра часткі chasc, pryn,
zluch, vykl, хоць і не бачу прычын, каб там было шмат
такога, чаго няма ў ТСБМ. Проста не правяраў.
Прыблізная ацэнка ў 99,9% адпаведнасці заснавана на тым,
што прыблізна адно з тысячы слоў (дададзеных раней, да
таго, як я пачаў працаваць з ТСБЛМ-05) прыходзілася
выкідаць ці пераносіць у другія часткі.
--
З найлепшымі,
Мікалай Удодаў <cro...@tut.by>
_______________________________________________