[I18n] Слоўнік для праверкі правапісу

Mikalai Udodau

unread,

Oct 21, 2010, 12:13:37 PM10/21/10

to i1...@mova.org

Вітаю, паважаныя ўдзельнікі броўнаўскага руху!

У святле надыходзячага ажыўлення модуля спраўджвання
беларускага правапісу, спяшаюся паведаміць вам, што ў мяне
ёсць уласны, пакуль яшчэ жывы.

У жніўні 2008 году я зрабіў першую спробу стварыць уласны
слоўнік для спелчэкера, які б працаваў у OpenOffice.org.
Здаралася, цягам двух год падпольнай распрацоўкі я
спрабаваў расказаць пра гэта выпадковым і невыпадковым
людзям, якія, як мне здавалася, зацікаўленыя ў прадукце
такога кшталту. Могуць пацвердзіць, калі захочуць: Юры
Тарасевіч, Уладзімір Вараб'ёў, Уладзімір Кошчанка, Павел
Шут.

Летась, адчуваючы, што мая матывацыя мае межы, я
апублікаваў свой слоўнік у сеціве. Вось адрас:

https://sourceforge.net/projects/spell-be/

Цяпер крыху пра слоўнік.

Фармат - hunspell. Я не глядзеў, ці магчыма яго праца з
myspell (хутчэй да, чым не), але тое, што ў ispell яго так
проста не перанесці - факт;

Словазбор - аўтарскі. То бок, па-першае, я не карыстаўся
гатовымі словазборамі (іначай як для пошуку памылак), і
добра ўяўляю сабе ўсе недахопы гэтага падыходу, па-другое,
нават цяпер, калі папаўненне словазбору ідзе большай
часткай за конт ТСБЛМ-2005, захоўваецца істотная розніца;

Арфаграфія - паводле ТСБЛМ-05 (Суднік, Крыўко) з улікам
змяненняў, апісаных у "Правілах беларускай
арфаграфіі і пунктуацыі", апублікаваных у 2008 г., у т.л.
на pravo.by

Адметнай асаблівасцю слоўніка з'яўляюцца апісаныя ў
тэрмінах hunspell правілы падстаноўкі для слоў з памылкамі,
дзякуючы якім сярод прапаноў спелчэкера сустракаюцца
правільныя варыянты ("войскаў" для "войск", "афіцыйны"
для "афіцыяльны" і г.д.)

Мая ацэнка ступені гатоўнасці слоўніка - каля 0.3 (словы
на а б в г д е ё ж з і о у э ю я, часткова к паводле
ТСБЛМ-05). Але ўжо зараз я карыстаюся ім у выпадках, калі
мне важна мець мінімум арфаграфічных памылак у тэксце, і
знаходжу яго даволі карысным.

--
З найлепшымі,
Мікалай Удодаў <cro...@tut.by>

_______________________________________________
I18n mailing list
I1...@mova.org
http://mova.org/cgi-bin/mailman/listinfo/i18n

Yury Tarasievich

unread,

Oct 21, 2010, 12:52:40 PM10/21/10

to Belarusian i18n list

Усё ж не "летась", а "ўлетку". :))
>This is the spell-be project ("spell-be")
>This project was registered on SourceForge.net on Aug 23, 2010

Пацверджваю, што праца сапраўды вялася, у т.л.,
згодна з "Кароткай граматыкай..." Ін-ту мовы
(Мн., 2007). :)
Нагадваю аб неабвешчанасці праектам такой рэчы,
як ліцэнзія.

Ю.Т.

On 10/21/2010 07:13 PM, Mikalai Udodau wrote:
...

> Летась, адчуваючы, што мая матывацыя мае межы, я
> апублікаваў свой слоўнік у сеціве. Вось адрас:

...

Ihar Hrachyshka

unread,

Oct 21, 2010, 1:09:36 PM10/21/10

to Belarusian i18n list

У выточным кодзе модуля ў README напісана: Creative Commons
Attribution-ShareAlike 3.0 Unported

2010/10/21 Yury Tarasievich <yury.tar...@gmail.com>:

375gnu

unread,

Oct 21, 2010, 1:31:44 PM10/21/10

to Belarusian i18n list

Неяк спрабаваў зрабіць нешта падобнае з нуля, але для ispell. Зрабіў
некалькі скланеньняў назоўнікаў, а пасьля падумаў: «вось з дапамогай
гэтага атрымаеца правільны варыянт "верабей"-"вераб'ю", а вось
"конь"-"коню" ўжо няправільны, і хрэн зробіш наяўнымі сродкамі 'каню'
й т.п.».

Таму мне здаецца, што асаблівага сэнсу ў тваёй працы няма. Усе наяўныя
*spell прыдатныя для ангельскай, але не для беларускай праз фанэтычны
прынцып апошняй.

Пэўна, нам давядзецца рабіць як зрабілі туркі — пісаць асобнуюю
праграму праверкі правапісу.

--
http://375gnu.wordpress.com

Ihar Hrachyshka

unread,

Oct 21, 2010, 1:44:25 PM10/21/10

to Belarusian i18n list

2010/10/21 375gnu <375...@gmail.com>:

>
> Пэўна, нам давядзецца рабіць як зрабілі туркі — пісаць асобнуюю
> праграму праверкі правапісу.

Вітаю,

Вы б хоць паглядзелі, як яно знутры працуе, першы чым такое казаць...
Для кожнага тыпу скланення прызначаныя свае мадэлі генерацыі
словаформаў - для вераб'я будзе адна мадэль, для каня - другая. Задача
складальніка слоўніка - вызначыць для кожнага слова прыдатныя для яго
мадэль (мадэлі). Таму ўсё выдатна працуе, як працуе і для іншых
славянскіх моў (для ўкраінскай, рускай ды інш.)

Ігар

Yury Tarasievich

unread,

Oct 21, 2010, 1:53:05 PM10/21/10

to Belarusian i18n list

Але звычайна гэта кладуць трохі бліжэй...

Так ці іначай, віншую Мікалая з гэтым значным
пачынам.

Ю.Т.

On 10/21/2010 08:09 PM, Ihar Hrachyshka wrote:
> У выточным кодзе модуля ў README напісана: Creative Commons
> Attribution-ShareAlike 3.0 Unported

Ihar Hrachyshka

unread,

Oct 21, 2010, 1:03:03 PM10/21/10

to Belarusian i18n list

Вітаю, Мікалай.
Гэта проста цудоўна. Як крыху разбяруся з актуальнымі справамі,
паспрабую што-нішто дасылаць у ваш модуль.
1) Пытанне па нарматыўнай базе: словы па-за ТСБЛМ і "Арфаграфічным
слоўнікам"/2010 прымаюцца на разгляд? Ці лепш пакуль усё спраўджваць
на наяўнасць у гэтых крыніцах?
2) Пытанне па workflow: як лепш рабіць уклад у праект? Куды высылаць diff?

(І дзякуй Юрыю за дапамогу ў праекце і разварушванне аўтара.)

З павагай,
Ігар

2010/10/21 Mikalai Udodau <cro...@tut.by>:

Yury Tarasievich

unread,

Oct 21, 2010, 2:20:31 PM10/21/10

to Belarusian i18n list

Думаецца, варта трымаць чэкер, а прынамсі яго
асноўны модуль, прыдатным *без аніякіх заўваг*
для канцылярскай працы.

Вось калі б існавала магчымасць далучаць
дадатковыя модулі, то можна было б даваць і
"дыскусійныя" рэчы, і тыя, якія "па-за ТСБЛМ і
"Арфаграфічным слоўнікам/2010"...

Ю.Т.

On 10/21/2010 08:03 PM, Ihar Hrachyshka wrote:
> 1) Пытанне па нарматыўнай базе: словы па-за ТСБЛМ і "Арфаграфічным

...

Ihar Hrachyshka

unread,

Oct 21, 2010, 2:23:33 PM10/21/10

to Belarusian i18n list

У прынцыпе, для гэтага дастаткова стварыць дадатковыя падмодулі, якія
будуць пры патрэбе ўключацца і выключацца з будовы слоўніка. Галоўнае,
каб гэтыя дадатковыя модулі былі 1) ізаляваныя ад асноўных файлаў; 2)
выкарыстоўвалі такія самыя літары для адпаведных мадэляў
словаўтварэння.

Пра нарматыўную базу я найперш пытаў у кантэксце адсутнасці некаторых
падставовых рэчаў у нарматыўных крыніцах, як-то "спадар".

Ігар

2010/10/21 Yury Tarasievich <yury.tar...@gmail.com>:

Yury Tarasievich

unread,

Oct 21, 2010, 3:03:27 PM10/21/10

to Belarusian i18n list

On 10/21/2010 09:23 PM, Ihar Hrachyshka wrote:
> У прынцыпе, для гэтага дастаткова стварыць дадатковыя падмодулі, якія
> будуць пры патрэбе ўключацца і выключацца з будовы слоўніка.

А галоўнае тут умець гэта рабіць. У мяне
склалася ўражанне (збоку), што гэта неяк цяжка.

Ю.Т.

Ihar Hrachyshka

unread,

Oct 21, 2010, 3:04:34 PM10/21/10

to Belarusian i18n list

Здаецца, якраз *гэта* няцяжка зрабіць. Словы раскіданыя па асобных
файлах (дзеясловы, назоўнікі, геаграфія...) Перад збудаваннем усе
файлы аб'ядноўваюцца ў адно, і тады генеруецца гатовы для ўжытку
модуль. На першым этапе ("усе файлы аб'ядноўваюцца") можна непатрэбнае
выкінуць, каб атрымаць чысты слоўнік "для канцылярскага ўжытку".

2010/10/21 Yury Tarasievich <yury.tar...@gmail.com>:

Дмитрий Габинский

unread,

Oct 22, 2010, 2:04:54 AM10/22/10

to Belarusian i18n list

2010/10/21 Yury Tarasievich <yury.tar...@gmail.com>:

> Вось калі б існавала магчымасць далучаць дадатковыя модулі,

OOo можа працаваць зь некалькімі модулямі для адной мовы, абы не
канфліктавалі файлы апісаньня.

Дзьмітры Габінскі

P.S. Здаецца, стварэньне модуляў праверкі правапісу для беларускай
мовы становіцца папулярным заняткам. Мой тут:
http://forum.linux.by/viewtopic.php?f=1&t=9942 (для савецкага
правапісу)

Ihar Hrachyshka

unread,

Oct 22, 2010, 3:21:27 AM10/22/10

to Belarusian i18n list

Прынцыпова важна не тое, хто модуль збудаваў, а з якой крыніцы і ў
якой форме ўзятыя словы (словаформы). Дзмітры, ваш слоўнік ці не з
усім вядомага aspell-а створаны?

2010/10/22 Дмитрий Габинский <gdk...@tut.by>:

Дмитрий Габинский

unread,

Oct 22, 2010, 3:50:41 AM10/22/10

to Belarusian i18n list

2010/10/22 Ihar Hrachyshka <ihar.hr...@gmail.com>:

> Дзмітры, ваш слоўнік ці не з
> усім вядомага aspell-а створаны?

Першапачаткова — гэта слоўнік для ISpell Міхайляна.

Mikalai Udodau

unread,

Oct 22, 2010, 5:03:47 AM10/22/10

to i1...@mova.org

On Thu, 21 Oct 2010 22:04:34 +0300
Ihar Hrachyshka <ihar.hr...@gmail.com> wrote:

> Здаецца, якраз *гэта* няцяжка зрабіць. Словы раскіданыя па асобных
> файлах (дзеясловы, назоўнікі, геаграфія...) Перад збудаваннем усе
> файлы аб'ядноўваюцца ў адно, і тады генеруецца гатовы для ўжытку
> модуль. На першым этапе ("усе файлы аб'ядноўваюцца") можна непатрэбнае
> выкінуць, каб атрымаць чысты слоўнік "для канцылярскага ўжытку".

Так, словы раскіданы па файлах. Часткі dzeeprym, dzejasl1,
dzejasl2, lich, naz, naz1, naz2, naz3, prym, prysl, pryst
даволі дакладна (не менш за 99,9%) прытрымліваюцца
пададзеных у ТСБЛМ-05, часткі chasc, pryn, zajm, zluch -
прыблізна, vykl - моцна адрозніваецца, словы з астатніх
частак у ТСБЛМ-05 прынцыпова адсутнічаюць.

Словы "спадар" і "спадарства" у ТСБЛМ-05 ёсць. Аднак, няма
"медыцына", "кружка", "бурштын" і г.д. - можаце глянуць у
частку abl.

У частку abl я паскладваў словы, якія, на мой погляд,
мусяць быць у слоўніку кшталту ТСБЛМ.

Так што, можна сабраць, для прыкладу, слоўнік з
словазборам, які на 99 і болей % будзе складзены з
загаловачных слоў з ТСБЛМ-05 (я спрабаваў - не скажу, каб
гэта мела практычную цікавасць). З другога боку, для сваіх
мэт я маю частку з абсцэннай лексікай, яе я не публікаваў і
наўрад ці буду.

І хаця па аб'ёму зараз тыя словы, што адсутнічаюць у
ТСБЛМ, складаюць толькі крыху больш 10%, я лічу, што гэта
частка значная (з-за частасці ужывання).

Я разглядаю любыя словы, якія трапляюцца ў
беларускамоўных тэкстах. На бягучы момант у пытанні
дадання-выкідання слоў я кіруюся сваім адчуваннем, і з
гэтым трэба штосьці рабіць. Напэўна, трэба шукаць слоўнікі,
дзе гэтыя словы ёсць.

Цяпер тое ж самае, у адваротна-алфавітным парадку:
zluch - злучнікі, паводле ТСБЛМ-05
zajm - займеннікі, ТСБЛМ
vykl - выклічнікі, клічная форма дзеясловаў, гукаперайманні
па магчымасці, з ТСБЛМ, астатняе з выпадковых крыніц
(пачаткова з "Беларуская мова: поўны школьны курс"
Красней, Лаўрэль)
sk - скарачэнні, з выпадковых крыніц
pryst - прыстаўкі, якія пішуцца праз злучок, ТСБЛМ
prysl - прыслоўі, ТСБЛМ
pryn - прыназоўнікі, (пачаткова Красней і Лаўрэль, зараз)
ТСБЛМ
prym - прыметнікі, ТСБЛМ
prozv - прозвішчы, (пачаткова паводле "Слоўніка цяжкасцяў
беларускай мовы" Плотнікава і Трайкоўскай, цяпер
моцна пашыраны) з выпадковых крыніц
naz3 - назоўнікі трэцяга скланення, ТСБЛМ
naz2 - назоўнікі 2 скланення, ТСБЛМ
naz1 - назоўнікі 1 скланення, ТСБЛМ
naz - назоўнікі агульнага роду ці толькі множнага ліку,
ТСБЛМ
najm - найменні божастваў, прозвішчы персанажаў,
клічкі - з выпадковых крыніц
lich - лічэбнікі, (Красней і Лаўрэль, з галавы), ТСБЛМ
im2 - імёны жаночыя, ("Слоўнік цяжкасцяў" з
дадаткам) з выпадковых крыніц
im1 - імёны мужчынскія, ("Слоўнік цяжкасцяў" з дадаткам)
з выпадковых крыніц
geagraph - геаграфічныя назвы, (пачаткова "Слоўнік
цяжкасцяў", але тут ужо лепш і не ўспамінаць),
з выпадковых крыніц
dzejasl2 - дзеясловы другога спражэння, ТСБЛМ
dzejasl1 - дзеясловы першага спражэння, ТСБЛМ
dzeeprysl - дзеепрыслоўі, з выпадковых крыніц
dzeeprym - дзеепрыметнікі, ТСБЛМ
chasc - часціцы, (пачаткова з "Беларуская мова: поўны
школьны курс" Краснея і Лаўрэля, зараз дадаю)
з ТСБЛМ
abl - ўсё, што не патрапіла ў азначаныя вышэй часткі.

diff-ы - на маю электронную пошту, ці ў
spell-...@lists.sourceforge.net

>
> 2010/10/21 Yury Tarasievich <yury.tar...@gmail.com>:
> > On 10/21/2010 09:23 PM, Ihar Hrachyshka wrote:
> >>
> >> У прынцыпе, для гэтага дастаткова стварыць дадатковыя падмодулі, якія
> >> будуць пры патрэбе ўключацца і выключацца з будовы слоўніка.
> >
> > А галоўнае тут умець гэта рабіць. У мяне склалася ўражанне (збоку), што гэта
> > неяк цяжка.
> >
> > Ю.Т.
> >
> > _______________________________________________
> > I18n mailing list
> > I1...@mova.org
> > http://mova.org/cgi-bin/mailman/listinfo/i18n
> _______________________________________________
> I18n mailing list
> I1...@mova.org
> http://mova.org/cgi-bin/mailman/listinfo/i18n

--

З найлепшымі,
Мікалай Удодаў <cro...@tut.by>

_______________________________________________

Mikalai Udodau

unread,

Oct 22, 2010, 5:03:50 AM10/22/10

to i1...@mova.org

On Fri, 22 Oct 2010 09:04:54 +0300
Дмитрий Габинский <gdk...@tut.by> wrote:

> 2010/10/21 Yury Tarasievich <yury.tar...@gmail.com>:
>
> > Вось калі б існавала магчымасць далучаць дадатковыя модулі,
>
> OOo можа працаваць зь некалькімі модулямі для адной мовы, абы не
> канфліктавалі файлы апісаньня.
>
> Дзьмітры Габінскі
>
> P.S. Здаецца, стварэньне модуляў праверкі правапісу для беларускай
> мовы становіцца папулярным заняткам. Мой тут:
> http://forum.linux.by/viewtopic.php?f=1&t=9942 (для савецкага
> правапісу)

Наколькі я зразумеў, вы дапрацоўвалі слоўнік Міхайляна, які
ён пачаў рабіць, спрабуючы перапісваць файл афіксаў рускага
слоўніка Лебедзева.

Здаецца, мне проста пашчасціла, што я адразу пачаў
рабіць у фармаце hunspell. Толькі нядаўна я даведаўся, што
ispell мае абмежаванне ў 26 афіксаў+прэфіксаў (можна
ўдвая больш у апошніх версіях, здаецца, але я не ведаю,
як). Зараз я ўжываю 20 афіксаў для дзеясловаў, 13 - для
назоўнікаў, 4 - для прыметнікаў, 1 - для прозвішчаў, і 5 для
прэфіксаў. А калі пачынаў, адразу зрабіў 10 прэфіксаў, і
літары кончыліся ўжо на назоўніках, а наперадзе яшчэ былі
прыметнікі і дзеясловы...

> _______________________________________________
> I18n mailing list
> I1...@mova.org
> http://mova.org/cgi-bin/mailman/listinfo/i18n

--

З найлепшымі,
Мікалай Удодаў <cro...@tut.by>

_______________________________________________

Alex Buloichik

unread,

Oct 22, 2010, 5:24:15 AM10/22/10

to Belarusian i18n list

Вітаю !

P.S. Здаецца, стварэньне модуляў праверкі правапісу для беларускай
мовы становіцца папулярным заняткам.

Так, гэта яшчэ адзін аргумэнт на карысьць агульнай пляцоўцы, бо я ведаю яшчэ адзін праект, які можа ў выніку даць слоўнік ;)

Трохі тэорыі для тых, хто ня ведае: hunspell/aspell/ispell/myspell працуюць аднолькава: спраўджваюць кожнае слова па слоўніку, і калі слова невядомае - кажуць што памылка. За межы слова яны не выходзяць(таму ў сказе "цёплы лета" - ніякай памылкі не знойдзецца). Здаецца, aspell/ispell - найбольш простыя рухавікі, у myspell дадалася падтрымка афіксаў(prefix+suffix), у hunspell дадаліся правілы падстаноўкі і яшчэ нешта, больш прыдатнае да вугорскай мовы.

Такім чынам ёсьць 3 часткі задачы - 1) стварыць сьпіс словаў, 2) разгарнуць словаформы, 3) спраўдзіць слова з тэксту па словаформах.

Мікалай паспрабаваў разгарнуць словаформы з дапамогай hunspell. Так, hunspell для гэтага зроблены, але ягонае разгортваньне словаформаў больш прыдатнае для ангельскай мовы. Напрыклад, беглыя зычныя тут не кладуцца.

IMHO, разгортваньне словаформаў - найбольш складаная рэч у такім слоўніку.

Ёсьць цікавы праект, які робяць Кошчанка з кампаніяй. Яны ствараюць граматычную базу беларускай мовы. Так, гэта вялікі праект, яшчэ не дароблены, але, у гэтай базе будуць пазначаныя усе граматычныя уласьцівасьці і асаблівасьці кожнага слова, націск, будуць разгортвацца словаформы і яшчэ шмат цікавага. Такім чынам, калі з гэтай базы ўзяць сьпіс усіх словаформаў, гэта і будзе гатовы слоўнік для {i,a,my,hun}spell.

Зразумела, база гэтая не у выглядзе афіксаў hunspell, а больш падрабязная, і праект значна большы за слоўнік для hunspell. Таму калі мы кажам пра адзіны слоўнік, можа трэба падумаць як дапамагчы зрабіць тую агульную базу, зь якой ужо проста скрыптом атрымаем слоўнік для hunspell.

А самае цікавае - калі ў базе пазначыныя націскі, мы можам зрабіць дадатковыя праверкі, як не/ня, без/бяз для клясічнага правапісу. А яшчэ з дапамогай такой базы мы можам выйсьці за межы слова - ёсьць такая цікавая рэч як "трыграмы". Такім чынам будзе магчыма знайсьці памылкі ў сказе "цёплы лета".

WBR, Alex.

Ihar Hrachyshka

unread,

Oct 22, 2010, 6:09:44 AM10/22/10

to Belarusian i18n list

2010/10/22 Alex Buloichik <alex7...@gmail.com>:

Прапанаваная схема прывабная. Ёсць, праўда, колькі мінусаў-заўваг:
1) стварэнне такой базы вымагае многа больш сілаў;
2) у выніку мы атрымоўваем той жа [hun|i|a|my]spell (сваю сістэму з
усімі яе магчымасцямі прычапіць да OOo і/ці ўсяго асяроддзя будзе
няпроста, хаця і магчыма - ёсць бібліятэкі абстракцыі модуляў праверкі
правапісу і граматыкі, як enchant).

Alex Buloichik

unread,

Oct 22, 2010, 6:50:47 AM10/22/10

to Belarusian i18n list

Вітаю !

2010/10/22 Ihar Hrachyshka <ihar.hr...@gmail.com>

Прапанаваная схема прывабная. Ёсць, праўда, колькі мінусаў-заўваг:
1) стварэнне такой базы вымагае многа больш сілаў;

Ну, яна будзе рабіцца незалежна ад нашых намаганьняў, таму, можа мае сэнс рабіць адзінае вялікае разам, а не шмат маленькіх праектаў.

2) у выніку мы атрымоўваем той жа [hun|i|a|my]spell (сваю сістэму з
усімі яе магчымасцямі прычапіць да OOo і/ці ўсяго асяроддзя будзе
няпроста, хаця і магчыма - ёсць бібліятэкі абстракцыі модуляў праверкі
правапісу і граматыкі, як enchant).

[hun|i|a|my]spell - мы атрымліваем аўтаматычна. Дадаткова ёсьць LanguageTool, інтэграваны ў OpenOffice, на які можна вешаць трыграмы, націскі і ўсё астатняе. "Ў" там ужо ёсьць ;)

Асобнае пытаньне - ліцэнзія, але, справа рухаецца.

WBR, Alex.

375gnu

unread,

Oct 22, 2010, 10:57:33 AM10/22/10

to Belarusian i18n list

On 10/21/10, Ihar Hrachyshka <ihar.hr...@gmail.com> wrote:
>> Пэўна, нам давядзецца рабіць як зрабілі туркі — пісаць асобнуюю
>> праграму праверкі правапісу.

> Вы б хоць паглядзелі, як яно знутры працуе, першы чым такое казаць...

Усе гэтыя *spell нічым _прынчыпова_ не адрозьніваюцца ад старога
добрага ispell, зь якім я меў магчымасьць пазнаёміцца.

> Для кожнага тыпу скланення прызначаныя свае мадэлі генерацыі
> словаформаў - для вераб'я будзе адна мадэль, для каня - другая. Задача
> складальніка слоўніка - вызначыць для кожнага слова прыдатныя для яго
> мадэль (мадэлі). Таму ўсё выдатна працуе, як працуе і для іншых
> славянскіх моў (для ўкраінскай, рускай ды інш.)

Ну зрабі мадэль, якая будзе адпавядаць правілу «о не пад націскам
пераходзіць у а». Вось Удодаў ня здолеў, таму «конь» у ягонай базе без
аніякіх суфіксаў. Хіба, можна скакаць ад іншага склону, напрыклад,
роднага — «каня».

Альбо яшчэ паглядзець на languagetool, але ня маю ўяўленьня як яно
працуе. Ведаю, што напісана на жабе, а гэта ўжо дастатковая прычына,
каб адпужнуць.

--
http://375gnu.wordpress.com

Ihar Hrachyshka

unread,

Oct 22, 2010, 11:05:11 AM10/22/10

to Belarusian i18n list

2010/10/22 375gnu <375...@gmail.com>:

> On 10/21/10, Ihar Hrachyshka <ihar.hr...@gmail.com> wrote:
>>> Пэўна, нам давядзецца рабіць як зрабілі туркі — пісаць асобнуюю
>>> праграму праверкі правапісу.
>> Вы б хоць паглядзелі, як яно знутры працуе, першы чым такое казаць...
>
> Усе гэтыя *spell нічым _прынчыпова_ не адрозьніваюцца ад старога
> добрага ispell, зь якім я меў магчымасьць пазнаёміцца.
>

Ужо адказалі, што ispell не падтрымлівае столькі мадэляў скланення,
колькі трэба для алгарытмізацыі генерацыі словаформаў.

>> Для кожнага тыпу скланення прызначаныя свае мадэлі генерацыі
>> словаформаў - для вераб'я будзе адна мадэль, для каня - другая. Задача
>> складальніка слоўніка - вызначыць для кожнага слова прыдатныя для яго
>> мадэль (мадэлі). Таму ўсё выдатна працуе, як працуе і для іншых
>> славянскіх моў (для ўкраінскай, рускай ды інш.)
>
> Ну зрабі мадэль, якая будзе адпавядаць правілу «о не пад націскам
> пераходзіць у а». Вось Удодаў ня здолеў, таму «конь» у ягонай базе без
> аніякіх суфіксаў. Хіба, можна скакаць ад іншага склону, напрыклад,
> роднага — «каня».
>

Так, правілы беларускай арфаграфіі не такія простыя для
алгарытмізацыі. Тым не менш, выкарыстанне набору суфіксаў для
азначэння мадэляў - гэта ўжо прагрэс. Так, заўсёды будуць выключэнні і
месцы, якія цяжка паддаюцца фармалізацыі, але нам з гэтым жыць.
Хочацца прасцей - англійская пад бокам. :)

Ігар

Yury Tarasievich

unread,

Oct 22, 2010, 11:18:50 AM10/22/10

to Belarusian i18n list

Вось каб вы зрабілі нейкую метрыку: скажам,
версія А ўтрымлівае матэрыял ТСБМ адсюль і дасюль.

On 10/22/2010 12:03 PM, Mikalai Udodau wrote:
...

> Так што, можна сабраць, для прыкладу, слоўнік з
> словазборам, які на 99 і болей % будзе складзены з
> загаловачных слоў з ТСБЛМ-05 (я спрабаваў - не скажу, каб
> гэта мела практычную цікавасць). З другога боку, для сваіх
> мэт я маю частку з абсцэннай лексікай, яе я не публікаваў і
> наўрад ці буду.

...

Першая мера практычнай прыдатнасці праграмы
такога класу -- вядомасць яе нарматыўнай базы і
гарантаванасць адпаведнасці.
Тут не патрэбная ані "мяшанка правапісаў", ані
"аўтарскае меркаванне".

Выкананне той першай меры і ёсць прычына таго,
што ваш модуль на галаву вышэй рэшты сцэны
(хоць, можа, (яшчэ) і не "ловіць каня").

> Словы "спадар" і "спадарства" у ТСБЛМ-05 ёсць. Аднак, няма
"медыцына", "кружка", "бурштын" і г.д. - можаце
глянуць у
частку abl.

Каб мець "увесь фонд", трэба (як мы некалі
гаварылі) глядзець у 5-томнік. ТСБМ-2005 гэта
пашыраны апдэйт, але і звужэнне таксама.

Ihar Hrachyshka

unread,

Oct 22, 2010, 11:21:30 AM10/22/10

to Belarusian i18n list

2010/10/22 Yury Tarasievich <yury.tar...@gmail.com>:

> Каб мець "увесь фонд", трэба (як мы некалі гаварылі) глядзець у 5-томнік.
> ТСБМ-2005 гэта пашыраны апдэйт, але і звужэнне таксама.

Дарэчы, ТСБМ ёсць у (кепска) распазнанай форме. У прынцыпе, спіс
словаў адтуль узяць можна. Цяжэй для кожнай адзінкі падабраць
патрэбныя мадэлі.

Yury Tarasievich

unread,

Oct 22, 2010, 11:30:28 AM10/22/10

to Belarusian i18n list

On 10/22/2010 06:21 PM, Ihar Hrachyshka wrote:
> 2010/10/22 Yury Tarasievich<yury.tar...@gmail.com>:
>> Каб мець "увесь фонд", трэба (як мы некалі гаварылі) глядзець у 5-томнік.
>> ТСБМ-2005 гэта пашыраны апдэйт, але і звужэнне таксама.
>
> Дарэчы, ТСБМ ёсць у (кепска) распазнанай форме. У прынцыпе, спіс
> словаў адтуль узяць можна. Цяжэй для кожнай адзінкі падабраць
> патрэбныя мадэлі.

Менавіта. Асноўная праца тут не распазнанне і не
спіс словаў. Трэсці (цюкаць) усё адно трэба.

З той самай прычыны модуль *spell не дапамога ў
пытанні задуманай чысткі тэрміналогіі (з
выняткам памылак, вядома).

Ю.Т.

Mikalai Udodau

unread,

Oct 22, 2010, 12:36:50 PM10/22/10

to i1...@mova.org

On Fri, 22 Oct 2010 18:05:11 +0300
Ihar Hrachyshka <ihar.hr...@gmail.com> wrote:

<snip>

>
> Так, правілы беларускай арфаграфіі не такія простыя для
> алгарытмізацыі. Тым не менш, выкарыстанне набору суфіксаў для
> азначэння мадэляў - гэта ўжо прагрэс. Так, заўсёды будуць выключэнні і
> месцы, якія цяжка паддаюцца фармалізацыі, але нам з гэтым жыць.
> Хочацца прасцей - англійская пад бокам. :)

Вось вы кажаце, што *spell-ы разлічаны на англійскую мову,
і скланяеце каня. Ідэальнае адзінства меркаванняў...

І толькі аднаго мяне здзіўляе, што дзеяслоў "go" заўсёды
went у слоўнікі як мінімум дзвюма формамі.

>
> Ігар
> _______________________________________________
> I18n mailing list
> I1...@mova.org
> http://mova.org/cgi-bin/mailman/listinfo/i18n

--

З найлепшымі,
Мікалай Удодаў <cro...@tut.by>

_______________________________________________

375gnu

unread,

Oct 22, 2010, 12:37:33 PM10/22/10

to Belarusian i18n list

On 10/22/10, Ihar Hrachyshka <ihar.hr...@gmail.com> wrote:
> 2010/10/22 375gnu <375...@gmail.com>:

>>>> Пэўна, нам давядзецца рабіць як зрабілі туркі — пісаць асобнуюю
>>>> праграму праверкі правапісу.
>>> Вы б хоць паглядзелі, як яно знутры працуе, першы чым такое казаць...
>> Усе гэтыя *spell нічым _прынчыпова_ не адрозьніваюцца ад старога
>> добрага ispell, зь якім я меў магчымасьць пазнаёміцца.
> Ужо адказалі, што ispell не падтрымлівае столькі мадэляў скланення,
> колькі трэба для алгарытмізацыі генерацыі словаформаў.

Ты разумееш, што значыць слова «прынцыпова»?

--
http://375gnu.wordpress.com

Mikalai Udodau

unread,

Oct 25, 2010, 11:46:55 AM10/25/10

to i1...@mova.org

On Fri, 22 Oct 2010 18:18:50 +0300
Yury Tarasievich <yury.tar...@gmail.com> wrote:

> Вось каб вы зрабілі нейкую метрыку: скажам,
> версія А ўтрымлівае матэрыял ТСБМ адсюль і дасюль.

Як я ўжо казаў, паводле ТСБЛМ-05 я раблю наступныя часткі:

dzeeprym.dic
dzejasl1.dic
dzejasl2.dic
lich.dic
naz1.dic
naz2.dic
naz3.dic
naz.dic
prym.dic
pryst.dic
zajm.dic

У бягучы момант (25.10.2010) словы з гэтых частак, якія
пачынаюцца на літары а б в г д е ё ж з і к о у э ю я
(г.зн., усе галосныя, потым зычныя ад пачатку да к
уключна), за выключэннем тых памылак, пра якія я яшчэ не
ведаю (але не магу гарантаваць іх адсутнасць), цалкам
адпавядаюць матэрыялу ТСБЛМ-05.

Нажаль, я не магу сказаць так пра часткі chasc, pryn,
zluch, vykl, хоць і не бачу прычын, каб там было шмат
такога, чаго няма ў ТСБМ. Проста не правяраў.

Прыблізная ацэнка ў 99,9% адпаведнасці заснавана на тым,
што прыблізна адно з тысячы слоў (дададзеных раней, да
таго, як я пачаў працаваць з ТСБЛМ-05) прыходзілася
выкідаць ці пераносіць у другія часткі.

--
З найлепшымі,
Мікалай Удодаў <cro...@tut.by>

_______________________________________________

Reply all

Reply to author

Forward