Ёфикатор

80 views
Skip to first unread message

ivan sv

unread,
Dec 16, 2013, 10:55:35 PM12/16/13
to ru-fb...@googlegroups.com
Пара глюков: ошибочно ставит ё в бубен (музыкальный инструмент), выходит бубён (масть); и суете => суёте — что вспомнилось. (Без компилирования и прочей ереси, можно словарь ёфикатора поправить в текстовом редакторе?)
Собственно, желателен инструмент для ручной обработки или хотя бы нахождение этих омографов (ёмографов?) по словарю. Если о все=>всё и нем=>нём, ещё вспоминаю, то с остальным сложнее.

Вадим Кузнецов

unread,
Dec 17, 2013, 12:33:24 PM12/17/13
to ru-fb...@googlegroups.com
Словарь -  в обычном txt файле внутри расширения. Править можно легко.
Я исправлю те слова, что вы указали...
Но есть слова, которые можно интерпретировать и так, и так: суета <-> суёте и так далее. Сложно предугадать без лексического и грамматического  разбора текста, какой контекст и соответственно - какое слово требуется. А для такого разбора нужны мощные алгоритмы, которые офис не вытянет...

С уважением, Вадим

17 дек. 2013 г., в 7:55, ivan sv <mapp...@gmail.com> написал(а):

Пара глюков: ошибочно ставит ё в бубен (музыкальный инструмент), выходит бубён (масть); и суете => суёте — что вспомнилось. (Без компилирования и прочей ереси, можно словарь ёфикатора поправить в текстовом редакторе?)
Собственно, желателен инструмент для ручной обработки или хотя бы нахождение этих омографов (ёмографов?) по словарю. Если о все=>всё и нем=>нём, ещё вспоминаю, то с остальным сложнее.

--
Вы получили это сообщение, поскольку подписаны на группу FBTools.org (Russian).
 
Чтобы отказаться от подписки на эту группу и перестать получать из нее сообщения, отправьте электронное письмо на адрес ru-fbtools+...@googlegroups.com.
Чтобы добавлять сообщения в эту группу, отправьте письмо по адресу ru-fb...@googlegroups.com.
Перейдите в группу по ссылке http://groups.google.com/group/ru-fbtools.
Настройки подписки и доставки писем: https://groups.google.com/groups/opt_out.

black...@yandex.ru

unread,
Dec 20, 2013, 4:29:03 AM12/20/13
to ru-fb...@googlegroups.com
Целесообразность _автоматической_ простановки смысловых акцентов (выбора варианта написания из нескольких возможных) сродни научению компьютера игре в шахматы (в принципе можно, но сложно, долго, и приницпиально возможно только начиная с определённого уровня развития техники).
В данном случае предпочтительным считаю вариант дополнения автоматических обработчиков интерактивными.
Применительно к данному примеру: чтобы ёфикатор, встретив слово, которое можно интерпретировать и как подлежащее обработке, и как не подлежащее; не пытался угадать правильный вариант, а явно запрашивал выбор у пользователя.
Таких вариантов (неоднозначного толкования) много не бывает, поэтому можно и спросить.

Вадим Кузнецов

unread,
Dec 20, 2013, 10:06:44 AM12/20/13
to ru-fb...@googlegroups.com
Согласен, ваша идея была бы оптимальной. Займусь ее...
Но надо будет перелопатить сотни тысяч слов на предмет выявления двузначности - а это сложно... И долго... Я пока внесу в этот список те слова, которые вы указали. Потом по ходу можно всегда будет расширять этот список.
Если вы найдете еще такие слова из  ё-словаря (txt файл находится внутри расширения), то напишите.

С уважением, Вадим

20 дек. 2013 г., в 13:29, black...@yandex.ru написал(а):

black...@yandex.ru

unread,
Dec 24, 2013, 2:31:45 AM12/24/13
to ru-fb...@googlegroups.com
On Friday, December 20, 2013 7:06:44 PM UTC+4, DikBSD wrote:
Но надо будет перелопатить сотни тысяч слов на предмет выявления двузначности - а это сложно... И долго... Я пока внесу в этот список те слова, которые вы указали. Потом по ходу можно всегда будет расширять этот список.
???
Не стоит валить в одну кучу логику (программную реализацию) и составление претендующего на достаточную полноту словаря.
Для проработки логики приведённых примеров достаточно.

Упираться же в составление _словаря_ полагаю вообще нецелесообразным.
Оптимальным решением здесь ИМХО будет иметь в виду эту задачу в процессе чтения и/или работы над текстами.
 
Если вы найдете еще такие слова из  ё-словаря (txt файл находится внутри расширения), то напишите.
А для ревизии существующих файлов (склонен полагать пропуск части слов по рассматриваемому критерию) можно пригласить товарищей гуманитариев.

ЗЫ: Из банально-очевидного: все/всё.

Вадим Кузнецов

unread,
Dec 24, 2013, 7:11:19 AM12/24/13
to ru-fb...@googlegroups.com

24 дек. 2013 г., в 11:31, black...@yandex.ru написал(а):
???
Не стоит валить в одну кучу логику (программную реализацию) и составление претендующего на достаточную полноту словаря.
Не совсем понял слова про логику и программную реализацию. Сейчас ёфикатор перебирает слова из ё-словаря, и ищет их соответствие в тексте. Словарь составлен не мной.

Для проработки логики приведённых примеров достаточно.
Боюсь, что нет. С "отелем" и "отёлом" все ясно, но программа не может знать, какие слова пользователь захочет ёфицировать, а какие - нет. Тогда придется для всех слов в словаре и для каждого найденного соответствия в тексте делать интерактивный запрос - что делать - оставить или ёфицировать? Это не выход. Или другой подход - составить словарь со словами двойственного значения (могут быть с "ё" и "е", и уже только по ним делать интерактивный запрос.
Если так-то по-другому, то я пока не могу уловить суть подхода...


Упираться же в составление _словаря_ полагаю вообще нецелесообразным.
Оптимальным решением здесь ИМХО будет иметь в виду эту задачу в процессе чтения и/или работы над текстами.
 
Если вы найдете еще такие слова из  ё-словаря (txt файл находится внутри расширения), то напишите.
А для ревизии существующих файлов (склонен полагать пропуск части слов по рассматриваемому критерию) можно пригласить товарищей гуманитариев.
Найти бы таких...

black...@yandex.ru

unread,
Dec 25, 2013, 12:13:04 AM12/25/13
to ru-fb...@googlegroups.com
Для проработки логики приведённых примеров достаточно.
Боюсь, что нет. С "отелем" и "отёлом" все ясно, но программа не может знать, какие слова пользователь захочет ёфицировать, а какие - нет. Тогда придется для всех слов в словаре и для каждого найденного соответствия в тексте делать интерактивный запрос - что делать - оставить или ёфицировать? Это не выход. Или другой подход - составить словарь со словами двойственного значения (могут быть с "ё" и "е", и уже только по ним делать интерактивный запрос.
Если так-то по-другому, то я пока не могу уловить суть подхода...
Мне казалось, что идея озвучена и понята…
Что словарь для ёфикации в нулевом приближении заимствован — самоочевидно.
Но пора его и это самое… натурализировать в проекте.
Полагаю необходимым разбить его на два или три файла:
1. Слова, подлежащие ёфикации безусловно и однозначно.
2. Возможный вариант: слова, которые _можно_ (но не обязательно) ёфицировать автоматически, для фанатов буквы 'ё'.
3. Слова, меняющие смысл (и имеющие варианты прочтения) как с буквой 'ё', так и без неё. Для отработки этой категории необходимо спрашивать пользователя.
 
Если вы найдете еще такие слова из  ё-словаря (txt файл находится внутри расширения), то напишите.
А для ревизии существующих файлов (склонен полагать пропуск части слов по рассматриваемому критерию) можно пригласить товарищей гуманитариев.
Найти бы таких...
Пожалуй, есть варианты. Посмотрю что можно сделать.

Вадим Кузнецов

unread,
Dec 25, 2013, 12:47:51 PM12/25/13
to ru-fb...@googlegroups.com

Мне казалось, что идея озвучена и понята…
Что словарь для ёфикации в нулевом приближении заимствован — самоочевидно.
Но пора его и это самое… натурализировать в проекте.
Полагаю необходимым разбить его на два или три файла:
1. Слова, подлежащие ёфикации безусловно и однозначно.
2. Возможный вариант: слова, которые _можно_ (но не обязательно) ёфицировать автоматически, для фанатов буквы 'ё'.
3. Слова, меняющие смысл (и имеющие варианты прочтения) как с буквой 'ё', так и без неё. Для отработки этой категории необходимо спрашивать пользователя.
 
Видимо мы говорили об одном и том же, но разными словами :-).
Я тоже самое имел в виду, только первоначально думал не разбивать словарь на несколько, а в нем самом делать пометки "проблемных" слов.  Но идея с отдельными файлами намного лучше в плане реализации поиска...

Пожалуй, есть варианты. Посмотрю что можно сделать.
Спасибо.

Reply all
Reply to author
Forward
0 new messages