Еще выяснил, что используется не последняя версия. Последнюю версию
(два варианта, без поддержки буквы "ё" и с поддержкой) можно взять
тут: http://scon155.phys.msu.ru/~swan/orthography.html
Еще выяснил, что файл генерации окончаний (aff) сделан несколько по-
другому, чем это использует Лебедев. Попутно убедился, что в этом
файле есть неточности (по сравнению с последней версией aff от того же
Лебедева. Вопрос: это самостоятельная переделка файла или был найден
какой-то другой вариант? Если самостоятельная, то готов предоставить
поправленный aff, убрав все неточности. Если нет, то другой вопрос:
нельзя ли использовать файл Лебедева, что по многим причинам было бы
лучше. В лебедевском варианте присутствуют совершенно необходимые
пояснения, без которых вообще непонятно, как самостоятельно дополнять
словарь.
Ну и вообще готов взять дополнение словаря (аккуратное, с гарантией,
что все будет правильно с точки зрения правил русского языка) на себя.
С моей точки зрения было бы очень и очень неплохо организовать работу
со словарями следующим образом:
1. Переделать словообразование в соответствии с файлом aff Лебедева. В
этом случае можно просто брать готовое с его сайта, ни о чем не
заморачиваясь.
2. Сделать возможность подключения нескольких словарей русского языка:
по выбору (радиокнопка) - поддержка "ё" или без поддержки плюс
собственный словарь FBE, сделанный по тому же принципу, что и словарь
Лебедева (именно этот словарь я и могу заполнять, чтобы не портить
оригинал).
3. Сделать еще один словарь со словами через дефис - и вести его
отдельно.
По многим причинам словарь custom.dic для этих целей не годится. Хотя
бы потому, что слово оттуда берется "как есть", без возможности
генерации словоформ.
1. В файле aff есть строки такого вида: SFX L Y 52, где L - это
мнемоника генерации окончаний, что такое Y, я не понял, а 52 - это
количество строк с мнемоникой генерации окончаний. Это обязательная
строка? Можно ли обойтись без нее? Если нельзя, критично ли правильное
число строк?
2. Кодировка KOI-8R - это тоже что-то сакральное? Перейти к 1251
сложно ли, долго ли? Наверное, вопрос этот совсем пустой, однако
просто не понял, отчего именно такая вот кодировка.
Т.е. эта частица ведет себя как дополнительное окончание (аффикс)
после окончания какой-либо словоформы.
Потому ждать большого эффекта от словаря не стоит. Разве что убить
подчеркивания на наиболее часто встречающиеся формы: кое-кто, кое-что,
кое-кому и т.д.
On Aug 16, 1:46 pm, Александр Клюквин aka Shaman
О©╫ О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫О©╫, О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫рёО©╫ О©╫О©╫О©╫О©╫О©╫О©╫О©╫?
О©╫О©╫О©╫О©╫ О©╫О©╫, О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫, О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫
О©╫ О©╫О©╫О©╫О©╫О©╫, О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫ О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫ (О©╫.О©╫О©╫О©╫О©╫О©╫О©╫. О©╫О©╫О©╫О©╫О©╫О©╫О©╫
О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫. О©╫.7. 1927 О©╫.):
-------------------------------------------------------------
О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫. (О©╫ О©╫О©╫О©╫О©╫О©╫О©╫: "О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫О©╫".)
О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫. (О©╫О©╫О©╫О©╫О©╫О©╫, О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫ "О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫".)
О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫. (О©╫ О©╫О©╫О©╫О©╫О©╫О©╫: "О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫".)
О©╫О©╫О©╫О©╫О©╫ (О©╫ О©╫О©╫О©╫О©╫О©╫О©╫: "О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫" -- О©╫ О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫)
О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫
-------------------------------------------------------------
О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫, О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫ О©╫О©╫О©╫ - О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫, О©╫О©╫О©╫О©╫. "О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫"
О©╫О©╫О©╫ "О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫". О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫.
О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫ О©╫щё О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫ О©╫О©╫О©╫ О©╫О©╫О©╫О©╫О©╫О©╫О©╫?
О©╫О©╫О©╫О©╫О©╫
--
<vadi...@gmail.com>
Что же до affinity, то нужно "курить" маны к aspell. Дело там
опенсорцовое, код "мессовый", так что все может быть. Одно могу
посоветовать - экспериментировать :)
On Aug 16, 5:46 am, Александр Клюквин aka Shaman
1. Переделан файл ru-RU.aff в соответствии с последней версией
Лебедева. Изменений не очень много, но существенные. Например, убраны
конструкции SFX V еваться уюсь [жшщчц]еваться, SFX V еваться уешься
[жшщчц]еваться, SFX V еваться уетесь [жшщчц]еваться, SFX V еваться
уется [жшщчц]еваться. Полный список изменений в файле report_aff.html.
2. Словарь Лебедева выложен "как есть", без добавок. Для
сомневающихся. Изменений очень много, много добавлено, убраны ошибки
(понятно, что далеко не все), было 128905 слов, стало 138262 слов.
Полный список изменений в файле report_dic.html
Брать тут: http://slil.ru/29575518
Набрал некую статистику по словам с дефисом. Обработал. В результате
получилось весьма и весьма неровно, но, мне кажется, для работы вполне
пригодно. Включены неизменяемые слова иностранного происхождения (буги-
вуги, ва-банк, воленс-ноленс и т.д.), включены усиления (ближе-дальше,
более-менее, волей-неволей и т.д.), перечисления (во-первых, во-вторых
и т.д. до в-десятых), звукоподражания (гав-гав, мяу-мяу и т.д.),
сформированы конструкции с -то, -либо, -нибудь (далеко не все,
понятное дело, даже, наверное, не все широко распространенные, но хоть
что-то), очень ограниченно добавлены слова с по- (по-видимому, по-
всякому, вообще старался брать либо широко употребимое, например, с
местоимениями, либо наречия, т.е. неизменяемые части слов).
Всего добавлено 384 слова.
Все добавки вставил в конец словаря Лебедева. Считаю, так проще будет
вести. Попробовал повставлять в сквозном алфавитном порядке, однако,
оказалось, что это дело долгое, да и изменения вносить тоже потом
будет утомительно.
Полный список изменений в файле report_defis.html
Брать тут: http://slil.ru/29575668
On 18 авг, 15:39, Александр Клюквин aka Shaman
Не очень понятно, поддерживать ли словарь с буквой "ё". С одной
стороны - как бы да, надо. С другой - там совсем другой словарь.
Другой файл аффиксов. Работы увеличится не в два раза. А кто и зачем
будет пользоваться? И нужны ли многочисленные подсветки синтаксиса в
книгах, где буквы ё нет как класса? Считаю, нужно обсудить.
Продолжаю считать добавление в основной словарь собственных слов
методически неверным. Внесутся ошибки, потом расползутся. Нехорошо.
Словарь - дело такое. Деликатное. Однако не добавлять тоже нельзя. В
исходном словаре далеко не все нужное. Может, таки можно будет как-
нибудь организовать работу с двумя словарями? Работает же FBE с
одновременно русским и английским словарями? Или он не с двумя
работает, а со всеми, что предлагаются? Быть может, тогда какой-то из
словарей заменить? Ну, не навсегда, но в ридми упомянуть, что можно
убрать любой из ненужных, а предлагаемые добавки положить под
определенным именем.
Считаю, что вопрос тоже на обсуждение.
On 18 авг, 16:21, Александр Клюквин aka Shaman
P.S. Давайте не будем "делать из еды культа", то-бишь слишком
усложнять проверку :)
On Aug 18, 8:32 am, Александр Клюквин aka Shaman
Давай тогда и ничего добавлять не буду, а буду вести один словарь. В
общем, правильнее, конечно, вести словарь как раз с "ё", попутно
ёфицируя текст. Наверное, правильнее. Однако сильно сомневаюсь, что
кто-нибудь будет настолько плотно работать с текстом. Меня, например,
при всей занудности и усидчивости, такая тема достала бы исключительно
быстро.
On Aug 18, 9:16 am, Александр Клюквин aka Shaman
Нужна какая-то версия? Если да, имеет смысл договориться о правилах
нумерации версии.
Может, есть площадка, где можно хранить словарь? Сайт, к примеру, фтп.
Файлообменники всех устраивают?
On Aug 19, 5:07 am, Александр Клюквин aka Shaman
Определился с тем, как и каким образом будут обновления, как вообще
будет выглядеть словарь.
Сортировка пойдет сквозная, невзирая на строчные/прописные. Как
следствие, все новые слова будут отсортированы в алфавитном порядке, а
не присутствовать в конце словаря.
Также будут добавлены недостающие мнемоники в слова, уже бывшие в
словаре Лебедева. Каждая мнемоника, каждое слово проверяется, с сайтом
gramota.ru сверяюсь постоянно (другое дело, что там тоже есть далеко
не все, особенно просторечные формы, а также большинство уменьшительно-
ласкательных или прочих форм).
Обновления буду выкладывать примерно раз в месяц.
Обновления всегда будут на страничке загрузки FBE.
В архиве со словарем всегда будут два файла: ru_RU.aff (файл генерации
окончаний) и ru_RU.dic (собственно словарь).
Если (если) надо, могу класть третий файл - результат сравнения с
предыдущей версией. Типа ответа на вопрос "что нового". Но большого
смысла не вижу и желания не имею: при необходимости каждый сам может
проделать эту работу.
On Aug 23, 5:44 pm, Александр Клюквин aka Shaman
В общем и целом, я никто и звать меня никак. Я уверен, что все, что
делаю, я делаю правильно. Никого больше не буду заставлять верить, не
верить, доверять, не доверять и тому подобное. Нужен словарь?
Пользуемся. Не нужен? Не вопрос. Нашли ошибку? Пишите, исправим.
Кажется, что нашли? Давайте поищем и подумаем, может, и не ошибка,
может, форма законная, только малоупотребимая. А бывает, что слова как
бы и нету, но если бы было, то писалось бы оно именно так, как
предлагается.
Из своей работы, из технологии ее, я тайны не делаю. Можно взять все
то же самое, что в свое время взял я, и построить словоформы так, как
строю я. Я могу, кстати, подробно объяснить и разъяснить, что и как
делаю, почему те, а не другие мнемоники и откуда они взялись. Где-то
так.
On Aug 23, 7:33 pm, Александр Клюквин aka Shaman
По-моему, надо просто включить. Будут отзывы и нарекания - будут
правки. А иначе словарем никто пользоваться не будет вообще.
Изменения в основном из-за суффиксов и/или приставок. В основном. Но
не во всем. Есть и изменения в тех словах, что уже были в словаре,
добавлены новые морфемы. К примеру, добавлялись сравнительные или
краткие формы прилагательных. По глаголам много добавок в словоформах,
в основном деепричастия.
Добавления в словарь я делаю каждый день, после чего проверяю книги
заново. Это на предмет тестирования.
Если (если) у кого-то возникает потребность что-то внести, можно
отписать сюда.
On 2 сен, 14:02, Александр Клюквин aka Shaman
<alexander.kluk...@gmail.com> wrote:
> Выложил релиз словаря от 1 сентября 2010 года.
> Было 138754 записи, стало 138957, т.е. 203 новых записи.
Shaman ,
большое СПАСИБО за вашу работу!! Скачал, поставил будк тестить
сегодня..
Самое важное, что сделано (и самое опасное, кстати) - я полез в файл
aff.
Выяснилось несколько неприятных вещей.
Во-первых, файл aff не просто не полный, это как раз нормально, не все
можно описать по правилам. Оказывается, он сделан не настолько логично
и структурированно, как это казалось до сих пор. Там есть куда расти,
там есть что менять.
Во-вторых, если менять, то что и как. Соображений два. Первое: менять
надо в рамках и по рельсам, проложенным создателем словаря с тем,
чтобы пользоваться дальнейшей его работой. Второе: надо аккуратно и
медленно, но неуклонно делать файл aff логичнее и структурированнее,
что в конечном итоге просто приведет к собственной версии, ни на что
больше не похожей. Заодно эти два соображения привели к простой мысли:
а что вообще за словарь нужен, если пользоваться им для проверки
литературных произведений? Какие слова там должны быть, а какие - нет?
Не могу сказать, что я от и до ответил на эти вопросы. Но примерное
направление ответов для себя я уяснил. Словарь, который требуется для
проверки слов в литературе, прежде всего носит вспомогательный
характер. Т.е. это не толковый словарь, где не должно быть
новообразований, сленга, технического сленга и т.п. Это не словарь для
составления деловых бумаг, там своя лексика. Это словарь, в котором,
безусловно, должно быть все то, что и в вышеперечисленных, но кроме
этого там должны быть результаты словотворчества авторов, естественно,
в определенных рамках. И толковать наличие определенных словоформ
нужно скорее разрешительно, чем запретительно. Т.е. если есть слово,
которое не встречалось раньше, но образованное по всем правилам, то
нужно включать все его словоформы, если, опять-таки, они соответствуют
духу и правилам языка. Отсюда, кстати, вывод: тот словарь, который я
веду, уже не годится для проверки офисных документов. В нем уже
сделано так и то, что позволит пропустить неупотребляющиеся, но при
этом могущие быть законными формы тех или иных слов. В качестве
примера можно привести любое слово с приставкой, например, "супер-". В
словарях толковых, или словарях для офисных программ, не будет слов
"супермозг", "суперсобытие", "суперпобеда", однако слова-то вполне
правильно образованы, нормально склоняются, да и вообще, не выглядят
чужеродными. Значит, их надо включать.
Еще один момент, который меня, собственно, и заставил в первый раз
дописать правила словообразований в файл aff - это фамилии. Надо ли
включать в словарь фамилии - это вопрос тонкий. Каждый раз открытый, и
каждый раз спорный. Но опять-таки, раз словарь нужен для проверки, а
фамилии в тексте регулярно встречаются, то почему нет?
С точки зрения склонений фамилия ведет себя не как имя
существительное, а как имя прилагательное. Я полагал, что вполне
обойдусь правилами для прилагательных. Но оказалось, что правила для
прилагательных кроме правильных форм генерят еще несколько совсем
дурацких. Потому я включил правила для фамилий в тот флаг, где кое-что
уже было сделано, но не до конца. Почему-то в исходном файле aff в
одном флаге были правила для склонения мужских фамилий на -ов-, -ев-, -
ин-, -ын-, -ой-, -ий-, -ый- в единственном числе, а в другом - женских
тоже в единственном числе. На мой взгляд это неправильно. Фамилии -
это как раз то, что гарантированно существует во множественном числе.
Я сделал в одном флаге так, чтобы из мужской фамилии образовывалась и
женская, а также множественное число со всеми склонениями: Толстой,
Толстого, Толстому, Толстым, Толстом, Толстая, Толстой, Толстые,
Толстым, Толстых, Толстыми. Естественно, в словарь теперь будут
добавляться все фамилии, что встретятся мне в тексте. Повторюсь:
вопрос о правильности самого факта добавления всегда открыт. Мне
кажется, во всяком случае сейчас, что русские фамилии, даже с корнями
из других языков, но давно обрусевшие (например, Юсупов), вполне
заслуживают быть включенными в словарь. Другое дело - фамилии
иностранного происхождения, не обрусевшие. Тут вопрос совсем другой. И
делится он на два. Первая часть: фамилии известные, давно употребимые
в русских письменных источниках, и главное, написание их давно
устоялось, пусть даже оно неправильное с точки зрения произношения на
исходном языке - Герц, Ньютон, Шекспир, Паскаль и т.д. Эти фамилии
склоняются по правилам склонения обычных существительных, правила для
которых давно известны и описаны, и включение их в словарь вполне
возможно безо всяких сложностей. Совсем другое дело - это фамилии
неизвестные, фамилии придуманных автором героев. Эти фамилии я решил
не включать в словарь вообще, они у меня хранятся в custom.dic. Я уже,
кстати, молчу о том, что в разных переводах одни и те же иностранные
фамилии и написаны-то по-разному, далеко не всегда понятно, что это
одно и то же лицо. Классика жанра: Ватсон и Уотсон.
Еще один интересный момент: топонимы. К ним я вообще не приступал, с
ними, даже русскими, вопрос тоже тонкий. Например, топоним "Иваново".
Вполне такой родной, давно существующий. Главная тонкость: склоняется
ли такой топоним или нет? Почитал на эту тему и выяснилось, что есть
две традиции. Первая: топонимы склоняются. "Побывал в Иванове",
"выехал из Иванова". Эта традиция старинная, зафиксирована практически
во всех письменных источниках века с тринадцатого, а то еще и раньше.
Ну и классик сказал: "Недаром помнит вся Россия про день Бородина", а
русский язык Лермонтов знал, как мало кто другой. Вторая традиция: не
склоняются. Иваново - и точка. Образовываться эта традиция начала с
момента массовой грамотности в армии и инженерно-строительных
учреждениях. Т.е. с конца 19 века, но получила сильное распространение
в 30-х годах двадцатого века. Связана традиция с тем, что
принципиально важно не перепутать название населенного пункта или реки
(высоты, горы, местности вообще), для чего и были придуманы
специальные ограничения. В результате сейчас имеем два лагеря, одних
коробит, когда топоним склоняется, других коробит, что не склоняется
ни в коем случае. В общем, я решил, что топонимы склонять будем, но
пока в словарь их в массовом порядке не включал. Собственно, так
получилось, что включать было нечего.
А уж иностранные топонимы - это вообще отдельная тема. Не могут даже
договориться, как их написать. Лонг Айленд, Лонг-Айленд - уже два
варианта. Лос-Анжелес, Лос-Анджелес - тоже два. Новый Орлеан или Нью-
Орлеан, а то и Нью Орлеан. Иностранные топонимы, считаю, не надо
включать в словарь, их место тоже в словаре custom.dic.
Еще один вопрос, за который я зацепился - это образование окончаний
некоторых падежей во множественном числе. Как оказалось, в файле aff
пропущены целые падежи для некоторого класса слов. Например,
существительные с окончанием на -о- во множественном числе родительном
падеже дают целый букет окончаний. Слово "колечко" дает форму
"колечек", а слово "очко" - "очков". В результате слова на -о- в
родительном падеже множественного числа были просто занесены как
отдельное слово. Я посчитал это безобразием, потратил неделю, но
описал полностью правила. И вынес словоформы, которые уже не нужны,
которые образуются автоматически. Т.е. словарь в этом месяце не только
рос, но и худел, пусть и незначительно.
В общем, если вернуться к вопросу, в каком же направлении развивать
aff, то предлагаю устроить дискуссию. Есть аргументы как за
переписывание (не полностью, но значительное), так и против.
Как-то так.
Насчёт словообразования - очень важно. Не только "супер", но и "мини",
и "пол" (пол-улицы, поллитра), и т.д.
Насчёт фамилий, мне кажется, следует ограничиться общеизвестными, в
том числе и иностранными. Не могу сейчас навскидку привести пример, но
из личного опыта знаю, что есть фамилии, ударение в которых стоит
таким образом, что склонение отличается от канонической формы.
С топонимами я тоже не могу прийти к единому решению: с одной стороны,
традиции, с другой стороны - "я живу в Иваново" звучит для меня
гармоничнее, чем "Я живу в Иванове".
Иностранные топонимы (по крайней мере, самые известные) я бы включила
во всех известных формах. Ибо я оставляю ту форму, которая
употребляется в печатном издании (и не только топонимы: классический
пример - "сэндвич" и "сандвич").
Под раздачу попал Пелевин, потому в словаре завелась ненормативная
лексика. Кто противник - отпишитесь, вопрос тонкий. Я сторонник как
раз наполнения словаря всеми используемыми словами, за исключением
нарочитых неправильностей (слово "залазь", к примеру) и терминами,
придуманными автором, такие термины никак нельзя будет назвать широко
употребимыми.
В течение месяца провел большую подготовительную работу. Прочел труд
Зализняка "Русское именное словоизменение", проникся. Принял решение о
переписывании файла аффиксов, медленно, осторожно и аккуратно.
Действительно, словарь в нынешнем виде стал применим только для
проверки литературных текстов, его уже никуда не приткнуть. Вернее,
технически его можно приткнуть всюду, где используется ханспелл (в
составе Файрфокс, к примеру, или в ОО), но фактически там не офисная
лексика. Далеко не. Потому считаю, что этот словарь нужно затачивать
под себя.
К тому же много прочел всякого вообще про ханспелл, и тоже проникся.
Ханспелл умеет гораздо больше, чем испелл, в частности, там одних
только цифровых правил можно наваять больше 65000. Значит, можно
описать каждое слово, будь оно десять раз нестандартно. Плюс достала
ситуация с приставками. Основа описана, значит, надо описать приставки
и привязать их описание к основе - и все. А сейчас при малейшем чихе
надо описывать все основы заново. Кто-нибудь знает толковые труды по
приставкам в русском языке? Я бы поизучал.
В этот раз я закончил большую, если не сказать - огромную,
двухмесячную работу. Была поставлена задача: описать правила для
существительных на -а и -я мужского и женского рода (т.е. не включая
слова среднего рода типа "время", "семя" и т.д., а также числительных
типа "два" и т.д. и местоимений типа "я", "она" и т.д., ну и
существительных, произошедших от прилагательных типа "нищая",
"больная" и т.д.).
По мере работы много раз менялась концепция: как и какими должны быть
правила. От первоначальных восьмидесяти с лишним таких правил я в
итоге получил всего семь. Что хорошо: в них хотя бы можно
ориентироваться, пусть уже с трудом, ведь у Лебедева было всего одно.
Однако с этим одним жить дальше, считаю, было бы совершенно,
категорически неправильным. Дело в том, что есть фактор, который
невозможно никак описать, никакими знаками - это ударение. Слова,
которые пишутся практически одинаково, имеют разные окончания в
творительном падеже единственного числа только потому, что имеют
разные ударения. Пример: слова "туша" и "душа". В первом случае -
"тушей" ("тушею"), во втором - "душой" ("душою"). Так вот. В словаре
Лебедева было указание: все слова на "[жцчшщ]а" (т.е. слова на шипящие
и букву "ц") генерить с окончанием "-ей" ("-ею"). Ну и были напрямую
вписаны словоформы с правильным окончанием. Можно проверить: на старом
словаре ввести в FBE слово "душей" - оно не пометится как
неправильное. Вот это-то безобразие я и устранил.
Есть еще один мерзкий в плане окончаний падеж - это родительный
множественного числа. Там вообще адское разнообразие, правда, и
закономерности есть.
В общем, я описал все. Все проверил. Вынес все лишние словоформы
(вернее, ставшие лишними, так как теперь все генерится автоматом).
Вынесенных словоформ было несколько сотен.
Наверное (наверняка) ошибки есть. Их не может не быть. Но я не
заметил. Потому прошу всех, кто пользуется словарем, отписать, что и
как было замечено неправильного.
И еще. Я напал на хороший вариант словаря Зализняка. Собственно, если
бы не он, я не знаю вообще, как бы я справился (и когда бы справился).
Все, что я делал, я проверял именно по словарю Зализняка, причем не
вручную, а нашел способ сгенерить словоформы и подпихнуть в качестве
опорного словаря в FBE. Ну а то, что генерилось моими правилами, я
копировал как текст и уже проверял, все ли правильно, ничего ли не
стреляет.
Все слова, что нашлись в словаре Зализняка и не нашлись в словаре
Лебедева, были добавлены. Естественно, подпадающие под выбор:
существительные на -а и -я с перечисленными выше ограничениями.
Было записей: 140500
Стало записей: 143583
Новых: 3083
Новый релиз выложен как экспериментальный, старый еще месяц будет
доступен для скачивания. Ну так. На всякий пожарный. Скачивать прошу
новый, прошу также оставлять отзывы.
У одно предложение: Поскольку Лебедев уже 2-3 года как не пополняет
словарь, есть идея распространить ваш труд, чтобы не только люди,
пользующиеся АИУвшещк могли пользоваться вашими трудами, но и,
например, тысячи людей сидящих под Линуксом, где используется
устаревший словарь Лебедева. Просто сообщить в интернете об этом, и,
возможно другие люди захотят вам помочь/присоединиться. Как вы на это
смотрите?
On 1 déc, 14:50, Александр Клюквин aka Shaman
> Можно проверить: на старом словаре ввести в
> FBE слово "душей" - оно не пометится как неправильное.
Не совсем удачный пример, потому что слово "дУшей" в русском языке
есть - это форма мн.ч. род.пад. слова "душ" ("устройство для обливания
тела мелкими струями воды"). :-) Убедиться в этом можно, заглянув в
того же Зализняка. Но поскольку вы говорите о том, что внесли
изменения, касающиеся множества слов подобного рода, то все сделано
правильно.
Насчет распространять - отчего нет? Словарь "мой" примерно в том же
смысле, что и солнце - "мое". Но я не уверен, что этот словарь
подойдет. Причины тоже описаны в ветке выше. Данный словарь - он для
проверки литературных произведений, отчего должен быть как можно
полнее. Словарь для офиса же и офисной переписки должен быть строго
отобран. Однако брать его и затачивать под свои нужды, а также
переписывать вообще полностью файл aff я запрещать не собираюсь. Бога
ради.
Я не знаю, кто автор модуля "Проверка орфографии", или это готовый
модуль?
Но хотелось бы одно замечание. После OCR часто встречается разрыв слов
на месте переноса:
" об-
суждение "
получается "об суждение". Найти это можно только проверкой орфографии.
Возможно ли добавить в проверяльщик такую фичу? Ведь проверка
"наоборот" там проиводится "приклоня" предлагается вариант "при клоня"
+1.
В сочетании со скриптом "Интерактивная ликвидация разрывов абзацев"
_последней версии_ вылавливается 100% (sic!) подобных ошибок.
Очередной апдейт словаря выкладываю несколько ранее, ибо праздники,
будет не до него.
В декабре была продолжена работа по интеграции словаря Зализняка в наш
текущий словарь. Ну и наборы правил, что я начал переписывать, тоже
расширялись.
В общем и целом, та организация правил, к которой я пришел в ноябре,
оказалась весьма и весьма плодотворной. В результате я быстро проделал
работу в гораздо большем объеме, чем ноябрьская. Под раздачу попали:
1. Все слова среднего рода (окончания -о, -е, -я)
2. Все слова женского рода на -ь (т.н. третье склонение)
3. Все слова мужского рода второго склонения на -ь и -й
4. Часть слов мужского рода второго склонения с т.н. неизменяемой
основой, такого строения: стол, стол-а, стол-у, стол-ом, стол-е, стол-
ы, стол-ов, стол-ам, стол-ами, стол-ах.
Не обработаны: слова второго склонения с беглой буквой в аффиксе в
основе (молодец - молодца), слова типа гражданин-граждане (как видно,
у такого типа слов разные основы для единственного и множественного
числа). Ничего сложного в обработке нет, я просто не успел. Сделаю в
январе. И вообще планирую с существительными в январе закончить.
Возможно, числительные тоже прихвачу, возможно, нет. Посмотрим, как
дело пойдет.
Было записей: 143 583
Стало записей: 149 231
Новых: 5 648
Кстати. Никаких отзывов о словаре не появляется. Ни критических, ни
рабоче-текущих. Не может быть, чтобы там было все в порядке. Просто не
верю. Неужели качают сотни, а реально пользуются единицы? Непонятно.
Всех с наступающим Новым Годом, всем счастья, всем здоровья, всем
хорошо встретить, без эксцессов, всем хорошо отдохнуть. До новых
встреч! :)
Пользуюсь в каждом файле. Никаких нареканий (пока?) не замечено.
Наоборот - большое спасибо. :)
Успеха и удачи в Новом году.
Никаких нареканий. Пока не замечено никаких ошибок.
Вот. )))
По поводу пополнения его он сказал, что:
Очень рад слышать по поводу интереса к развитию словаря. В словарь
понемногу
добавляются новые слова -- но на рабочей машине дома. Актуализацию
словарей
я действительно давно не проводил: много другой работы. Но желание
продолжать
есть. Если у Вас скопилась база слов, Вы могли бы прислать ее мне, а
я
возьму повышенные обязательства, просмотрев их, сделать апгрейд.
Как вы думаете, раз уж лицензия BSD, если вам не трудно, может стоит
вынести его в отдельный проект на google code?
Спасибо.
On Dec 30, 6:33 pm, MCat78 <mcat...@gmail.com> wrote:
> Спасибо!
По актуализации: у Лебедева взгляды на русский язык практически
противоположны моим. Или не у нас с ним, а у тех авторитетов, на
которых мы опираемся. Лебедев на Лопатина, я на Зализняка. Лопатина,
кстати, я не читал. Однако вот Зализняк, к примеру, считает, и
доказательно считает, что не слов, существующих в единственном только
числе, и нет слов только во множественном числе. То, что только
единственное, прекрасно образует и множественное число, просто оно
редко или мало употребимо. В словаре Лебедева я встретил массу слов,
которые были помечены единственным числом, и часто был вынужден при
проверке книг эти слова переписывать как множественное число. Есть
мнение, обязательно мы разойдемся во взглядах. Всенепременно.
дитя
обсесть
алё
альбион (туманный)
драпануть
обдать
завораживающе
краснодипломник
On Dec 30 2010, 10:14 pm, Александр Клюквин aka Shaman
<alexander.kluk...@gmail.com> wrote:
> Что от меня требуется?
>
> По актуализации: у Лебедева взгляды на русский язык практически
> противоположны моим. Или не у нас с ним, а у тех авторитетов, на
> которых мы опираемся. Лебедев на Лопатина, я на Зализняка. Лопатина,
> кстати, я не читал. Однако вот Зализняк, к примеру, считает, и
> доказательно считает, что не слов, существующих в единственном только
> числе, и нет слов только во множественном числе. То, что только
> единственное, прекрасно образует и множественное число, просто оно
> редко или мало употребимо. В словаре Лебедева я встретил массу слов,
> которые были помечены единственным числом, и часто был вынужден при
> проверке книг эти слова переписывать как множественное число. Есть
> мнение, обязательно мы разойдемся во взглядах. Всенепременно.
>
> On 30 дек, 21:25, soshial <sosh...@gmail.com> wrote:
>
>
>
>
>
>
>
> > Я спросил у автора словаря по поводу лицензии и он ответил:
> >Словарьс июля 2008 года распространяется под лицензией BSD с
Слова "дитя" и "обдать" в словаре есть, в новом релизе точно будут
(это если их нет сейчас, чего пока не проверял). Остальных слов нет.
Просто введу в релиз.
Было записей: 149 231
Стало записей: 148 782
Новых записей: Не готов сказать :)
На самом деле столкнулись два процесса: я обработал все
существительные, прописал все правила, после чего взялся за вынос
ненужных словоформ (они теперь генерятся автоматом). И вынес до хрена.
А может даже и немножечко больше.
Итак, за январь:
1. Я закончил работу с существительными. Все.
2. Чутка тронул прилагательные, так, едва-едва. Погрузился в изучение
теории вопроса.
3. Начал писать документацию к словарю, для чего открыл сайт:
https://sites.google.com/site/dictru/
Дальнейшие действия такие. Я сперва закончу описание работы с
существительными, после чего перейду к обработке прилагательных. Там
свои заморочки, не менее головоломные, чем уже были. Однако самый ад
начнется в глаголах.
Вопросы, пожелания, критика по-прежнему приветствуются.
1) Перевести наконец его в utf8. Очень прошу -- я даже не уверен, что
firefox с openoffice поддерживают koi8-r -- 100% они исопльзуют utf8
по умолчанию.
2) Объяснить про проблемы с буквой ё. Может мы сможем придумать какое-
либо решение?
Спасибо.
Второй вопрос обширный. Например, есть слова, в которых в корне слова
появляется беглая ё. Например, слово жёлоб. Во множественном числе у
этого слова в основе везде буква е: желоба - желобов - желобам -
желобами - желобах. А вот слово ёж букву ё вообще имеет только в
основе, в остальных формах буква е. Вот эту беглость надо описывать.
Для ее описания потребуется значительные усилия, это раз, и обширные
знания, это два. Мне моих знаний, как выяснилось, не хватает, чтобы
вот так вот с налету сказать, как будет вести себя буква ё в слове. Ну
и до кучи, сейчас поддерживаются однобайтные правила, видимо, тоже
прошиты в коде FBE. Для полноценной поддержки ё нужно больше правил,
чем есть сейчас, т.е. тоже требуется участие программиста. Это если
вкратце. А вообще вопрос с ё крайне непрост даже для специалиста,
насколько я понял. Разнобой и варианты трактовок тут вообще
зашкаливают. Ставить вопрос в стиле "мы придумаем" неправильно. Нужно
не придумывать, нужно знать конкретно, в каждом отдельном случае.
Еще пример. Вот есть слово воробей. В творительном падеже ед. числа
будет словоформа воробьёв. А есть слово жеребей, у которого в том же
падеже и числе будет форма жеребьев, т.е. окончание не -ёв, а -ев.
Просто так, машинным способом, отличить одно слово от другого не
получается, нужно принудительно разводить (я вот не уверен, что именно
-обей дает -ёв, а -ибей, -абей и прочее не дают).
Как-то так.
Вообще, дополню: тема буквы ё и ее беглости упирается в схемы
ударений, потому что в подавляющем большинстве случаев ударение падает
как раз на букву ё. Беглость проявляется тогда, когда ударение в
основе слова не совпадает с ударением в парадигме. То же самое слово
ёж - ударение на ё, но нет ежа - ударение на а, и ё сменяется буквой
е. Как-то так, если грубо в первом приближении.
Или слово слеза - ударение в единственном числе приходится на
окончание. А вот множественное число имеет ударение на основу, отчего
буква ё появляется: слеза - слёзы.
Ударение машинным способом не отследить. Нужно четко все прописывать.
Количество правил сразу и немедленно возрастает в разы. Если не
больше.
On 1 фев, 17:50, Jim Bvana <bvana....@gmail.com> wrote:
> А насколько важна буква ё вообще?
>
> 1 февраля 2011 г. 17:34 пользователь Александр Клюквин aka Shaman <
> alexander.kluk...@gmail.com> написал:
On 1 фев, 17:12, soshial <sosh...@gmail.com> wrote:
On Feb 2, 2:00 pm, Александр Клюквин aka Shaman
Есть предложение (ко мне) внедрить поддержку буквы ё. Занятие
непростое, требует переработки того, что есть сейчас. Если (если)
внедрять букву ё и правила для нее, то, по сути, тот словарь, что
ведется сейчас, придется бросить. Вряд ли я потяну два словаря.
Какие будут на эту тему мнения?
On 7 Feb., 14:29, Александр Клюквин aka Shaman
Ё, кстати, это не рюшечки и не бесполезная красота. В процессе
прокачки скилла в русском языке :), я понял, что далеко не все слова с
ё знаю именно как с ё, к тому же ё напрямую указывает ударения, что
тоже важно.
Вот я и сижу, и перебираю аргументы: с одной стороны - с другой
стороны... Как-то так. Непонятно, за что хвататься. Вернее, я ни за
что не хватаюсь, пишу пока себе статейки на сайте, да изучаю вопрос с
прилагательными. Но зреет мысль - не зря ли оно? Не делать ли сразу с
ё, чтобы потом не переделывать?
В общем, на самом деле вопрос упирается лишь в одно: вести ли словарь
только для FBE или пытаться вылезти в "другие сегменты". Если
вылезать, то без ё никак, однозначно. А не вылезать - так и черт с
ней, с буквой ё, меня все и в таком виде устраивает.
Обнаружил печальное. Алгоритм подсовывания слов на проверку словарю в
FBE реализован неправильно. Или неполно. Или просто не так, как
требуется.
Провел ряд экспериментов по приставкам и окончаниям через дефис.
Выяснилось, что в FBE нужно обязательно напрямую в словаре прописать
слово через дефис, чтобы оно предлагалось к выбору на замену.
Например, слово "кое-кто", внесенное в таком виде в словарь, к замене
предлагается, а генерация окончания "-кто" из файла аффиксов не
рождает никакого предложения. На "кое-кто" ругани нет, типа,
правильно, но "коекто" вызывает лишь замену "кое".
То же самое с приставками типа "по-" (для наречий): по-русски, по-
правильному, по-нашему, по-бабьи. Так можно было бы одним ударом
сгенерить все в аффиксах, но вот замены, замены...
Причем я провел такой же опыт в EmEditor, там тоже ханспелл прикручен.
Реакция получилась интересная: на слова "коекто" или "побабьи"
предложения дурацкие, но стоило поставить дефис в произвольном месте -
"коек-то" или "поб-абьи" - мгновенно появилось правильное предложение.
Причем понятно, что тут палка о двух концах. Если воспринимать слово с
дефисом как единое, то получим срабатывание на всех сложнообразованных
словах. Сейчас, насколько я понимаю, слово с дефисом трактуется как
два слова, и если формы обоих присутствуют в словаре, то оно считается
правильным. Но вот предложение к замене при этом теряется напрочь.
Было записей: 149 231
Стало записей: 151 120
Новых записей: 1 889
В первой половине месяца я писал статьи на свой сайт о
существительных, о том, какие есть закономерности в их словоизменении
и как это реализовано в моем словаре. В общем, почти все написал.
Остались имена, фамилии и существительные, склоняющиеся по правилам
прилагательных. Перед этой статьей я решил сделать прилагательные и
посмотреть, что можно будет использовать в дальнейшем.
Так вот. О прилагательных. Как и предполагалось, вопрос с
прилагательными оказался весьма непростым. Местами даже запутанным. В
теории, как обычно, все элементарно: прилагательные бывают
качественные, относительные и притяжательные. Качественные имеют
полную форму, краткую форму и степени сравнения: красный - красен -
краснее. Как-то так. Относительные прилагательные имеют только полную
форму: деревянный, стеклянный, металлический. Притяжательные тоже
имеют только полную форму: бабушкин, дедов.
Но это теория. На практике же оказалось, что относительные
прилагательные в переносном смысле становятся качественными. Например,
деревянный футболист. И вот тут-то уже слово "деревянный" имеет и
краткую форму: деревянен, деревянна, деревянно, деревянны, и
сравнительную: деревяннее, деревянней.
К тому же Зализняк, чьими принципами я руководствуюсь, в своем словаре
сделал предположение, что любое прилагательное имеет все три формы.
Посмотрев, как сделано в его словаре, я понял, что умру сортировать
предложенное количество слов по разделам. И сделал так же, как сделано
у Зализняка. Потому образовалось достаточно большое количество
мертворожденных форм. Ну, наверное, когда-нибудь, руки дойдут и до
более детальной сортировки :) Но пока вот так.
Кроме того, прилагательные отлично образуют наречия. Я это реализовал.
От прилагательных на "ский/цкий" в принципе с трудом можно образовать
краткую и сравнительную форму: русский - русск - русска - русско -
русски - русскее - глуповато выглядит, не так ли? Но вот две формы
формы: русско- и -русски участвуют в сложных словах. Русско-английский
- и по-русски. Я использовал "умения" ханспелла работать с двумя
суффиксами, в результате чего сейчас словарь образует наречия с
приставкой "по-". И для сравнительной степени тоже сделаны приставки:
большой - больше - побольше. Вот слово "побольше" задано не отдельной
строкой в словаре, а генерится с помощью файла aff.
Совершенно отдельной темой оказался вопрос правописания -н- и -нн- в
краткой форме прилагательных и причастий. Многочисленные курения
мануалов на эту тему прояснили вопрос: причастия в краткой форме
пишутся с одной -н-: влюбленный - влюблен - влюблена - влюблено. Ну а
прилагательные в краткой форме имеют столько букв -н-, сколько в
полной: деревянен - деревянна - деревянно - деревянны. Но, как обычно,
есть нюанс. Причастие имеет нехорошую привычку внезапно становиться
прилагательным. А раз прилагательное, то немедленно -нн-, а не -н-.
Вот то же самое слово влюбленный: есть вариант и влюблен - влюбленна -
влюбленно - влюбленны. В общем и целом, меня интересовал только один
вопрос: какие причастия стали еще и прилагательными, чтобы для этих
слов прописать правило не только с -н-, но и с -нн-. На этот вопрос
словарь Зализняка дает ответ только частично, что и понятно: в нем
есть далеко не все. Потому словарь, конечно, продолжит развиваться во
времени.
На сейчас обработаны не все прилагательные и совсем не тронуты
причастия (они в словаре Зализняка даны не отдельными словоформами, а
производными от глаголов). Надеюсь, за март осилю. Возможно. Но если
не осилю за март, буду одолевать в апреле.
Да, правила в aff я переписал, вернее, сделал новые с новыми
мнемониками, не убивая старые. Как выяснилось, у Лебедева все-таки не
совсем так, как полагается, было сделано. На сейчас часть слов указана
со старыми правилами, часть - с новыми. Я прошу обо всех неполадках
сразу же писать сюда.
Было записей: 151 120
Стало записей: 151 861
Новых записей: 741
С точки зрения работы над словарем март прошел совершенно напрасно. Я
был сильно занят текучкой на работе, времени на словарь практически не
было. Но кое-что было и полезное. Например, я выловил и удушил
несколько злостных ошибок в файле аффиксов. Плюс работал с книгами в
режиме "прочел - проверил по словарю - добавил найденное в книге в
словарь". Слова добавлялись в основном просторечные, разговорные:
братан, друган, бандюган и прочее. Считаю, тоже полезно.
Кроме того, добил прилагательные из словаря Зализняка. Остались только
причастия.
В планах все по-прежнему: нужно обрабатывать причастия, после чего
убивать параллельную структуру в файле аффиксов, делать уже постоянные
правила и закреплять мнемоники окончательно. Ну и на сайте все это
описать как положено.
Было записей: 151 861
Стало записей: 155 688
Новых записей: 3 827
В апреле опять не удалось изо всех сил работать со словарем. Как с
цепи сорвалось: всем вдруг понадобился по различным делам. Но в общем
и целом работа продолжается в выбранном направлении. Идет обработка
причастий. Заодно придумал ловкий ход, как и от какой основы
производить деепричастия. У А.Лебедева они были произведены от
глагола, что правильно теоретически, деепричастия - это часть полной
парадигмы именно глагола. Однако технически такой метод дает
сложности. В глаголах исключительно широко распространена беглость и
смена букв: мочь - могу - может - могши и т.д. или звать - зову - зовя
- звав/звавши и т.д. Как видно, в первом примере -ч- благополучно
переходит в -г- или -ж-, а во втором появляется беглая гласная -о- в
корне, причем в деепричастии "зовя" она есть, а в деепричастии "звав/
звавши" ее нет.
Я же проанализировал причастия, произведенные от тех же глаголов.
Теоретически может образоваться четыре причастия: действительного
залога в настоящем и прошедшем времени, а также страдательного залога,
тоже в настоящем и прошедшем времени. Например, от глагола "копать"
образуются как раз четыре причастия: копающий, копавший - это
действительный залог в настоящем и прошедшем времени (т.е. описания
действия с точки зрения субъекта действия), а также "копаемый" и
"копанный" - это страдательный залог в настоящем и прошедшем времени
(т.е. описание действия с точки зрения объекта действия).
Так вот оказалось, что деепричастия прекрасно можно образовать от
причастий (что неправильно теоретически, но снимает все сложности),
причем деепричастия только в единичных случаях, буквально у нескольких
слов, существуют при том, что нет никаких причастий. Ну что ж, эти
слова обработаем отдельно, а так все получается шоколадно. От
"копающий" образуется деепричастие "копая", от "копавший" образуется
"копав/копавши". И никаких чередующихся согласных, никаких беглых
гласных. "Зовущий" - "зовя", при этом "звавший" - "звав/звавши".
И мимоходом: глаголов (и, соответственно, причастий) оказалось не
просто много, а даже до хрена. А причастий-то при этом в четыре раза
больше. Работа даже и без отвлечений шла бы долго.
ПыС. А что это никто ничего не пишет? Все? Словарь больше не нужен?
Конечно нужен))
Это даже не обсуждается, имхо)
Лично я просто добавляю обычно новую версию, хотя согласна, виновата,
надо не забывать говорить спасибо!
Так что за все пропущенные разы сразу вот такое СПАСИБО!!! ))
On 3 май, 14:41, Марина <cherstv...@gmail.com> wrote:
> > ПыС. А что это никто ничего не пишет? Все? Словарь больше не нужен?
Присоединяюсь - вещь нужная так, что даже и не обсуждается. Пользуюсь
регулярно и каждый раз вспоминаю тот ужас. когда его не было.
Марина права - забываем спасибо написать. но будь уверен на все 100%,
что каждый раз, при вёрстке каждой книги, вспоминаем про твою работу
добрым словом
СПАСИБО )))
Отсюда вопрос: если вносить "сподвигнуть" (как приставочный глагол от
"подвигнуть"), то на что ориентироваться? Вносить либо одну форму
"сподвигнул" или давать две по рекомендациям Грамоты?
Я еще немножечко подумаю, как тут быть. Скорее всего, будет так, как
указано на Грамоте, т.е. две формы. Но при этом понятно, отчего же
Зализняк
дал единственную форму. Дело в том, что язык, любой, не только
русский,
не любит лишних, случайных, омонимизмов. Потому как возникает
неопределенность,
которую нужно дополнительно разъяснять.
Начала гуглить, нашла кое-что для себя интересное.
Ни то, ни другое слово особо не популярны, хотя "подвигнуть"
встречается всё же чаще. Причём - "подвигнуть" чаще всего упоминается
на сайтах словарей, а "сподвигнуть" преимущественно в статьях,
написанных профессиональным языком (не обязательно филологом).
На иностранные языки "сподвигнуть" и "подвигнуть" зачастую переводятся
по-разному. Для немецкого я могу оценить различие и согласиться с ним
("подвигнуть" - вдохновить, "сподвигнуть" - побудить).
И вот что нашла, может, пригодится для чего-нибудь. ;)
http://orthowiki.kalan.cc/wiki/%D0%9C%D0%BE%D0%BD%D0%BE%D0%B4%D0%B8%D0%B0%D0%BB%D0%B5%D0%BA%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C
> И вот что нашла, может, пригодится для чего-нибудь. ;)http://orthowiki.kalan.cc/wiki/%D0%9C%D0%BE%D0%BD%D0%BE%D0%B4%D0%B8%D...
Было записей: 155 688
Стало записей: 164 328
Новых записей: 8 640
Прибавление солидное, является следствием как раз многочисленности
причастий.
О работе в этом месяце сказать особенно нечего, все было стандартно.
Продолжаю обрабатывать причастия, продолжаю готовиться к обработке
глаголов. Когда закончу - уже даже и не могу предположить. Может, к
осени хотя бы?..
Однако в этом месяце случилось примечательное событие. Камрад j_sim
(увы, не знаю, как зовут в миру) принял весьма деятельное участие в
подготовке релиза. Он самостоятельно обработал слова из собственного
пользовательского словаря, пока только существительные. Среди этих 8 с
лишком тысяч есть и его вклад, несколько сотен слов. За что ему
огромное спасибо.
О прозе жизни. Я на заглавной страничке проекта вывесил номера
кошельков. Я знаю, что такая схема не работает. И тем не менее.
01.06.11, Александр Клюквин aka Shaman<alexande...@gmail.com> написал(а):
Закончив работу со сложной по орфографии книгой, благодарю за словарь,
не дожидаясь выхода новой версии. ;)
Особенно оценила количество предлагаемых замен. Спа-си-бо! :)
Было записей: 164 328
Стало записей: 174 029
Новых записей: 9 701
Хорошо быть умным тогда, как моя жена потом. Как обычно, народная
мудрость оказалась права. Я колупался, колупался с причастиями - и
наконец придумал, как резко ускориться. В итоге несколько дней
потратил на организацию исходных данных, а потом за несколько часов
добил всю работу. Итого, причастия - все.
В планах: убрать двойную систему правил для прилагательных/причастий.
Потом буду делать глаголы. В принципе я их уже немножечко пощупал.
А еще в этом месяце камрад j_sim снова порадовал порцией слов. За что
ему отдельное спасибо и низкий поклон.
Речь идёт о порядковым числительных, написанных цифрами с дефисом и
буквой: 1950-х, в 1988-м , в 3-м квартале и пр.
Нельзя ли их как-то вывести из поиска, т.е. включить в список
известных слов?
В документальной литературе обнаружение таких слов очень отягощает
спеллчеккинг. Да и в художественной их довольно много.
Было записей: 174 029
Стало записей: 174 234
Новых записей: 205
Прибавления откровенно мало, однако пока его ждать в массовом порядке
и не приходилось. Как выяснилось, я несколько погорячился, обещав
взяться за глаголы. Сперва надо было переписать правила для
прилагательных и причастий, не охваченных в предыдущем месяце. А
таковых в словаре нашлось ажно больше семи тысяч. Короче, я с ними
закопался и обработал далеко не все. Пожалуй, даже меньшую часть. Буду
доделывать, пока это не закончу, дальше двигаться нельзя.
По-прежнему камрад j_sim присылает порции слов, по-прежнему за это ему
низкий поклон и горячее спасибо.
В августе есть мысль сходить в отпуск. В связи с этим даже и не могу
заранее обрисовать, что и как будет делаться со словарем. Возможно,
что и ничего. А возможно, что что-то и будет, но мало. В общем, не
знаю пока.
Как и предполагал, в августе со словарем не вышло поработать совсем.
Потому релиза не будет. В сентябре с удовольствием продолжу дело, 1-го
октября все выложу.
ПыС. Вообще несколько стремно стало писать тут. Молчание. Пустота.
Есть кто живой-то?
On 1 сен, 16:39, Black_Zerg <blackz...@gmail.com> wrote:
> Есть живые :) кстати какой сейчас последний релиз? а то я 3 месяца без компа
> сидел :(
>
> 1 сентября 2011 г. 16:31 пользователь MCat78 <mcat...@gmail.com> написал:
>
>
>
>
>
>
>
> > Есть. )
Вообще, кстати, на тему словаря у меня есть одна грандиозная идея. По-
настоящему большая. Если сделать грамотно, то и монетизируемая.
Конечно интересно, только редко есть время ответить.
Недавно обнаружила, что словарь пропускает _жвала_, но подчеркивает
_жвалы_, хотя и та и другая форма допустимы.
Много чего еще, не помню сейчас.
Мне проще по ходу быстро исправить, если действительно ошибка.
Кстати, если понадобится помощь корректора, обращайтесь.
Было записей: 174 234
Стало записей: 174 318
Новых записей: 84
Сентябрь выдался неурожайным. Много проблем на работе, потому к
словарю обращался урывками. Пополнение целиком и полностью из
литературы, добавляю встреченное в прочитываемом тексте.
Планы прежние. Одно "но": планы рабочие тоже ого-го, потому теперь
даже и не знаю, что да как со словарем будет. Ну, наверное, что-то
будет. Наверное, медленнее и туже, чем было.
Однако, невзирая ни на что, словарь остается быть хорошим, годным.
Прошу употребить :)
On 3 окт, 21:21, Александр Клюквин aka Shaman
On 3 Okt., 17:21, Александр Клюквин aka Shaman