On Tuesday, April 5, 2011 at 2:26 PM, fl00r wrote:
Есть у меня текст. Существуют ли алгоритмы поиска фамилий в тексте?
--
--
Данное сообщение отправлено Вам, так как Вы являетесь подписчиком группы "RubyOnRails to russian" на группах Google.
FAQ группы находится по адресу: http://ru.wikibooks.org/wiki/RubyFAQ
Для того, чтобы отправить сообщение в эту группу, пошлите его по адресу
ror...@googlegroups.com
Чтобы отменить подписку на эту группу, отправьте сообщение по адресу: ror2ru-un...@googlegroups.com
Дополнительные варианты находятся на странице группы http://groups.google.com/group/ror2ru?hl=ru
У меня есть текст и я хочу знать кто в нем упоминается, например
2011/4/5 fl00r <pedro.ya...@gmail.com>:
Конечно, мне не нужно 100% результат.
Определить, что Питерский это не фамилия можно по несовпадению с
правилами. Например, то что в тексте, скорее всего, будет "Питерский"
писаться также и не в начале строки - а значит будет с прописной.
Соответственно мы создаем правило, что 90% случаев (для избежания
опечаток) слово должно писаться с большой буквы. Ну и в таком духе -
собственно ищется алгоритмика такого поиска. Она у меня есть в голове,
но думаю, что не самая изящная.
On 5 апр, 16:35, "Timothy N. Tsvetkov" <timothy.tsvet...@gmail.com>
wrote:
> Как определить, что Питерский это фамилия?
>
> 2011/4/5 fl00r <pedro.yanovic...@gmail.com>:
Да это я все понимаю. Просто не хотел изобретать велосипед. Вдруг уже
есть теория рядов и фамилий. Взять интеграл о текста и
проэкспонировать по 20% серого. Ну что-то машинное
Лучше поискать по паспортным базам, наиболее встречающиеся там хорошо видны.
А вот пример редко встречающихся, но реальных имен-фамилий:
Василий Безотечественный
Галина Сухопар-александрова
Татьяна Орешко-вербицкая
...барабанная дробь... внимание!!!
Марина "Рыжакова де пизарро"
Занавес :)
--
-- mpe...@gmail.com -- www.penzin.ru --
Напомнило. У меня был случай когда пришел регистрироваться абонент
откуда-то из Латинской Америки с именем типа вроде Хуан Мария Лопес
Педро .. (еще штук пять имен) .. де Какой-то-там. А в биллинге три
поля - фамилия, имя и отчество по двадцать символов и пробелы в этих
полях front-end кодер счел недопустимыми.
Заменили три поля на одно, но большое - вылезли другие грабли -
девицы операторши стали при вводе еще чаще лепить ФИО в каком попало
порядке, то ФИО напишут, то ИОФ. В результате и в выводе перлы
вроде "Василий И.П." вместо "Пупкин В.И." и поиск по имени/фамилии
пришлось хачить чтобы искало и Василий Пупкин и Пупкин Василий.
Еще одни распространенные грабли - это тюркские отчества вида
Буль-буль оглы, где есть и пробел и дефис, возможность наличия
которых в отчестве для русскоязычных совсем не очевидна.
--
Alex L. Demidov (ALD9-RIPE).
http://alexeydemidov.com/
Freelance Consulting.
Другой классический вариант — реально существующая фамилия «И» с
которой ходит народу больше,
чем в России населения. А validate_length_of стоит почти везде.
http://www-nlp.stanford.edu/software/CRF-NER.shtml
правда я еще не смотрел что там к чему.
ну и вообще действительно имеется база в 400 тысяч фамилий. В принципе
этого будет достаточно, мне кажется.