Автоматическое формирование онтологий

Shcherbak Sergey

unread,

Jan 17, 2009, 1:26:59 AM1/17/09

to webofdata.ru

Думаю так в новой ветке этот вопрос обсуждать будет лучше.

Евгений Рабчевский сказал:

я пытаюсь строить семантическую модель текста, для этого использую
лексико-синтксические шаблоны
здесь есть по этому поводу http://nlp.shef.ac.uk/amilcare/publications.html
а ты что используешь? ну в двух словах

Shcherbak Sergey

unread,

Jan 17, 2009, 1:40:54 AM1/17/09

to webofdata.ru

Я решил задачу автоматического формирования онтологий тремя способами
сначала я попытался сделать задачу на основе алгебраического подхода
путем исследования элементов теории трансляции по работам Глушкова и
Летичевского
Собственно статьи Летичесвского датированы 1970 годом ))

В результате я постоил мат. аппарат для трансляции CTM (Complex Table
Model) в RDF, при чем трансляции на уровне семантики, а не синтаксиса

Потом увидев, что иногда не получается осуществить однозначное
отображение CTM в RDF, а еще и проблемы ЕЯ и структуризации
источников,
начал работать далее, сменил мат аппарат,

при этом в результате смены мат аппарата я вынужден был удалить с
диссертации целый раздел

Допишу позже...

On 17 янв, 08:26, Shcherbak Sergey <onto...@gmail.com> wrote:
> Думаю так в новой ветке этот вопрос обсуждать будет лучше.
>
> Евгений Рабчевский сказал:
>
> я пытаюсь строить семантическую модель текста, для этого использую
> лексико-синтксические шаблоны

> здесь есть по этому поводуhttp://nlp.shef.ac.uk/amilcare/publications.html

Shcherbak Sergey

unread,

Jan 17, 2009, 3:22:49 AM1/17/09

to webofdata.ru

потом пошли исследования в теории прототипов,
а потом уже непосредственно в теориях искусственного интеллекта

в результате я разбил процесс формирования онтологии на три связанных
между собой этапа
а именно на метод анализа источника знаний(или источников), на основе
которого будет формироваться онтология;
собственно метод формирования онтологии на основе специализированного
унифицированного языка представления исходных данных
то есть по сути метод формирования концептуальной схемы источника и
его элементов с возможностью объединения их в одну онтологию
и метод формирования и добавления экземпляров объектов к онтологии,
т.е. по сути идет речь о формировании базы знаний онтологического
типа

При чем, это все, я сделал на основе целенаправленного поиска, который
позволяет сократить время обхода RDF-графов онтологий,
при чем так, чтобы сложность алгоритма формирования онтологии
стремилась к линейному росту

Что это мне дало:

Во - первых, независимость от источника знаний,

т.е мне все равно на основе какого источника знаний формировать
онтологии, главное, чтобы были какие нибудь средства анализа
источника, которые могли бы создать образ источника на моем спец.
языке. т.е онтологии формируются независимо от формы и структуры
источника

Например, если в работе я опирался на слабоструктурированные источники
табличной структуры и сводимых к оной, то если написать
средство анализа естественно языковых конструкций с возможностью
отображения в мой язык представляения исходных данных, то можно было
бы легко их (онтологии) формировать на основе естественного языка.
Потому я сейчас решаю лингвистическую задачу, которая позволит достичь
простейших практических целей по анализу естественного языка.

Во-вторых, способность решать практически любую онтологическую задачу,
ведь эффективные механизмы добавления новых знаний и данных (фактов)
уже мной разработаны, средства анализа онтологий есть, и механизмы
поиска по онтологиях отработаны.

Да, надо работать над методами анализа источников, но там уже бьются
люди десятилетия и особых сдвижек нет.

Кроме того, усложняются онтологии с появлением новых возможностей в
языке OWL 2 и тд

Так что работы всем хватит )

PS. помню в России защищалась работа по анализу текстовых документов,
где красиво описали модель представления текстов документов на основе
графа. А их метод анализа текстов, при доработке можно было применить
для формирования онтологии... Главное, модель текста, и его елемента,
связать со структурой объектов онтологий и вообщем-то все. Конечно
это непросто сделать, но мне кажеться, что возможно.

Если хорошо посидеть в гугле то и полный текст диссертации можно найти
и все статьи по вопросу графового представления текстов. По крайней
мере, когда меня это интересовало материал был.

Xasima Xirohata

unread,

Jan 17, 2009, 3:54:23 AM1/17/09

to webofdat...@googlegroups.com

можешь вспомнить автора / год?

случайно не эта http://www.gotai.net/documents/doc-art-005.aspx

2009/1/17 Shcherbak Sergey <ont...@gmail.com>

PS. помню в России защищалась работа по анализу текстовых документов,
где красиво описали модель представления текстов документов на основе
графа. А их метод анализа текстов, при доработке можно было применить
для формирования онтологии... Главное, модель текста, и его елемента,
связать со структурой объектов онтологий и вообщем-то все. Конечно
это непросто сделать, но мне кажеться, что возможно.

Если хорошо посидеть в гугле то и полный текст диссертации можно найти
и все статьи по вопросу графового представления текстов. По крайней
мере, когда меня это интересовало материал был.

--
Best regards,
~ Xasima Xirohata ~

Shcherbak Sergey

unread,

Jan 17, 2009, 4:34:11 AM1/17/09

to webofdata.ru

Да, она.

On 17 янв, 10:54, "Xasima Xirohata" <xas...@gmail.com> wrote:
> можешь вспомнить автора / год? случайно не этаhttp://www.gotai.net/documents/doc-art-005.aspx
> <http://www.gotai.net/documents/doc-art-005.aspx>
>

> 2009/1/17 Shcherbak Sergey <onto...@gmail.com>

Евгений Рабчевский

unread,

Jan 17, 2009, 11:06:02 AM1/17/09

to webofdat...@googlegroups.com

касательно http://www.gotai.net/documents/doc-art-005.aspx
суть введенного автором понятия информационного потока (при построении графа), заключается в том, что
1.. узел - представляет собой понятие, которое лексикализовано только одним словом
2. рассматриваются связи только между соседними словами
в реальности оба положения не всегда верны, хотя как вариант, интересно посмотреть на "объективные" показатели качества поиска, основанного на такой модели

Кстати, относительно оценки качества поиска: есть замечательная организация РОМИП (Российский Семинар по Оценке Методов Информационного Поиска): каждый желающий может получить задание на поиск (есть несколько видов заданий) по определенной коллекции, и решив задание, может сравнить свои результаты с результатами остальных участников. http://romip.ru

>> главное, чтобы были какие нибудь средства анализа
>> источника, которые могли бы создать образ источника на моем спец.
>> языке.

СЕГОДНЯ, это самое узкое место (средства анализа источника), конечно ручная разметка документов потихоньку набирает обороты, но увы ...
и на западе кстати в плане НЛП добились хороших результатов

Сергей, очень радостно, что есть люди, у которых есть силы и средства на поддержку ресурсов, подобных твоему!
Относительно Complex Table Model что-то типа http не подскажешь?

17.01.09, Shcherbak Sergey <ont...@gmail.com> написал(а):

--
ПРИ ОТВЕТЕ НА ПИСЬМО ПРОСЬБА СОХРАНЯТЬ ИСТОРИЮ ПЕРЕПИСКИ!
С наилучшими пожеланиями,
Рабчевский Евгений
Ассистент кафедры компьютерных систем и телекоммуникаций
Пермского Государственного Университета
mailto:evg...@rabchevsky.name
http://rabchevsky.name/

Shcherbak Sergey

unread,

Jan 17, 2009, 11:30:14 AM1/17/09

to webofdata.ru

Например,
http://hepwww.rl.ac.uk/Adye/blooberry/html-old/tagpages/tables.htm

On 17 янв, 18:06, "Евгений Рабчевский" <evg...@rabchevsky.name> wrote:
> касательноhttp://www.gotai.net/documents/doc-art-005.aspx

> суть введенного автором понятия информационного потока (при построении
> графа), заключается в том, что
> 1.. узел - представляет собой понятие, которое лексикализовано только одним
> словом
> 2. рассматриваются связи только между соседними словами
> в реальности оба положения не всегда верны, хотя как вариант, интересно
> посмотреть на "объективные" показатели качества поиска, основанного на такой
> модели
>
> Кстати, относительно оценки качества поиска: есть замечательная организация
> РОМИП (Российский Семинар по Оценке Методов Информационного Поиска): каждый
> желающий может получить задание на поиск (есть несколько видов заданий) по
> определенной коллекции, и решив задание, может сравнить свои результаты с

> результатами остальных участников.http://romip.ru

>
> >> главное, чтобы были какие нибудь средства анализа
> >> источника, которые могли бы создать образ источника на моем спец.
> >> языке.
>
> СЕГОДНЯ, это самое узкое место (средства анализа источника), конечно ручная
> разметка документов потихоньку набирает обороты, но увы ...
> и на западе кстати в плане НЛП добились хороших результатов
>
> Сергей, очень радостно, что есть люди, у которых есть силы и средства на
> поддержку ресурсов, подобных твоему!
> Относительно Complex Table Model что-то типа http не подскажешь?
>

> 17.01.09, Shcherbak Sergey <onto...@gmail.com> написал(а):

Евгений Рабчевский

unread,

Jan 18, 2009, 9:13:20 AM1/18/09

to webofdat...@googlegroups.com

Сергей,
так
http://www.google.ru/search?hl=ru&q=Complex+Table+Model
я тоже пробовал, только не врубаюсь причем тут HTML?
В чем заключается задача? из HTML таблиц строить RDF графы, или что?

17.01.09, Shcherbak Sergey <ont...@gmail.com> написал(а):

Например,

Shcherbak Sergey

unread,

Jan 18, 2009, 9:44:21 AM1/18/09

to webofdata.ru

Кстати, нашел я одну из своих статей по этой теме, которую хотел
выставить уже давно на сайте.
Так что на след. неделе сможете ее почитать.

Положения CTM лежат в основе табличного представления информации в
HTML (таблицы HTML по стандарту W3C cтроятся по этой модели)

Идея была глубже - популярность таблиц Html, применяемых для
структуризации информации на web страничках натолкнула меня на мысль,
что можно написать автомат, переводящий информацию в таблицах HTML в
RDF . Т.Е анализатор странички, структурированной с помощью таблиц,
легко мог бы перевести ее в RDF. Кроме того, можно делать было делать
привязку к схеме RDFS. Т.Е посути реализация полного цикла создания
онтологии

И мат. аппарат для этого я написал двух видов (с различными
ограничениями), потом делал практическую реализацию.

А потом я уже защитился. А теперь я на пути к следующей цели.

On 18 янв, 16:13, "Евгений Рабчевский" <evg...@rabchevsky.name> wrote:
> Сергей,
> такhttp://www.google.ru/search?hl=ru&q=Complex+Table+Model

> я тоже пробовал, только не врубаюсь причем тут HTML?
> В чем заключается задача? из HTML таблиц строить RDF графы, или что?
>

> 17.01.09, Shcherbak Sergey <onto...@gmail.com> написал(а):

Евгений Рабчевский

unread,

Jan 19, 2009, 4:46:51 AM1/19/09

to webofdat...@googlegroups.com

Обязательно прочту твою статью!

18.01.09, Shcherbak Sergey<ont...@gmail.com> написал(а):

Бегтин Иван

unread,

Jan 19, 2009, 5:56:27 AM1/19/09

to webofdata.ru

Насчёт анализа таблиц - интересная тема, мне не так попадались
исследования по TableSeer и TableRank - учёт табличных данных при
ранжировании документов. Например, вот тут -
http://chemxseer.ist.psu.edu/about/digital_library/Liu-WWW2007.pdf

Я занимаюсь схожей темой - преобразованием списков в HTML в формат
RSS. Там также работает автомат который распознаёт структуру данных и
значимые участки и восстанавливает/структуририует новости по их тексту
на странице. Собственно рабочий прототип уже где-то полгода работает
по адресу - http://www.skyur.ru. При этом изначальная идея была в
построении объектной карты веб страницы - построение онтологии частей
веб страниц и сайтов, распознавание значимых участков и формирование
RDF на их основе. Частично удалось добиться результатов, но стали
всплывать уже технические сложности с большим числом регулярных
выражений, поддержкой множества языков и так далее.

С уважением,
Иван Бегтин

Евгений Рабчевский

unread,

Jan 19, 2009, 11:52:59 AM1/19/09

to webofdat...@googlegroups.com

Иван, я думаю, совеременные сайты все имеют RSS. ОДНАКО умение распозновать новости, очень хорошо можно применить в информационом поискке, поясню
например пользователь ищет нечто специфическое, про то, о чем не пишут информ агентства, с помощью такого средства, пользователь сможет отфильтровать только те матераилы, которые можно отнести к новостям. Думаю очень даже актуально.

19.01.09, Бегтин Иван <ibe...@gmail.com> написал(а):

Igor Artamonov

unread,

Jan 19, 2009, 12:08:48 PM1/19/09

to webofdat...@googlegroups.com

К сожалению в интернете еще остается слишком много не современных сайтов :(

2009/1/19 Евгений Рабчевский <evg...@rabchevsky.name>:

--
Igor V Artamonov | www.artamonov.ru | ICQ: 120170178 | Skype: splixed

Бегтин Иван

unread,

Jan 19, 2009, 12:39:35 PM1/19/09

to webofdata.ru

Мне бы очень хотелось чтобы RSS был у всех новых сайтов, но увы, до
сих пор это не так. Например, у большинства государственных сайтов в
том числе и вновь создающихся, RSS отсутствует как и вообще любая
структуризация информации хотя бы даже в CSV для таблиц.
Фильтровать новости с помощью используемого мной алгоритма тоже можно,
я сейчас продумываю вариант его использования в целях "принудительной
семантизации" веб сайтов, но на всё просто нехватает времени что
реализовать это на практике.

С уважением,
Иван Бегтин

On 19 янв, 19:52, "Евгений Рабчевский" <evg...@rabchevsky.name> wrote:
> Иван, я думаю, совеременные сайты все имеют RSS. ОДНАКО умение распозновать
> новости, очень хорошо можно применить в информационом поискке, поясню
> например пользователь ищет нечто специфическое, про то, о чем не пишут
> информ агентства, с помощью такого средства, пользователь
> сможет отфильтровать только те матераилы, которые можно отнести к новостям.
> Думаю очень даже актуально.
>

> 19.01.09, Бегтин Иван <ibeg...@gmail.com> написал(а):

>
>
>
> > Насчёт анализа таблиц - интересная тема, мне не так попадались
> > исследования по TableSeer и TableRank - учёт табличных данных при
> > ранжировании документов. Например, вот тут -
> >http://chemxseer.ist.psu.edu/about/digital_library/Liu-WWW2007.pdf
>
> > Я занимаюсь схожей темой - преобразованием списков в HTML в формат
> > RSS. Там также работает автомат который распознаёт структуру данных и
> > значимые участки и восстанавливает/структуририует новости по их тексту
> > на странице. Собственно рабочий прототип уже где-то полгода работает

> > по адресу -http://www.skyur.ru. При этом изначальная идея была в

> ...
>
> продолжение >>

Shcherbak Sergey

unread,

Jan 21, 2009, 4:36:58 PM1/21/09

to webofdata.ru

Кстати работ по анализу таблиц в интернете много, и интерес к таблицам
в общем то повышен Особенно со стороны американских университетов
К сожалению в таблицах есть несколько недостатков. Структуризацию
информации с помощью таблиц проводит человек
а для таких понятий как обобщение и агрегация (применяемых при
стуктуризации) используются различные комбинации ячеек. При чем
количество этих комбинаций велико, а смысл некоторых из них
неоднозначен, что приводит к невозможности создания универсального
автоматического анализатора таблиц
Поэтому сделать точный семантический анализатор таблиц сайтов очень
сложно

> ...
>
> продолжение >>

Бегтин Иван

unread,

Jan 22, 2009, 2:50:31 AM1/22/09

to webofdata.ru

Я тоже довольно часто наталкиваюсь на исследования именно по
таблицам, в основном, по моим наблюдениям, они описывают обработку
документов где таблицы используются для хранения значений (pdf, doc,
rtf и так далее), а не как контейнер для дизайна как в html. Там
действительно очень много комбинаций, но фокус в том что необязательно
все учитывать.

Когда я только задумывался над алгоритмом восстановления списков
новостей я вначале проанализировал веб страницы примерно на 300
ресурсах и анализировал комбинации тегов для описания объектов
(новостей), повторяемость там была минимальная - практически нулевая и
поначалу задача казалась практически неразрешимой так как новостные
страницы везде были уникальны по своему. Лишь потом в результате ряда
экспериментов удалось определить что подавляющее число комбинаций
укладываются в 5-6 шаблонов, а остальные ещё в 20-30 и реализовать
алгоритм в итоге удалось используя не статические схемы, а выявлением
меток и построением дерева решений для классификации. На мой взгляд
классификация различных вариаций форм представления позволит задачу
анализа значительно упростить и может быть применено, как к таблицам,
так и к любым другим формам представления данных - новости, графики,
события и так далее.