Евгений Рабчевский сказал:
я пытаюсь строить семантическую модель текста, для этого использую
лексико-синтксические шаблоны
здесь есть по этому поводу http://nlp.shef.ac.uk/amilcare/publications.html
а ты что используешь? ну в двух словах
В результате я постоил мат. аппарат для трансляции CTM (Complex Table
Model) в RDF, при чем трансляции на уровне семантики, а не синтаксиса
Потом увидев, что иногда не получается осуществить однозначное
отображение CTM в RDF, а еще и проблемы ЕЯ и структуризации
источников,
начал работать далее, сменил мат аппарат,
при этом в результате смены мат аппарата я вынужден был удалить с
диссертации целый раздел
Допишу позже...
On 17 янв, 08:26, Shcherbak Sergey <onto...@gmail.com> wrote:
> Думаю так в новой ветке этот вопрос обсуждать будет лучше.
>
> Евгений Рабчевский сказал:
>
> я пытаюсь строить семантическую модель текста, для этого использую
> лексико-синтксические шаблоны
> здесь есть по этому поводуhttp://nlp.shef.ac.uk/amilcare/publications.html
в результате я разбил процесс формирования онтологии на три связанных
между собой этапа
а именно на метод анализа источника знаний(или источников), на основе
которого будет формироваться онтология;
собственно метод формирования онтологии на основе специализированного
унифицированного языка представления исходных данных
то есть по сути метод формирования концептуальной схемы источника и
его элементов с возможностью объединения их в одну онтологию
и метод формирования и добавления экземпляров объектов к онтологии,
т.е. по сути идет речь о формировании базы знаний онтологического
типа
При чем, это все, я сделал на основе целенаправленного поиска, который
позволяет сократить время обхода RDF-графов онтологий,
при чем так, чтобы сложность алгоритма формирования онтологии
стремилась к линейному росту
Что это мне дало:
Во - первых, независимость от источника знаний,
т.е мне все равно на основе какого источника знаний формировать
онтологии, главное, чтобы были какие нибудь средства анализа
источника, которые могли бы создать образ источника на моем спец.
языке. т.е онтологии формируются независимо от формы и структуры
источника
Например, если в работе я опирался на слабоструктурированные источники
табличной структуры и сводимых к оной, то если написать
средство анализа естественно языковых конструкций с возможностью
отображения в мой язык представляения исходных данных, то можно было
бы легко их (онтологии) формировать на основе естественного языка.
Потому я сейчас решаю лингвистическую задачу, которая позволит достичь
простейших практических целей по анализу естественного языка.
Во-вторых, способность решать практически любую онтологическую задачу,
ведь эффективные механизмы добавления новых знаний и данных (фактов)
уже мной разработаны, средства анализа онтологий есть, и механизмы
поиска по онтологиях отработаны.
Да, надо работать над методами анализа источников, но там уже бьются
люди десятилетия и особых сдвижек нет.
Кроме того, усложняются онтологии с появлением новых возможностей в
языке OWL 2 и тд
Так что работы всем хватит )
PS. помню в России защищалась работа по анализу текстовых документов,
где красиво описали модель представления текстов документов на основе
графа. А их метод анализа текстов, при доработке можно было применить
для формирования онтологии... Главное, модель текста, и его елемента,
связать со структурой объектов онтологий и вообщем-то все. Конечно
это непросто сделать, но мне кажеться, что возможно.
Если хорошо посидеть в гугле то и полный текст диссертации можно найти
и все статьи по вопросу графового представления текстов. По крайней
мере, когда меня это интересовало материал был.
PS. помню в России защищалась работа по анализу текстовых документов,
где красиво описали модель представления текстов документов на основе
графа. А их метод анализа текстов, при доработке можно было применить
для формирования онтологии... Главное, модель текста, и его елемента,
связать со структурой объектов онтологий и вообщем-то все. Конечно
это непросто сделать, но мне кажеться, что возможно.
Если хорошо посидеть в гугле то и полный текст диссертации можно найти
и все статьи по вопросу графового представления текстов. По крайней
мере, когда меня это интересовало материал был.
On 17 янв, 10:54, "Xasima Xirohata" <xas...@gmail.com> wrote:
> можешь вспомнить автора / год? случайно не этаhttp://www.gotai.net/documents/doc-art-005.aspx
> <http://www.gotai.net/documents/doc-art-005.aspx>
>
> 2009/1/17 Shcherbak Sergey <onto...@gmail.com>
On 17 янв, 18:06, "Евгений Рабчевский" <evg...@rabchevsky.name> wrote:
> касательноhttp://www.gotai.net/documents/doc-art-005.aspx
> суть введенного автором понятия информационного потока (при построении
> графа), заключается в том, что
> 1.. узел - представляет собой понятие, которое лексикализовано только одним
> словом
> 2. рассматриваются связи только между соседними словами
> в реальности оба положения не всегда верны, хотя как вариант, интересно
> посмотреть на "объективные" показатели качества поиска, основанного на такой
> модели
>
> Кстати, относительно оценки качества поиска: есть замечательная организация
> РОМИП (Российский Семинар по Оценке Методов Информационного Поиска): каждый
> желающий может получить задание на поиск (есть несколько видов заданий) по
> определенной коллекции, и решив задание, может сравнить свои результаты с
> результатами остальных участников.http://romip.ru
>
> >> главное, чтобы были какие нибудь средства анализа
> >> источника, которые могли бы создать образ источника на моем спец.
> >> языке.
>
> СЕГОДНЯ, это самое узкое место (средства анализа источника), конечно ручная
> разметка документов потихоньку набирает обороты, но увы ...
> и на западе кстати в плане НЛП добились хороших результатов
>
> Сергей, очень радостно, что есть люди, у которых есть силы и средства на
> поддержку ресурсов, подобных твоему!
> Относительно Complex Table Model что-то типа http не подскажешь?
>
> 17.01.09, Shcherbak Sergey <onto...@gmail.com> написал(а):
Например,
Положения CTM лежат в основе табличного представления информации в
HTML (таблицы HTML по стандарту W3C cтроятся по этой модели)
Идея была глубже - популярность таблиц Html, применяемых для
структуризации информации на web страничках натолкнула меня на мысль,
что можно написать автомат, переводящий информацию в таблицах HTML в
RDF . Т.Е анализатор странички, структурированной с помощью таблиц,
легко мог бы перевести ее в RDF. Кроме того, можно делать было делать
привязку к схеме RDFS. Т.Е посути реализация полного цикла создания
онтологии
И мат. аппарат для этого я написал двух видов (с различными
ограничениями), потом делал практическую реализацию.
А потом я уже защитился. А теперь я на пути к следующей цели.
On 18 янв, 16:13, "Евгений Рабчевский" <evg...@rabchevsky.name> wrote:
> Сергей,
> такhttp://www.google.ru/search?hl=ru&q=Complex+Table+Model
> я тоже пробовал, только не врубаюсь причем тут HTML?
> В чем заключается задача? из HTML таблиц строить RDF графы, или что?
>
> 17.01.09, Shcherbak Sergey <onto...@gmail.com> написал(а):
18.01.09, Shcherbak Sergey<ont...@gmail.com> написал(а):
Я занимаюсь схожей темой - преобразованием списков в HTML в формат
RSS. Там также работает автомат который распознаёт структуру данных и
значимые участки и восстанавливает/структуририует новости по их тексту
на странице. Собственно рабочий прототип уже где-то полгода работает
по адресу - http://www.skyur.ru. При этом изначальная идея была в
построении объектной карты веб страницы - построение онтологии частей
веб страниц и сайтов, распознавание значимых участков и формирование
RDF на их основе. Частично удалось добиться результатов, но стали
всплывать уже технические сложности с большим числом регулярных
выражений, поддержкой множества языков и так далее.
С уважением,
Иван Бегтин
2009/1/19 Евгений Рабчевский <evg...@rabchevsky.name>:
--
Igor V Artamonov | www.artamonov.ru | ICQ: 120170178 | Skype: splixed
С уважением,
Иван Бегтин
On 19 янв, 19:52, "Евгений Рабчевский" <evg...@rabchevsky.name> wrote:
> Иван, я думаю, совеременные сайты все имеют RSS. ОДНАКО умение распозновать
> новости, очень хорошо можно применить в информационом поискке, поясню
> например пользователь ищет нечто специфическое, про то, о чем не пишут
> информ агентства, с помощью такого средства, пользователь
> сможет отфильтровать только те матераилы, которые можно отнести к новостям.
> Думаю очень даже актуально.
>
> 19.01.09, Бегтин Иван <ibeg...@gmail.com> написал(а):
>
>
>
> > Насчёт анализа таблиц - интересная тема, мне не так попадались
> > исследования по TableSeer и TableRank - учёт табличных данных при
> > ранжировании документов. Например, вот тут -
> >http://chemxseer.ist.psu.edu/about/digital_library/Liu-WWW2007.pdf
>
> > Я занимаюсь схожей темой - преобразованием списков в HTML в формат
> > RSS. Там также работает автомат который распознаёт структуру данных и
> > значимые участки и восстанавливает/структуририует новости по их тексту
> > на странице. Собственно рабочий прототип уже где-то полгода работает
> > по адресу -http://www.skyur.ru. При этом изначальная идея была в
> ...
>
> продолжение >>
> ...
>
> продолжение >>
Когда я только задумывался над алгоритмом восстановления списков
новостей я вначале проанализировал веб страницы примерно на 300
ресурсах и анализировал комбинации тегов для описания объектов
(новостей), повторяемость там была минимальная - практически нулевая и
поначалу задача казалась практически неразрешимой так как новостные
страницы везде были уникальны по своему. Лишь потом в результате ряда
экспериментов удалось определить что подавляющее число комбинаций
укладываются в 5-6 шаблонов, а остальные ещё в 20-30 и реализовать
алгоритм в итоге удалось используя не статические схемы, а выявлением
меток и построением дерева решений для классификации. На мой взгляд
классификация различных вариаций форм представления позволит задачу
анализа значительно упростить и может быть применено, как к таблицам,
так и к любым другим формам представления данных - новости, графики,
события и так далее.
С уважением,
Иван Бегтин
> ...
>
> продолжение >>