Существует ли сабж?
Имеется ввиду технология (прог. интерфейс и эхотаг стандарт) извлечения данных.
апример есть документ (.ткст с расписанием на неделю) с неявной структурой
(неформальный) сгенерированный закрытой инфорационной системой. Человек
анализирует этот документ и составляет сабжевый документ модель-шаблон
выявления структур и отображение в свой эхотажный документ. Далее на вход
сабжевому интерфейсу программе подается 2-е вещи
исходный "неформальный" и "модель-шаблон" документы, на выходе получается XML.
Slava Pikarevskij-Ushakov пишет:
Это называется SAX. Только применяется не к XML, а к произвольному
потоку событий. Hужен только парсер, генерирующий события.
Универсального не бывает. :)
--
Andrei Protasovitski
mailto: andrei.protasovitski()gmail.com
AP> Slava Pikarevskij-Ushakov пишет:
>> Существует ли сабж?
AP> Это называется SAX.
AP> Только применяется не к XML,
AP> Универсального не бывает. :)
т.е. сабжа нет, ручками пишешь конкретный "парсер" под конкретный
документ, а для вывода XML пользуемся SAX.
у тут SAX как то особо без надобности.
Кисло.
я попробовал погуглить, сабж неизъясним для нечеловеческого поисковика,
тем не менее я заузил тему до придела, наглая однословная формулировка -
txt2xml
Таки есть такое!
http://txt2xml.sourceforge.net/
http://txt2xml-rexx.sourceforge.net/
но это конечно не сабж в общем и целом
Slava Pikarevskij-Ushakov пишет:
> >> Существует ли сабж?
> AP> Это называется SAX.
> AP> Только применяется не к XML,
> AP> Универсального не бывает. :)
> т.е. сабжа нет, ручками пишешь конкретный "парсер" под конкретный
> документ, а для вывода XML пользуемся SAX.
> у тут SAX как то особо без надобности.
Боюсь, ты не совсем понимаешь смысл слова SAX. А между тем SAX давно
вышел за рамки "Simple API for XML". Тебе нужно создать парсер,
генерирующий SAX события и скормить эти события SAX-writer'у. Вот и все. :)
> я попробовал погуглить, сабж неизъясним для нечеловеческого поисковика,
> тем не менее я заузил тему до придела, наглая однословная формулировка -
> txt2xml
> Таки есть такое!
> http://txt2xml.sourceforge.net/
> http://txt2xml-rexx.sourceforge.net/
> но это конечно не сабж в общем и целом
Интересно, что быстрее: написать свой парсер или прикрутить txt2xml под
"неявную структуру"? ;)