Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

XSLT на оборот

1 view
Skip to first unread message

Slava Pikarevskij-Ushakov

unread,
Nov 12, 2007, 9:50:36 AM11/12/07
to
Здpавствуй All ...

Существует ли сабж?

Имеется ввиду технология (прог. интерфейс и эхотаг стандарт) извлечения данных.
апример есть документ (.ткст с расписанием на неделю) с неявной структурой
(неформальный) сгенерированный закрытой инфорационной системой. Человек
анализирует этот документ и составляет сабжевый документ модель-шаблон
выявления структур и отображение в свой эхотажный документ. Далее на вход
сабжевому интерфейсу программе подается 2-е вещи
исходный "неформальный" и "модель-шаблон" документы, на выходе получается XML.

Andrei Protasovitski

unread,
Nov 12, 2007, 12:27:17 PM11/12/07
to
Доброго здоровья!

Slava Pikarevskij-Ushakov пишет:

Это называется SAX. Только применяется не к XML, а к произвольному
потоку событий. Hужен только парсер, генерирующий события.
Универсального не бывает. :)

--
Andrei Protasovitski
mailto: andrei.protasovitski()gmail.com

Slava Pikarevskij-Ushakov

unread,
Nov 15, 2007, 6:39:58 AM11/15/07
to
AP> Доброго здоровья!

AP> Slava Pikarevskij-Ushakov пишет:
>> Существует ли сабж?

AP> Это называется SAX.
AP> Только применяется не к XML,
AP> Универсального не бывает. :)

т.е. сабжа нет, ручками пишешь конкретный "парсер" под конкретный
документ, а для вывода XML пользуемся SAX.
у тут SAX как то особо без надобности.
Кисло.
я попробовал погуглить, сабж неизъясним для нечеловеческого поисковика,
тем не менее я заузил тему до придела, наглая однословная формулировка -
txt2xml
Таки есть такое!
http://txt2xml.sourceforge.net/
http://txt2xml-rexx.sourceforge.net/
но это конечно не сабж в общем и целом


Andrei Protasovitski

unread,
Nov 15, 2007, 9:11:21 AM11/15/07
to
Доброго здоровья!

Slava Pikarevskij-Ushakov пишет:
> >> Существует ли сабж?
> AP> Это называется SAX.
> AP> Только применяется не к XML,
> AP> Универсального не бывает. :)
> т.е. сабжа нет, ручками пишешь конкретный "парсер" под конкретный
> документ, а для вывода XML пользуемся SAX.
> у тут SAX как то особо без надобности.

Боюсь, ты не совсем понимаешь смысл слова SAX. А между тем SAX давно
вышел за рамки "Simple API for XML". Тебе нужно создать парсер,
генерирующий SAX события и скормить эти события SAX-writer'у. Вот и все. :)

> я попробовал погуглить, сабж неизъясним для нечеловеческого поисковика,
> тем не менее я заузил тему до придела, наглая однословная формулировка -
> txt2xml
> Таки есть такое!
> http://txt2xml.sourceforge.net/
> http://txt2xml-rexx.sourceforge.net/
> но это конечно не сабж в общем и целом

Интересно, что быстрее: написать свой парсер или прикрутить txt2xml под
"неявную структуру"? ;)

0 new messages