Похвастаться хочу: мы совместно с Talis публикуем большой каталог записей BBC.

6 views
Skip to first unread message

Ivan Mikhailov

unread,
Jun 10, 2009, 4:23:07 PM6/10/09
to webofdata.ru
Уже сейчас в открытом доступе карточки на 300000 эпизодов радио и
теле-передач и ещё куча всякой всячины.
http://welcomebackstage.com/2009/06/bbc-backstage-sparql-endpoint/

Ещё бы кто наших архивистов заинтересовал, а то ведь как раз сейчас
причёсывают архив телепрограмм...

Dmitry Ulanov

unread,
Jun 11, 2009, 12:26:19 AM6/11/09
to webofdat...@googlegroups.com
Извечный китайский вопрос сразу встает - а нахуа? Для Virtuoso все прозрачно - они свой рынок держат, а вот как размеченные данные использовать с пользой, этот вопрос остается открытым уже долгое время и больше всего меня занимает как раз.

2009/6/11 Ivan Mikhailov <imikh...@openlinksw.com>

--
dulanov.name

Dmitry Ulanov

unread,
Jun 11, 2009, 12:45:28 AM6/11/09
to webofdat...@googlegroups.com
Неплохое описание новости со слов очевидца (Yves Raimond):

We recently announced on the BBC backstage blog the availability of two SPARQL end-points, one hosted by Talis and one by OpenLink. These two companies aggregated the RDF data we publish at http://www.bbc.co.uk/programmes and http://www.bbc.co.uk/music. This opens up quite a lot of fascinating SPARQL queries. Talis already compiled a small list, and here are a couple I just designed:
  • Give me programmes that deal with the fictional character James Bond - results
PREFIX po: <http://purl.org/ontology/po/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
SELECT ?uri ?label
WHERE {
?uri po:person
<http://www.bbc.co.uk/programmes/people/bmFtZS9ib25kLCBqYW1lcyAobm8gcXVhbGlmaWVyKQ#person> ; rdfs:label ?label
}
  • GIve me artists that were featured in the same programme as the Foo Fighters - results
PREFIX po: <http://purl.org/ontology/po/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX mo: <http://purl.org/ontology/mo/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
PREFIX event: <http://purl.org/NET/c4dm/event.owl#>
PREFIX tl: <http://purl.org/NET/c4dm/timeline.owl#>
SELECT DISTINCT ?artist2 ?label2
WHERE {
?event1 po:track ?track1 .
?track1 foaf:maker <http://www.bbc.co.uk/music/artists/67f66c07-6e61-4026-ade5-7e782fad3a5d#artist> .
?event2 po:track ?track2 .
?track2 foaf:maker ?artist2 .
?artist2 rdfs:label ?label2 .
?event1 po:time ?t1 .
?event2 po:time ?t2 .
?t1 tl:timeline ?tl .
?t2 tl:timeline ?tl .
FILTER (?t1 != ?t2)
}
  • Give me programmes that featured both Al Green and the Foo Fighters (yes! there is one result!!) - results
PREFIX po: <http://purl.org/ontology/po/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX mo: <http://purl.org/ontology/mo/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
PREFIX event: <http://purl.org/NET/c4dm/event.owl#>
PREFIX tl: <http://purl.org/NET/c4dm/timeline.owl#>
SELECT DISTINCT ?programme ?label
WHERE {
?event1 po:track ?track1 .
?track1 foaf:maker <http://www.bbc.co.uk/music/artists/67f66c07-6e61-4026-ade5-7e782fad3a5d#artist> .
?event2 po:track ?track2 .
?track2 foaf:maker <http://www.bbc.co.uk/music/artists/fb7272ba-f130-4f0a-934d-6eeea4c18c9a#artist> .
?event1 po:time ?t1 .
?event2 po:time ?t2 .
?t1 tl:timeline ?tl .
?t2 tl:timeline ?tl .
?version po:time ?t .
?t tl:timeline ?tl .
?programme po:version ?version .
?programme rdfs:label ?label .
}
  • All programmes that featured an artist originating from Northern Ireland - results
PREFIX po: <http://purl.org/ontology/po/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX mo: <http://purl.org/ontology/mo/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
PREFIX event: <http://purl.org/NET/c4dm/event.owl#>
PREFIX tl: <http://purl.org/NET/c4dm/timeline.owl#>
PREFIX dbprop: <http://dbpedia.org/property/>
PREFIX owl: <http://www.w3.org/2002/07/owl#>
SELECT DISTINCT ?programme ?label ?artistlabel ?dbpmaker
WHERE {
?event1 po:track ?track1 .
?track1 foaf:maker ?maker .
?maker rdfs:label ?artistlabel .
?maker owl:sameAs ?dbpmaker .
?dbpmaker dbprop:origin <http://dbpedia.org/resource/Northern_Ireland> .
?event1 po:time ?t1 .
?t1 tl:timeline ?tl .
?version po:time ?t .
?t tl:timeline ?tl .
?programme po:version ?version .
?programme rdfs:label ?label .
}
Подробности: http://blog.dbtune.org/post/2009/06/11/BBC-SPARQL-end-points

Круто, глобальная база данных у нас есть, а что дальше, будем запросики гонять или что-то дейсвительное полезное можно сделать? )

2009/6/11 Dmitry Ulanov <dul...@gmail.com>



--
dulanov.name

Vladimir

unread,
Jun 11, 2009, 6:14:31 AM6/11/09
to webofdata.ru
Дмитрий,

> Круто, глобальная база данных у нас есть, а что дальше, будем запросики
> гонять или что-то дейсвительное полезное можно сделать? )

> > Извечный китайский вопрос сразу встает - а нахуа? Для Virtuoso все


> > прозрачно - они свой рынок держат, а вот как размеченные данные использовать
> > с пользой, этот вопрос остается открытым уже долгое время и больше всего
> > меня занимает как раз.

Этот вопрос и меня занимает. Ключевое слово _польза_...
Во время круглого стола на WebConf, пытался свернуть на эту дорожку,
но важнее (как ни странно) оказались вопросы о SPARQL / XQuery / RDF /
RDB / XML DB и т.п.

Мне эта ситуация напоминает ту,
когда многие научились HTML'у и начали
писать код "просто так".

Может быть, цель webofdata.ru отчасти и состоит в том,
чтобы бежать немного "впереди виртуозо..."

С другой стороны, уже сам факт появления
глобальной базы данных не может не радовать!
Поздравляю всех, кто приложил усилия для этого.

С уважением,
Владимир

Ivan Mikhailov

unread,
Jun 11, 2009, 7:42:10 AM6/11/09
to webofdat...@googlegroups.com

> Уже сейчас в открытом доступе карточки на 300000 эпизодов
> радио и
> теле-передач и ещё куча всякой всячины.
> http://welcomebackstage.com/2009/06/bbc-backstage-sparql-endpoint/
>
> Ещё бы кто наших архивистов заинтересовал, а то ведь как раз
> сейчас
> причёсывают архив телепрограмм...
>
> Извечный китайский вопрос сразу встает - а нахуа?

Как это "нахуа"? Эти треть миллиона эпизодов формировали аудиторию для
миллиона экспозиций разнообразной рекламы. У рекламистов есть свои базы
данных по экспозициям, но они плохо описывают контекст, а частью эти
описания контекста стали бесполезными (кто теперь вспомнит подробности о
какой-нибудь давней передаче по её названию и сетке вещания?) Теперь
заметный кусок старых данных по экспозициям опять может быть эффективно
использован, и ситуация будет только улучшаться. Это очень крупные
деньги.

С другой стороны, эта работа может стать и проблемой для общества. Те же
самые данные помогут кому-то улучшить политтехнологии и в итоге
эффективнее манипулировать общественным мнением как на родине, так и в
атакуемых странах. Полагаю, что политики нажали бы на BBC и запустили бы
проект даже при отсутствии коммерческих причин.

Vladimir

unread,
Jun 11, 2009, 7:53:05 AM6/11/09
to webofdata.ru
Иван,

Польза -- налицо.
Только наших архивных работников этим не купишь...
Если только им сверху спустят.

А стенограммы передач (т.е. тексты) там подключены?
Есть ли временнАя разметка текста?

Ivan Mikhailov

unread,
Jun 11, 2009, 8:18:20 AM6/11/09
to webofdat...@googlegroups.com
> А стенограммы передач (т.е. тексты) там подключены?
> Есть ли временнАя разметка текста?

Если честно --- не знаю. Я вообще узнаю только про те фрагменты
проектов, откуда баги репортят.

Ivan Mikhailov

unread,
Jun 11, 2009, 9:20:02 AM6/11/09
to webofdat...@googlegroups.com
Вдогонку. Узнал, на какой железяке это крутится. Двухвершковый ящик с
E5xxx ксеоном, 72 Gb памяти, 4 зеркальные пары дешёвых дисков, стоит в
одном из датацентров xs4all . Подороже комодов из
http://webofdata.ru/Commodity_Hardware_for_LOD , но ненамного, и это
радует.

Alexander Sidorov

unread,
Jul 18, 2010, 2:42:24 AM7/18/10
to webofdat...@googlegroups.com
В продолжение темы BBC+Linked Data vs. "нахуа" Data: The World Cup and a call to action around Linked Data

Иван, в тексте проскальзывает информация, что BBC используют Big OWLIM. Не поделитесь подробностями их миграции с Virtuoso на Big OWLIM?

11 июня 2009 г. 20:20 пользователь Ivan Mikhailov <imikh...@openlinksw.com> написал:
--~--~---------~--~----~------------~-------~--~----~
Данное сообщение отправлено Вам, так как Вы являетесь подписчиком группы "webofdata.ru" в Группах Google.
 Для того, чтобы отправить сообщение в эту группу, пошлите его по адресу
webofdat...@googlegroups.com
 Чтобы отменить подписку на эту группу, отправьте сообщение по адресу: webofdata-russ...@googlegroups.com
 Чтобы выполнить другие действия, посетите страницу группы http://groups.google.com/group/webofdata-russian?hl=ru
-~----------~----~----~----~------~----~------~--~---


Ivan Mikhailov

unread,
Jul 18, 2010, 5:06:04 AM7/18/10
to webofdat...@googlegroups.com
Это не миграция, это они сделали отдельную системку.
> --
> Вы получили это сообщение, поскольку подписаны на группу веб данных.
> Чтобы добавлять сообщения в эту группу, отправьте письмо по адресу
> webofdat...@googlegroups.com.
> Чтобы отменить подписку на эту группу, отправьте сообщение по адресу
> webofdata-russ...@googlegroups.com.
> О дополнительных функциях можно узнать в группе по адресу
> http://groups.google.com/group/webofdata-russian?hl=ru.

Alexander Sidorov

unread,
Jul 19, 2010, 12:19:34 AM7/19/10
to webofdat...@googlegroups.com
Но ведь, наверняка, та же команда работала.

Интересно, чем BigOWLIM им приглянулся больше Virtuoso. Вряд для них важна разница в цене, значит что-то еще...

18 июля 2010 г. 16:06 пользователь Ivan Mikhailov <imikh...@openlinksw.com> написал:

Ivan Mikhailov

unread,
Jul 19, 2010, 4:47:15 AM7/19/10
to webofdat...@googlegroups.com
> > В продолжение темы BBC+Linked Data vs. "нахуа" Data: The World
Cup > > and a call to action around Linked Data
> >
> > Иван, в тексте проскальзывает информация, что BBC используют
> Big
> > OWLIM. Не поделитесь подробностями их миграции с Virtuoso на
> Big
> > OWLIM?

> Это не миграция, это они сделали отдельную системку.

> Но ведь, наверняка, та же команда работала.
>
> Интересно, чем BigOWLIM им приглянулся больше Virtuoso. Вряд для них
> важна разница в цене, значит что-то еще...

Им в первую очередь Languageware приглянулся, и текстовые наработки
Онтотекста. И в отличие от архива, для прямо сейчас идущего чемпионата
мира (так же как и для будущих олимп.игр-2012) нет никаких старых баз
данных, с которыми может потребоваться глубокая интеграция.

Объём собственно RDF и глубина его обработки там настолько незаметны,
что не представляют сложностей ни для одной из систем. Зато BigOWLIM
предоставляет полноценную "машину времени", позволяющую выполнять
запросы не только над текущим состоянием базы, но и над любой более
ранней "стабильной точкой". Это означает, что если анализатор текста
крупно накосячит, и "выльет в базу ушат дерьма", то можно даже не
переключаться на бэкап, можно мгновенно назначить для всех веб-операций
последнюю стабильную точку, а потом спокойно всё исправить.

Всего наилучшего,

Иван Михайлов
OpenLink Software
http://virtuoso.openlinksw.com



Reply all
Reply to author
Forward
0 new messages