Après la conférence DataLift hier, c'est le moment de tester

65 views

Skip to first unread message

Jean-Marc Vanel

unread,

Mar 28, 2014, 10:55:52 AM3/28/14

to datalif...@inria.fr, deduct...@googlegroups.com

Après la conférence DataLift hier, c'est le moment de tester avec la même donnée qu'avec Karma Web.

Voir mon test Karma Web:

https://groups.google.com/forum/?fromgroups#!topic/deductions-fr/xYo5hFBcZTo

J'ai d'abord essayé DataLift à partir des sources , mais:

- compilation pas possible d'emblée

- les instructions pour lancer l'application ne sont pas complètes

Je me suis tourné vers la distrib' pour Linux.

Et là, on ne retrouve pas tous les modules qu'il y a dans les sources:

% ls -l */dist/*.jar

-rw-r--r-- 1 jmv jmv 271833 mars 27 09:20 allegrograph-connector/dist/allegrograph-connector-1.0.jar

-rw-r--r-- 1 jmv jmv 221354 mars 27 09:20 database-directmapper/dist/database-directmapper.jar

-rw-r--r-- 1 jmv jmv 298071 mars 27 09:20 flint-endpoint/dist/flint-endpoint.jar

-rw-r--r-- 1 jmv jmv 168494 mars 27 09:19 framework/dist/datalift-framework-0.7.3.jar

-rw-r--r-- 1 jmv jmv 11918901 mars 27 09:20 geo-convert/dist/geo-converter.jar

-rw-r--r-- 1 jmv jmv 235224 mars 27 09:20 projectmanager/dist/project-manager.jar

-rw-r--r-- 1 jmv jmv 25512 mars 27 09:20 s4ac/dist/s4ac.jar

-rw-r--r-- 1 jmv jmv 20340370 mars 27 09:20 silk-interlinker/dist/silk-interlinker.jar

-rw-r--r-- 1 jmv jmv 606361 mars 27 09:20 simple-convert/dist/simple-converters.jar

-rw-r--r-- 1 jmv jmv 64464 mars 27 09:20 sparql-endpoint/dist/sparql-endpoint.jar

-rw-r--r-- 1 jmv jmv 503986 mars 27 09:20 stringtouri/dist/stringtouri.jar

-rw-r--r-- 1 jmv jmv 237908 mars 27 09:20 virtuoso-connector/dist/virtuoso-connector-1.0.jar

De plus, on a mentionné 40 modules à la conférence. Ils sont certainement dans d'autres forges, mais alors il faudrait avoir un moyen de les installer comme avec eclipse ou Protégé.

Je commence donc le test avec le chargement des ontologies: FOAF, dbPedia, wgs84_pos.

Il n'est pas possible de le faire en donnant juste les préfixes usuels, en utilisant le service prefix.cc:

foaf: dbo: wgs:

NOTES: le service http://prefix.cc renvoie un URI de vocabulaire à partir de son préfixe usuel, par exemple:

http://prefix.cc/wgs

Ce service est utilisé par exemple dans EulerGUI.

Cependant ce service ne marche pas avec l'ontologie dbpedia, qui n'est pas téléchargeable à sa propre URI, mais ici:

http://downloads.dbpedia.org/3.9/dbpedia_3.9.owl

On entre alors la donnée CSV:

http://data.iledefrance.fr/api/records/1.0/download?dataset=carte-des-pharmacies-dile-de-france&format=csv

on choisit point virgule (en fait "semicolon", l'application ne semble pas internationalisée).

On obtient alors un hyperlien "download.csv" . Si clique dessus, on obtient une vue tabulaire.

Si on revient sur l'onglet "Description" , on peut alors cliquer sur "Direct mapping CSV to RDF".

J'entre alors ces paramètres:

Name of the new source: carte-des-pharmacies-dile-de-france - (RDF #1)

Named graph URI: http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#

Base URI: http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#

Target RDF type: http://dbpedia.org/ontology/Organization

NOTE: à nouveau, on constate qu'il n'est pas possible d'utiliser un préfixe connu:

dbo:Organization

Dans "Data type mapping" , je met à entier les colonnes "numvoie" et "departement" .

Je n'ose pas faire de même pour "dateouv", "dateautor", "datemaj" , qui sont des colonnes avec une date en français telle que "13 mars 1998".

Après quelques secondes, on obtient alors un hyperlien "carte-des-pharmacies-dile-de-france - (RDF #1)" , qui ouvre

un tableau à 3 colonnes: Subject Predicate Object.

commençant par:

http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#9 http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://dbpedia.org/ontology/Organization

NOTES:

- à nouveau, on constate qu'il n'y a aucune utilisation de préfixes;

- hélas, la taille du tableau ne suit pas celle de l'écran: sur un écran large, il y a 30% de blanc! une table HTML toute simple serait plus fonctionnelle;

- bonne surprise: les dates en français telles que "13 mars 1998" ont été transformées en chaînes conformes aux dates XML: "1998-03-13"

cependant, là encore je doute que l'application soit internationalisée : une date en anglais ou en allemand serait-elle traitée pareillement?

Maintenant si on revient sur l'onglet "Description" , on a les 10 choix suivants:

Direct mapping CSV to RDF

RDF conversion

Ontology-based RDF conversion

RDF to RDF transformation (CONSTRUCT)

RDF URI translation

Interconnexion avec Silk

Simple Visualisation

Data publishing to public RDF store

Data export to RDF file

Data export to CSV file

En essayant "RDF conversion" , on obtient ce popup:

SPARQL syntax error: Encountered " "<" "< "" at line 1, column 34.

Was expecting one of:

<Q_IRI_REF> ...

<PNAME_NS> ...

<PNAME_LN> ...

<VAR1> ...

<VAR2> ...

"Visualisation simple" produit une sorte d' histogramme difficile à comprendre ...

J'essaie maintenant "URI RDF Traduction" pour essayer de changer le prédicat

http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#rs

en un prédicat standard :

http://xmlns.com/foaf/0.1/name

à savoir foaf:name

Ca fonctionne, et crée encore un autre graphe nommé:

http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france #-rdf-1.

De toute évidence, si j'ai beaucoup de tels renommages d'URI, ce sera malcommode.

Je vais donc essayer la transformation "RDF to RDF transformation (CONSTRUCT)" , et essayer de reproduire ce que j'ai fait avec Karma Web,

c'est-à-dire associer les colonnes "commune", "cp" avec une nouvelle ressource de type dbpedia:City , via les propriétés respectivement

foaf:name et dbpedia;postalCode .

Et la nouvelle ressource de type dbpedia:City sera elle associée à la ligne courante (de type dbpedia:Organization) via la propriété dbpedia:locationCity .

Et là, on entre dans un champ de saisie SPARQL totalement vierge,

dans un éditeur sans aide particulère, pas même syntaxique.

J'entre ceci:

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>

PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

PREFIX owl: <http://www.w3.org/2002/07/owl#>

PREFIX foaf: <http://xmlns.com/foaf/0.1/>

PREFIX dbo: <http://dbpedia.org/ontology/>

PREFIX dbpedia: <http://dbpedia.org/resource/>

PREFIX dbprop: <http://dbpedia.org/property/>

PREFIX phar: <http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#>

CONSTRUCT {

?C a dbo:City ;

foaf:name ?CO ;

dbo:postalCode ?CP .

?PH dbo:locationCity ?C .

} WHERE {

?PH phar:cp ?CP ;

phar:commune ?CO .

}

ca échoue avec le message:

Duplicate source identifier (http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#-rdf-1) in project "idf". Please try with a different name for source "carte-des-pharmacies-dile-de-france - (RDF #1) - (RDF #1)".

Je n'ai pas changé un nom ou une adresse URI, juste le SPARQL.

Je retente en changeant

(http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#-rdf-1

par:

(http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#-rdf-2

Mais ça a fini par deux graphes nommés vides:

Title Informations

carte-des-pharmacies-dile-de-france - (RDF #1) Named graph: http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#

Parent source: download.csv

Created on: Mar 28, 2014 12:32:27 PM

carte-des-pharmacies-dile-de-france - (RDF #1) - (RDF #1) Named graph: http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#-rdf-2

Parent source: carte-des-pharmacies-dile-de-france - (RDF #1)

Created on: Mar 28, 2014 3:15:52 PM

carte-des-pharmacies-dile-de-france - (RDF #1) - (RDF #1) Named graph: http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#-rdf-1

Parent source: carte-des-pharmacies-dile-de-france - (RDF #1)

Created on: Mar 28, 2014 2:37:27 PM

The fact that datasets are designated by URI or by T"itle" is confusing.

I give up!

Le fait que les ensembles de données sont désignés par URI ou par "Titre" prête à confusion.

J'abandonne!

Conclusions:

- la transformation initiales de CSV en RDF est facile

- Les changements structurels sont beaucoup plus simples avec Karma Web.

- les Préfixes d'URI devraient être utilisés partout.

- pas d'aide pour éditer du SPARQL

- tous les modules ne sont pas dans la distribution

- Pas de localisation française.

- Aucun moyen d'exporter le projet comme un ensemble de transformations réutilisables qui pourrait être appliqué ailleurs (Karma Web a un export vers un fichier RDF r2rml; r2rml est un standard du W3C pour la correspondance table - RDF)

Jean-Marc Vanel
Déductions SARL - Consulting, services, training,
Rule-based programming, Semantic Web
http://deductions-software.com/
+33 (0)6 89 16 29 52
Twitter: @jmvanel , @jmvanel_fr ; chat: irc://irc.freenode.net#eulergui

Reply all

Reply to author

Forward

0 new messages