Après la conférence DataLift hier, c'est le moment de tester

64 views
Skip to first unread message

Jean-Marc Vanel

unread,
Mar 28, 2014, 10:55:52 AM3/28/14
to datalif...@inria.fr, deduct...@googlegroups.com
Après la conférence DataLift hier, c'est le moment de tester avec la même donnée qu'avec Karma Web.
Voir mon test Karma Web:

J'ai d'abord essayé DataLift à partir des sources , mais:
- compilation pas possible d'emblée
- les instructions pour lancer l'application ne sont pas complètes

Je me suis tourné vers la distrib' pour Linux.
Et là, on ne retrouve pas tous les modules qu'il y a dans les sources:

% ls -l */dist/*.jar 
-rw-r--r-- 1 jmv jmv   271833 mars  27 09:20 allegrograph-connector/dist/allegrograph-connector-1.0.jar
-rw-r--r-- 1 jmv jmv   221354 mars  27 09:20 database-directmapper/dist/database-directmapper.jar
-rw-r--r-- 1 jmv jmv   298071 mars  27 09:20 flint-endpoint/dist/flint-endpoint.jar
-rw-r--r-- 1 jmv jmv   168494 mars  27 09:19 framework/dist/datalift-framework-0.7.3.jar
-rw-r--r-- 1 jmv jmv 11918901 mars  27 09:20 geo-convert/dist/geo-converter.jar
-rw-r--r-- 1 jmv jmv   235224 mars  27 09:20 projectmanager/dist/project-manager.jar
-rw-r--r-- 1 jmv jmv    25512 mars  27 09:20 s4ac/dist/s4ac.jar
-rw-r--r-- 1 jmv jmv 20340370 mars  27 09:20 silk-interlinker/dist/silk-interlinker.jar
-rw-r--r-- 1 jmv jmv   606361 mars  27 09:20 simple-convert/dist/simple-converters.jar
-rw-r--r-- 1 jmv jmv    64464 mars  27 09:20 sparql-endpoint/dist/sparql-endpoint.jar
-rw-r--r-- 1 jmv jmv   503986 mars  27 09:20 stringtouri/dist/stringtouri.jar
-rw-r--r-- 1 jmv jmv   237908 mars  27 09:20 virtuoso-connector/dist/virtuoso-connector-1.0.jar

De plus, on a mentionné 40 modules à la conférence. Ils sont certainement dans d'autres forges, mais alors il faudrait avoir  un moyen de les installer comme avec eclipse ou Protégé.


Je commence donc le test avec le chargement des ontologies: FOAF, dbPedia, wgs84_pos.
Il n'est pas possible de le faire en donnant juste les préfixes usuels, en utilisant le service prefix.cc:
foaf: dbo: wgs:

NOTES: le  service http://prefix.cc renvoie un URI de vocabulaire à partir de son préfixe usuel, par exemple:
Ce service est utilisé par exemple dans EulerGUI.
Cependant ce service ne marche pas avec l'ontologie dbpedia, qui n'est pas téléchargeable à sa propre URI, mais ici:


On entre alors la donnée CSV:
on choisit point virgule (en fait "semicolon", l'application ne semble pas internationalisée).
On obtient alors un hyperlien "download.csv" . Si clique dessus, on obtient une vue tabulaire.

Si on revient sur l'onglet "Description" , on peut alors cliquer sur "Direct mapping CSV to RDF".
J'entre alors ces paramètres:

Name of the new source: carte-des-pharmacies-dile-de-france - (RDF #1)

NOTE: à nouveau, on constate qu'il n'est pas possible d'utiliser un préfixe connu:
dbo:Organization

Dans "Data type mapping" , je met à entier les colonnes  "numvoie" et "departement" .
Je n'ose pas faire de même pour "dateouv", "dateautor", "datemaj" , qui sont des colonnes avec une date en français telle que "13 mars 1998".

Après quelques secondes, on obtient alors un hyperlien "carte-des-pharmacies-dile-de-france - (RDF #1)" , qui ouvre 
un tableau à 3 colonnes: Subject Predicate Object.
commençant par:

NOTES:
- à nouveau, on constate qu'il n'y a aucune utilisation de préfixes;
- hélas, la taille du tableau ne suit pas celle de l'écran: sur un écran large, il y a 30% de blanc! une table HTML toute simple serait plus fonctionnelle;
- bonne surprise: les dates en français telles que "13 mars 1998" ont été transformées en chaînes conformes aux dates XML: "1998-03-13"
  cependant, là encore je doute que l'application soit internationalisée : une date en anglais ou en allemand serait-elle traitée pareillement?

Maintenant si on revient sur l'onglet "Description" , on a les 10 choix suivants:

    Direct mapping CSV to RDF
    RDF conversion
    Ontology-based RDF conversion
    RDF to RDF transformation (CONSTRUCT)
    RDF URI translation
    Interconnexion avec Silk
    Simple Visualisation
    Data publishing to public RDF store
    Data export to RDF file
    Data export to CSV file

En essayant "RDF conversion" , on obtient ce popup:

SPARQL syntax error: Encountered " "<" "< "" at line 1, column 34.
Was expecting one of:
    <Q_IRI_REF> ...
    <PNAME_NS> ...
    <PNAME_LN> ...
    <VAR1> ...
    <VAR2> ...


"Visualisation simple" produit une sorte d' histogramme difficile à comprendre ... 


J'essaie maintenant "URI RDF Traduction" pour essayer de changer le prédicat 
en un prédicat standard : 
à savoir    foaf:name

Ca fonctionne, et crée encore un autre graphe nommé:
De toute évidence, si j'ai beaucoup de tels renommages d'URI, ce sera malcommode.


Je vais donc essayer la transformation "RDF to RDF transformation (CONSTRUCT)" , et essayer de reproduire ce que j'ai fait avec Karma Web, 
c'est-à-dire associer les colonnes  "commune", "cp" avec une nouvelle ressource de type dbpedia:City , via les propriétés respectivement
foaf:name et dbpedia;postalCode .
Et la nouvelle ressource de type dbpedia:City sera elle associée à la ligne courante (de type dbpedia:Organization) via la propriété dbpedia:locationCity .
Et là, on entre dans un champ de saisie SPARQL totalement vierge,
dans un éditeur sans aide particulère, pas même syntaxique.

J'entre ceci:

PREFIX dbpedia:  <http://dbpedia.org/resource/>
PREFIX dbprop:  <http://dbpedia.org/property/>

CONSTRUCT {
  ?C a dbo:City ;
    foaf:name ?CO ;
    dbo:postalCode ?CP .
  ?PH dbo:locationCity ?C .
} WHERE {
?PH phar:cp ?CP ;
       phar:commune ?CO .
}

ca échoue avec le message:

Duplicate source identifier (http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#-rdf-1) in project "idf". Please try with a different name for source "carte-des-pharmacies-dile-de-france - (RDF #1) - (RDF #1)".

Je n'ai pas changé un nom ou une adresse URI, juste le SPARQL. 
Je retente en changeant
par:

Mais ça a fini par deux graphes nommés vides:

Title Informations
carte-des-pharmacies-dile-de-france - (RDF #1) Named graph: http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#
Parent source: download.csv
Created on: Mar 28, 2014 12:32:27 PM
carte-des-pharmacies-dile-de-france - (RDF #1) - (RDF #1) Named graph: http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#-rdf-2
Parent source: carte-des-pharmacies-dile-de-france - (RDF #1)
Created on: Mar 28, 2014 3:15:52 PM
carte-des-pharmacies-dile-de-france - (RDF #1) - (RDF #1) Named graph: http://data.iledefrance.fr/dataset/carte-des-pharmacies-dile-de-france#-rdf-1
Parent source: carte-des-pharmacies-dile-de-france - (RDF #1)
Created on: Mar 28, 2014 2:37:27 PM

The fact that datasets are designated by URI or by T"itle" is confusing.
I give up!


Le fait que les ensembles de données sont désignés par URI ou par "Titre" prête à confusion. 
J'abandonne! 

Conclusions:

- la transformation initiales de CSV en RDF est facile 
- Les changements structurels sont beaucoup plus simples avec Karma Web. 
- les Préfixes d'URI devraient être utilisés partout. 
- pas d'aide pour éditer du SPARQL
- tous les modules ne sont pas dans la distribution
- Pas de localisation française. 
- Aucun moyen d'exporter le projet comme un ensemble de transformations réutilisables qui pourrait être appliqué ailleurs (Karma Web a un export vers un fichier RDF r2rml; r2rml est un standard du W3C pour la correspondance table - RDF)











--
Jean-Marc Vanel
Déductions SARL - Consulting, services, training,
Rule-based programming, Semantic Web
http://deductions-software.com/
+33 (0)6 89 16 29 52
Twitter: @jmvanel , @jmvanel_fr ; chat: irc://irc.freenode.net#eulergui
Reply all
Reply to author
Forward
0 new messages