Struktur der JSON Dateien

3 views
Skip to first unread message

Oleksii Gopanchuk

unread,
Feb 6, 2011, 7:00:38 AM2/6/11
to goolap-e...@googlegroups.com
Hallo,

ich konnte nirgendwo im Wiki eine Beschreibung der JSON Dateien finden,
die jetzt eingesetzt werden. Ich habe einige Beschreibungen im Quelltext
gefunden:


- Für Seeds:
/enjoy-align/src/main/java/info/goolap/enjoy/align/AlignOperator.java

{ id : "id",
url : "url",
+ seed : { "id":<seedID>, "COL_2":["alias1", "alias2", ...],
"COL_4":["alias1", "alias2", ...] }
fulltext : fulltext
}


- Für URLs zu den Seeds
/enjoy-data/src/main/java/info/goolap/enjoy/data/URLDocumentReader.java

[{"id":<id1>,"seedId":<sid>,"url":<url1>},
{"id":<id2>,"seedId":<sid>,"url":<url2>},
..
]


- Für Freebase Import
/enjoy-seeding/src/main/java/info/goolap/enjoy/freebaseimport/Result.java

[
{ id:id1, values:{role1:[alias1, alias2, ...], role2:[alias1, alias2,
..], role3: ... } ,
{ id:id2, ... },
...
]


Ich bräuchte aber eine Beschreibung für Patterns, die aus Seeds
generiert werden, um DCM für sie zu berechnen. Ich kann mir zwar
ungefähre Struktur vorstellen, aber vielleicht gibt es eine, die jemand
schon benutzt?


Grüße
Oleksii

Felix Lange

unread,
Feb 6, 2011, 8:57:02 AM2/6/11
to goolap-e...@googlegroups.com
Hallo Oleksii,
so weit ich weiß, gibt es dieses Datenformat noch nicht. Ich wäre eigentlich dafür zuständig und werde mich nächste Woche darum kümmern. Ich gebe Dir dann Bescheid.
Viele Grüße
Felix

--
Sie erhalten diese Nachricht, weil Sie Mitglied sind von Google
Groups-Gruppe "GOOLAP ENJOY Team".
Für das Erstellen von Beiträgen in dieser Gruppe senden Sie eine E-Mail
an goolap-e...@googlegroups.com
Um sich von dieser Gruppe abzumelden, senden Sie eine E-Mail an
goolap-enjoy-t...@googlegroups.com
Weitere Optionen finden Sie in dieser Gruppe unter
http://groups.google.com/group/goolap-enjoy-team?hl=de?hl=de

Alexander Löser

unread,
Feb 6, 2011, 11:44:30 AM2/6/11
to goolap-e...@googlegroups.com

Finde ich gut. Nur so kommen wir voran!

Alexander

Max Heimel

unread,
Feb 7, 2011, 7:07:14 AM2/7/11
to goolap-e...@googlegroups.com
Hey Oleksii,

du hast Recht, diese Struktur existiert (noch) nicht. Stefan (Schramm)  sitzt gerade daran, die UIMA Pipeline für die Basisextraktoren soweit vorzubereiten, dass sie bei uns eingesetzt werden kann. Wenn das soweit ist, werde ich mich um die Integration kümmern, dann steht auch das Format. Grundsätzlich wirst du getaggte Sätze erhalten. Das Format wird ungefähr so aussehen wie im Anhang.

Ich schreibe dir, wenn das ganze Zeugs integriert ist :)

Gruß
Max

PS:
Mit deiner tu-berlin Adresse (olek...@mailbox.tu-berlin.de) scheint irgendwas kaputt zu sein. Ich hatte schon letzte Woche versucht dir darüber was zu schreiben, bekomme aber die ganze Zeit failed delivery reports...

2011/2/6 Alexander Löser <alo...@cs.tu-berlin.de>
testbaseextractors_result.txt
Reply all
Reply to author
Forward
0 new messages