Paskelbtas atvirų duomenų portalo įgyvendinimo viešasis pirkimas

25 views
Skip to first unread message

Mantas

unread,
Feb 20, 2019, 11:25:10 AM2/20/19
to AtviriDuomenys

Kasparas Adomaitis

unread,
Feb 25, 2019, 2:37:23 AM2/25/19
to atvirid...@googlegroups.com
Sveiki, 

gal kam pasirodys aktualu -

šiandien 17:30 M.Mažvydo bibliotekoje organizuojama diskusija apie Atvirus duomenis, dirbtinį intelektą ir kaip tai gali būti pritaikyta savivaldoje. Organizatorius esu kartu su Tomu Gulbinu, o dalyvaus Povilas Poderskis, Vilniaus m. administracijos direktorius, Audrius Zujus, Aresi Labs technologijų įmonės įkūrėjas, Lietuvos Dirbtinio Intelekto bendruomenės atstovas, AI Meetup įkūrėjas, Markas Mongirdas, “Kurk Lietuvai” projekto ekspertas.

Daugiau informacijos čia

Deklaruoju, kad tai tuo pačiu ir savivaldos rinkiminės programos pristatymo dalis, bet tikiuosi tai tik padarys diskusiją įdomesne :) taip pat kviečiu dalyvauti, išsakyti savo lūkesčius ir pasidalinti idėjomis.

linkėjimai,
Kasparas Adomaitis
Vilniaus m. tarybos narys / kandidatas

Martynas Jusevičius

unread,
Mar 6, 2019, 4:55:27 PM3/6/19
to AtviriDuomenys, Džiugas Tornau
Sveiki,

aš vis dar nesuprantu iki galo -- ar Atvirų duomenų portale (ADP) bus
duomenų rinkiniai savo pradiniais formatais? T.y. dauguma turbūt CSV,
kai kurie XML, kai kurie JSON ir t.t.

Ar bus bandoma juos apjungti/suvienodinti kažkaip ir sukišti į vieną
duomenų modelį? Konkurso sąlygose lyg neradau šito, bet tavo Spintos
aprašymas ("vertimas į vieningą žodyną, normalizavimas į normalinę
reliacinę formą, duomenų valymas, duomenų tikrnimas, kokybės
gerinimas, duomenų susiejimas") verčia taip manyti.

Antru atveju projektas pasmerktas žlugti, nes skirtingų duomenų
modelių iš principo neįmanoma sugrūsti į vieną, bendru atveju. Pvz.
XML į standartinį CSV (be pasikartojančių stulpelių) bendru atveju
nesikonvertuoja.
Viena išimtis kaip "suvienytas duomenų modelis" būtų RDF aka Knowledge
Graph, apie kurį bandžiau papasakot anksčiau. Bet tokiu atvejų prie
projekto sąmatos trūksta bent vieno nulio, nes tokio lygio/apimties
grafus kuruoja tokios organizacijos kaip UK Gov, Google, Thomson
Reuters, Apple ir pan. Kitaip sakant, tai reikalauja kito lygio
resursų.

Prašau paaiškinkit man :) Geriausiai su nuorodom į punktus konkurso
dokumentuose.

Martynas
> --
> Gavote šį pranešimą, nes prenumeruojate „Google“ grupę „atviriduomenys“.
> Jei norite atšaukti šios grupės prenumeratą ir iš jos nebegauti el. laiškų, praneškite apie tai adresu atviriduomeny...@googlegroups.com.
> Apsilankykite šioje grupėje adresu https://groups.google.com/group/atviriduomenys.
> Daugiau parinkčių rasite apsilankę adresu https://groups.google.com/d/optout.

Mantas

unread,
Mar 7, 2019, 1:39:22 AM3/7/19
to AtviriDuomenys, Džiugas Tornau
Spinta yra mano asmeninė iniciatyva, nesusijusi su ADP viešojo pirkimo technine specifikacija. Tačiau Spintos funkcionalumas dengia dalį techninės specifikacijos reikalavimų.

Manau tave dominančios vietos iš specifikacijos yra šios:

9.7 Funkciniai reikalavimai panaudos atvejui „Atvėrimo planavimas“:

[...]

R5 Aprašyti prioritetinių AD struktūrą.

ADP turi būti realizuota galimybė kiekvienam AD rinkiniui, kuris turi būseną „Įtrauktas į planą“ parengti duomenų struktūros aprašymą, kuris apima šiuos privalomus parametrus:
  • Duomens pavadinimas;
  • Duomens techninis pavadinimas;
  • Tipas;
ir šiuos neprivalomus:
  • Schema;
  • Duomenų bazės lentelė;
  • Duomens pavadinimas standartiniame žodyne.
[...]

9.10 Funkciniai reikalavimai pagal panaudos atvejį „Duomenų transformavimas“:

[...]

R 5.1 AD koordinatorius ir/ar AD tvarkytojas naudodamiesi trečiųjų šalių programine įranga esant galimybei parengia duomenų schemą ir ją publikuoja ADP kartu su duomenų rinkiniu.

Duomenų schema turi būti rengiama vadovaujantis viešai prieinamais duomenų schemų resursais, pvz.:

XML tipo failams - https://www.w3.org/XML/Schema;

RDF tipo failams - https://www.w3.org/TR/rdf-schema.

Mano interpretacija yra tokia, kad techninė specifikacija nedraudžia kurti RDF grafus, bet tuo pačiu tai nėra privaloma.

Bet čia yra tik bendro pobūdžio reikalavimai duomenų atvėrimo procesui. Konkrečiai apie partnerių duomenų atvėrimą rašoma II ir III viešojo pirkimo dalyse ir ten parašyta taip:

18 Reikalavimai II ir III pirkimo dalyse nurodytų partnerių atvirų duomenų rinkinių ir jų metaduomenų parengimui

[...]

18.1.4 ne žemesniu kaip trečias brandos lygmuo (žiūr. Techninės specifikacijos 1 priedas)

Čia aiškiai nurodyta, orientuojamasi į trečią brandos lygį, bet žinoma niekas nedraudžia, jei yra noro, duomenis atverti ir aukščiausiu brandos lygiu.


Spintoje yra naudojamas vidinis žodynas su vardų erdvėmis. Tai yra tarpinis variantas tarp jokio žodyno ir tarp standartinio žodyno. Standartiniu žodynu vadinu žinomus žodynus tokius kaip FOAF, DCT ir pan. Tačiau taip pat yra galimybė nurodyti ir standartinio žodyno nuorodas atskiriems duomenų laukams.

Teoriškai, naudojant vien tik vidinį žodyną, galima generuoti RDF grafus.


Bent jau, kaip aš pats tai suprantu. Duomenų atvėrimas vyks tokiu principu:

1. Įstaigos atveria duomenis, kaip išmano, CSV, JSON, REST API, SOAP API ar pan.

   Pvz.: https://www.rinkejopuslapis.lt/ataskaitu-formavimas - duomenys pateikiami XLSX failuose.

2. Atvirų duomenų manifeste aprašomi duomenų šaltiniai ir pritempiama duomenų struktūra prie normalizuotų lentelių, naudojant kiek įmanoma vieningesnį žodyną. Tose vietose, kur tiekėjo to pačio objekto interpretacija išsiskiria, naudojami išvestiniai objektai, atskirose vardų erdvėse.


   Čia duomenų šaltinis aprašytas ir susietas su vidiniu žodynu, o čia „sukramtyti“ duomenys:


   Tačiau šie duomenys vis dar neturi globalių identifikatorių ir duomenis galima sieti tik vieno tiekėjo rinkinio ribose.

3. Galiausiai identifikuojami kanoniniai duomenys (vienas tiesos šaltinis), tie duomenys keliauja į nuo tiekėjo nepriklausomus objektus turinčius globalius identifikatorius, atsiveria kelias sieti skirtingų rinkinių duomenis.

   Pvz.: http://atviriduomenys.lt/politika/rinkimai - kol kas čia jokių duomenų nėra, nes kol kas dar nepavyko išgauti kanoninių duomenų iš VRK teikiamų gan žemo brandos lygio duomenų.

4. Galiausiai išgryninus kanoninius duomenų objektus, galima pradėti juos žymėti nuorodomis iš standartinių žodynų ir duomenis sieti su pasauliniais duomenų rinkiniais, bet iki to yra gan tolimas kelias.

Bet kokiu atveju, kiekvienam žingsnyje galima naudoti duomenis. Pavyzdžiui, galima imti tiesiai XLSX failą iš VRK svetainės, galima imti šiek tiek pagerintą variantą iš atviriduomenys.lt, be globalių identifikatorių, galima imti kanoninius duomenis su globaliais identifikatoriais ir sieti juos su kitais duomenimis ir pan.





Gavote šį pranešimą, nes prenumeruojate „Google“ grupę atviriduomenys.

Jei norite atšaukti šios grupės prenumeratą ir iš jos nebegauti el. laiškų, praneškite apie tai adresu atviriduomeny...@googlegroups.com.
Apsilankykite šioje grupėje šiuo adresu: https://groups.google.com/group/atviriduomenys.
Daugiau parinkčių rasite apsilankę šiuo adresu: https://groups.google.com/d/optout.


--
Reply all
Reply to author
Forward
0 new messages