Open Data Board

49 views
Skip to first unread message

Mantas

unread,
Feb 12, 2019, 3:35:18 AM2/12/19
to AtviriDuomenys
Sveiki,

noriu šiek tiek papasakoti, kas vyksta atvirų duomenų srityje, o dalykai tikrai vyksta.

Pirmiausia, jau beveik du mėnesius yra susikūręs Open Data Board, toks pusiau formalus darinys veikiantis po Ekonomikos ir Inovacijų ministerijos stogu. Open Data Board sudaro atrinkti žmonės iš įvairių sričių vienaip ar kitaip susijusių su atvirais duomenimis ir atvirų duomenų politikos formavimu. Open Data Board daro susitikimus ir sprendžia įvairius klausimus susijusius su atvirais duomenimis. Aš taip pat buvau pakviestas į šią grupę.

Ateityje planuojama įkurti kitą formalų padalinį vadinamą Data Team, kuriame dirbs samdomi darbuotojai ir jų pagrindinis darbas turėtų būti duomenų atvėrimo proceso priežiūra ir pagalba visoms institucijoms dirbančioms su atvirais duomenis. Kaip supratau, planuojama kad Data Team sudarys gan techniniai žmonės, kurie turėtų gebėti spręsti visus klausimus susijusius su atvirais duomenimis. Kada tiksliai atsiras Data Team padalinys nežinau.

Kad būtų aiškiau, pasiskolinau keletą paveiksliukų iš Saulės skaidrių.

Ekrano nuotrauka iš 2019-02-12 09-45-32.png
Ekrano nuotrauka iš 2019-02-12 09-46-03.png
Šiuo metu aš darau tarpinę duomenų saugyklą atviriems duomenims, kol IVPK kuria atvirų duomenų portalą (planuoja paleisti kažkada 2020 metais). Į tą tarpinę duomenų saugyklą planuoju sukelti VRK duomenis ir pateikti juos aukščiausiu brandos lygiu. Tikiuosi pavyks tai padaryti iki kovo 1 d.

Tarpinė duomenų saugykla naudos metaduomenis iš čia:


O pačios duomenų saugyklos kodas (dar labai ankstyvos stadijos) yra čia:


Dėl VRK duomenų vyksta bendradarbiavimas ir su VRK žmonėmis, esu jiems surašęs problemas, kurias reikėtų išspręsti:


Karts nuo karto planuoju jų užklausti ar yra koks progresas ir ar jau galima uždaryti kokią užduotį.

Pasiūliau Open Data Board žmonėms, kad visas atvirų duomenų problemas galėtume registruoti atviriduomenys/manifest GitHub paskyroje. Tokiu būdu būtų geresnis matomumas ir visiems būtų aiškiau, kas vyksta, ir kur stringame. Tuo pačiu galėtų įsitraukti į procesą ir daugiau žmonių.

Šiuo metu yra tvirtinamas prioritetinių duomenų rinkmenų sąrašas, ties kuriuo dirbs Open Data Board. Tiksliai to sąrašo neatsimenu, bet jei neklystu jame buvo ir Registrų Centro adresų ir JAR duomenys, viešųjų pirkimų duomenys ir dar keli kiti.

Ateityje yra planuojama daryti atvirų duomenų workshopas, kurio tikslas atverti duomenis arba gerinti atvertų duomenų kokybę.

Vietoj kuriamo atvirų duomenų portalo, bandau siūlyti viską daryti kiek paprasčiau ir tiesiog naudoti egzistuojančius įrankius, konkrečiai https://github.com/atviriduomenys/manifest visoms su atvirais duomenimis susijusiomis veiklomis. Žmonės galėtų kurti pasiteiravimus dėl duomenų, kaip GitHub issues, galėtų pateikti savo idėjas kurioms įgyvendinti reikalingi duomenys, visas duomenų ūkis galėtų būti aprašomas deklaratyviai vienoje vietoje, iš to aprašo galima harvestinti CKAN, automatizuoti duomenų atvėrimą per tarpinę saugyklą, daryti atvirų duomenų monitoringą ir pan.

Bet kokiu atveju https://github.com/atviriduomenys/manifest kol kas yra laikinas atvirų duomenų portalo sprendimas, kol tikrasis atvirų duomenų portalas yra kuriamas. Bent jau kol kas niekas nėra pasiūlęs jokio geresnio varianto.

Tiesa yra paleistas, pusiau oficialus CKAN'as kurį šiuo metu testuoja IVPK. Tačiau mano noras yra pakelti atvirus duomenis į gerokai aukštesnį lygį, todėl ir darau Open Data Manifest, duomenų saugyklą ir pan.

Kalbu apie tokį lygį, kad jei kas nors atvirų duomenų pagrindu sukuria kokį nors skriptą, užregistruoja jį manifest, tada tas skriptas dalyvauja bendroje atvirų duomenų apskaitoje. Tai reiškia, kad nebus daromi jokie pakeitimai duomenyse ar duomenų schemoje, kurie galėtų sugriauti to skripto veikimą. Atveriant duomenis, visi duomenų rinkiniai naudojami to skripto automatiškai įgauna didesnį prioritetą ir yra atveriami pirmumo tvarka. Skriptui duomenys teikiami įvairiais pavidalais, įskaitant ir galimybę gauti tik naujausius pasikeitimus duomenyse. Pirminis duomenų šaltinis yra monitorinamas ir esant kokiems nors sutrikimams jie iš karto sprendžiami ir pan.

Tačiau visa tai žinoma pasidarys tikrai ne paprastai. Iki kovo 1 d. noriu padaryti patį mažiausią veikiantį variantą, su minimaliu funkcionalumu, kuris veiktų su VRK duomenimis. O tada plėsiu funkcionalumą. Planuoju prie šio projekto dirbti visus šiuos metus ir tam planuoju skirti bent 6 mėnesius full time laiko.

Kol kas iš manifesto jau galima išskaičiuoti esminius atvirų duomenų veiklos rodiklius. Yra automatinis į manifesto duomenų tikrinimas. Duomenų saugyklos pamatai taip pat yra, galima įrašyt ir nuskaityti duomenis. O šiuo metu darau automatinį VRK duomenų importavimą pagal manifesto aprašus į duomenų saugyklą. Tada visa tai paleisiu greičiausiai atviriduomenys.lt adresu ir tai pakeis mano iki šiol darytą http://atviriduomenys.lt/data/ projektėlį.


--

Mantas

unread,
Feb 13, 2019, 2:08:59 AM2/13/19
to AtviriDuomenys
Tikslus prioritetinių doumenų rinkinių sąrašas, prie kurių dirbs Data Board:

1. Juridinių asmenų ir adresų registrai (RC)
2. Viešųjų pirkimų duomenys (VPT)
3. Rinkimų kandidatų anketos, rinkimų rezultatai, balsadėžių duomenys ir pan (VRK)
4. PVM mokėtojų duomenys (VMI)
5. Viešojo sektoriaus ir VVĮ/SVĮ buhalteriniai duomenys (FINMIN?) 


--

Ramūnas Dronga

unread,
Feb 13, 2019, 4:17:54 AM2/13/19
to atvirid...@googlegroups.com
Sveiki,
o kas sudarė prioritetų sąrašą ir kodėl jis toks? Kažkaip atrodo, kad VP duomenys galėtų atskleisti žymiai įdomesnių dalykų nei adresai ar juridinių asmenų info?

--
Gavote šį pranešimą, nes prenumeruojate „Google“ grupę „atviriduomenys“.
Jei norite atšaukti šios grupės prenumeratą ir iš jos nebegauti el. laiškų, praneškite apie tai adresu atviriduomeny...@googlegroups.com.
Apsilankykite šioje grupėje adresu https://groups.google.com/group/atviriduomenys.
Daugiau parinkčių rasite apsilankę adresu https://groups.google.com/d/optout.


--
Best Regards / Pagarbiai,
Ramūnas

Mantas

unread,
Feb 13, 2019, 5:28:40 AM2/13/19
to AtviriDuomenys
Kas yra VP?

Kadangi nėra patikimo būdo kaip aiškiai ir tiksliai nustatyti prioritetus, tai šiam kartui, prioritetus nustatė Data Board žmonės, savo nuožiūra.

Yra planas gauti ministro įsakymą šiam sąrašui ir tada su įsakymu eiti pas įstaigas ir tartis dėl atvėrimo.



Andrius Balciunas

unread,
Feb 15, 2019, 2:14:10 PM2/15/19
to atvirid...@googlegroups.com
Sveiki,

Į prioritetinį duomenų rinkinių sąrašą siūlau įtraukti Nekilnojamo turto kadastro duomenis (Registrų centras). Jie yra esminiai žemėtvarkos, matininkystės srityse, juos intensyviai naudoja tiek valstybinis, tiek privatus sektorius.

Andrius.

Unicalus

unread,
Feb 15, 2019, 2:18:35 PM2/15/19
to atvirid...@googlegroups.com

Sveiki,

 

Manau Registrų centro duomenys visi labai svarbūs visiems. Visuomenė juos suneša – tegul juos nors kiek daugiau padaro atviresniais.

 

Tomas

image001.png
image002.png

Vaidas Morkevičius

unread,
Feb 15, 2019, 2:30:17 PM2/15/19
to atvirid...@googlegroups.com
Sveiki,

Rinkimų rezultatų ir kandidatų duomenų priviešinta kur tik pirštu dursi, įskaitant VRK. Ką jie ten ruošias dar viešint? Ar tai bus vietoj VRK?

Vaidas

--

Mantas

unread,
Feb 16, 2019, 3:52:49 AM2/16/19
to AtviriDuomenys
2019-02-15, pn, 21:30 Vaidas Morkevičius <vaidas.mo...@gmail.com> rašė:
Rinkimų rezultatų ir kandidatų duomenų priviešinta kur tik pirštu dursi, įskaitant VRK. Ką jie ten ruošias dar viešint? Ar tai bus vietoj VRK?

Jei įstaiga turi duomenis, bet jų neatveria, tai yra ne techninis klausimas, o politinis. Trys iš penkių duomenų rinkinių, kuriuos bandysim atverti būtent ir yra politinis klausimas.

Tačiau, jei įstaiga yra atvėrusi duomenis, tada reikia žiūrėti į duomenų brandos lygį. Jei atvertų duomenų brandos lygis yra prastas, tada galima siekti, kad brandos lygis būtų pakeltas, būtent toks ir yra VRK atvejis. Mano vertinimu, peržiūrėjus VRK teikiamus duomenis, jų bendras duomenų brandos lygis yra 1.3 balai iš 5 galimų. Visas problemas su VRK duomenimis esu surašęs čia:


Žemas duomenų brandos lygis reiškia, kad duomenys yra, ir įdėjus pakankamai daug laiko ir pastangų, galima juos įdarbinti ir panaudoti. Tais atvejais, kai norima padaryti paprastą duomenų vizualizaciją, dėl prasto duomenų brandos lygio, 90% viso laiko suvalgo duomenų paruošimas. Duomenų brandos lygio kėlimo tikslas yra toks, kad duomenų panaudojimui reikėtų įdėti kiek įmanoma mažiau pastangų.
Šiuo metu esam pasitvirtinę 5 duomenų rinkinius, kuriuos bandysim atverti. Su šiais penkiais duomenų rinkiniais norim padaryti gerą pavyzdį ir analogiškai atverti visus kitus duomenis. Žinoma, būtų gerai atverti kuo daugiau duomenų, bet Data Board resursai nėra begaliniai, todėl kol kas tenka apsiriboti tik penkiais.

Visą Data Board veiklą atveriant duomenis stengsiuosi aprašyti Github užduotyse, todėl galit stebėti visą repozitoriją arba atskiras dominančias užduotis, jei norit gauti pranešimus apie tai, kas vyksta.

Jei galvojat, kad reikėtų atverti, kažkokius kitus duomenų rinkinius, kurkit naują Github užduotį arba susiraskit jau sukurtą ir balsuokit 👍



--

Vaidas Morkevičius

unread,
Feb 16, 2019, 10:08:35 AM2/16/19
to atvirid...@googlegroups.com
Mantai,

Duomenų paruošimas neišvengama analizės dalis. Niekada nepadarysi taip, kad visiems būtų tinkama. Svarbu, kad būtų lengvai pasiekiami, tikslūs ir kuo mažiau kintantys struktūriškai. Vartotojai jau pasiruoš, kaip jiems reikės. Vizualizacijos ar analizės, apskritai, neturėtų būti open gov. data tikslas.

Vaidas

--

Mantas

unread,
Feb 16, 2019, 10:50:47 AM2/16/19
to AtviriDuomenys
2019-02-16, št, 17:08 Vaidas Morkevičius <vaidas.mo...@gmail.com> rašė:
Duomenų paruošimas neišvengama analizės dalis. Niekada nepadarysi taip, kad visiems būtų tinkama. Svarbu, kad būtų lengvai pasiekiami, tikslūs ir kuo mažiau kintantys struktūriškai.

Būtent apie tai ir eina kalba, kaip pats nurodei, šiuo metu VRK duomenys yra sunkiai pasiekiami, netikslūs ir dažnai struktūriškai kintantys.



--

Tomas Straupis

unread,
Feb 16, 2019, 11:44:48 AM2/16/19
to atvirid...@googlegroups.com
2019-02-16, št, 17:50 Mantas rašė:
> Būtent apie tai ir eina kalba, kaip pats nurodei, šiuo metu VRK duomenys
> yra sunkiai pasiekiami, netikslūs ir dažnai struktūriškai kintantys.

Ir jie kito, kinta ir kis. Tai neišvengiama, nes keičiasi poreikiai
(keičiasi net veiklą reglamentuojantys įstatymai).
Struktūros keisis ir visur kitur. Vienur lėčiau, kitur greičiau.
Nesu matęs gyvos duomenų bazės, kurios schema būtų „baigta“.

--
Tomas

Vaidas Morkevičius

unread,
Feb 16, 2019, 11:46:55 AM2/16/19
to atvirid...@googlegroups.com
Na, rinkimų rezultatų duomenys kinta santykinai mažai. Tai stabilumo čia tikėčiausi daugiau.
--
Vaidas Morkevičius



--
Gavote šį pranešimą, nes prenumeruojate „Google“ grupę atviriduomenys.

Jei norite atšaukti šios grupės prenumeratą ir iš jos nebegauti el. laiškų, praneškite apie tai adresu atviriduomeny...@googlegroups.com.
Apsilankykite šioje grupėje šiuo adresu: https://groups.google.com/group/atviriduomenys.
Daugiau parinkčių rasite apsilankę šiuo adresu: https://groups.google.com/d/optout.

Martynas Jusevičius

unread,
Feb 16, 2019, 12:04:37 PM2/16/19
to AtviriDuomenys
Kas liečia VRK, atvėrimas CSV formatu jau būtų progresas:
https://groups.google.com/d/msg/atviriduomenys/9tMr7aDJHC0/sbP6VaxQAQAJ
> Gavote šį pranešimą, nes prenumeruojate „Google“ grupę „atviriduomenys“.
> Jei norite atšaukti šios grupės prenumeratą ir iš jos nebegauti el. laiškų, praneškite apie tai adresu atviriduomeny...@googlegroups.com.
> Apsilankykite šioje grupėje adresu https://groups.google.com/group/atviriduomenys.
> Daugiau parinkčių rasite apsilankę adresu https://groups.google.com/d/optout.

Andrius Žilėnas

unread,
Feb 16, 2019, 1:02:19 PM2/16/19
to atvirid...@googlegroups.com
Žiūrint iš šono, tai šioje diskusijoje daug tuščios kalbos, nes visi teisūs (bet savaip).

Kai Mantas rašo apie "kokybę", kitaip - brandą, tai (eiliniam skaitytojui) perdaug abstraktu, neinformatyvu, neinstrumentalu - geriau būtų tekste konkretinti (pvz. remtis 5 lygių sutarimu, turbūt kito ir nėra, bet galima įvesti emocinę/manipuliacinę terminiją):
1 lygis (nepadoriai nepakankamas) - duomenis skelbiami, licencija atvira, bet formatas nestruktūruotas arba/ir nesuprantamas mašinoms (doc, pdf, paveiksliukai)  
2 lygis (gėdingas) - skelbiami, licencija atvira, formatas struktūruotas, bet uždaras (.xls)
3 lygis (iš bėdos, bet siekiamybė) - skelbiami, licencija atvira, formatas ir struktūruotas, ir mašininis (.csv)
4 lygis (padorus) - skelbiami, licencija atvira, formatas ir struktūruotas, ir mašininis, semantinis (.RDF, SPARQL, surišimas per URL nuorodas)
5 lygis (idealus) - skelbiami, licencija atvira, formatas ir struktūruotas, ir mašininis, semantinis, susietasis  (LOD, susieti atviri duomenys)

Tokių "etikečių" prikabinimas, ir konkrečtūs formatų įvardinimai atlieka dvigubą komunikacinę funkciją: auditorija emociškai suorientuojama link norimo tikslo ir pateikiami suprantami orientyrai (failų formatų pavadinimai).

Labai geras aiškinimo pvz https://www.ontotext.com/knowledgehub/fundamentals/five-star-linked-open-data/, lietuviškos TL/DR trumpos-drūtos-aiškios nuorodos, deja, greitai nepavyko rasti. 
 
Kai Tomas kalba apie duomenų tikslumą - tai tiesiogiai neusiję su AD problematika, nes duomenų kokybės parametrai (tikslumas, patikimumas, savalaikiškumas, pilnumas, ...) yra pačių duomenų posistemė, o ne AD. Tiesiog AD greičiau atsklaeidž

Kai Tomas ar Vaidas kalba apie pačių duomenų kintamumą, tai visiškai neprieštarauja reikalavimams jų brandai, netgi priešingai - todėl juk ir siekiama kuo aukštesnės brandos, kad vieną kartą susiejus norimus laukus visuomet turėtume aktualios situacijos pjūvį. 

Jeigu kalbama apie duomenų schemų kintamumą, tai taip pat - kuo aukštesnė branda, tuo lengviau "perrišti". Be to kaip konkrečiai dažnai kinta - kas savaitę / mėnesį / ketvirtį / metus?

Kintamumas (evoliucija) visose srityse yra "šioks toks" (švelniai kalbant) iššūkis, todėl ir atsirado terminas "legacy" - paveldimumas? - vėlsenės sistemos turėtų būti suderinamos su ankstesnėmis. Struktūra tarnauja funkcijai. 

Atsiprašau, jeigu gavosi offtopikas.

***
širdingai | sincerely | сердечно | 진심으로 | ईमानदारी से | بإخلاص

Andrius Žilėnas | Inventive leadership tools & services a...@inventship.eu 

Mantas

unread,
Feb 16, 2019, 1:27:59 PM2/16/19
to AtviriDuomenys
Apie kintančią struktūrą, kalba eina apie tai, kad VRK skelbia dešimtis duomenų rinkinių, kurie visi apie tą patį, bet jų struktūra vis kitokia. Problemos esmė yra ta, kad atveriami ne pirminiai duomenys, o įvairios išvestinės, denormalizuotos ataskaitos.

VRKIS tikriausiai turi stabilų API ir stabilią schemą, bet ten skelbiami duomenys tik nuo 2016 metų. Antras variantas pagal kokybę yra rinkejopuslapis.lt, bet ten saugomos išvestinės ataskaitos, kurių struktūra radikaliai skiriasi nuo VRKIS ir sunkiai normalizuojasi. Kandidatų duomenys yra prieinami tik HTML puslapių pavidalu, kur kiekvieniems rinkimams yra naudojamas kitas puslapis su kitu dizainu. Dar yra 34 duomenų rinkiniai arcgis.com svetainėje, su kintančia schema ir apimančia tik pavienius rinkimus, norint gauti duomenis reikia susikurti arcgis.com paskyrą.

Žodžiu įvairiose vietose galima rasti įvairius trupinius, tačiau žinoma įdėjus pakankamai daug laiko ir pastangų, galima susirinkti visus reikalingus duomenis. Tai teoriškai duomenys kaip ir atverti. Bet aš galvoju, kad geriau jei teikiami kokybiški duomenys iš pirminio šaltinio, kad visiems kitiems nereikėtų švaistyti laiko.

Dėl termino „brandos lygis“ jis yra apibrėžtas IVPK atvirų duomenų metodiniuose dokumentuose, 3.3.1.3 skyrelyje (30 puslapis), bet iš esmės tai yra https://5stardata.info/en/.

Ko norim iš VRK:

- atverti kandidatų duomenis ne tik HTML, bet ir CSV formatu.
- atverti pirminius duomenis vienoje vietoje įtraukiant visus rinkimus.
- bendradarbiauti su kitomis įstaigomis ir integruotis su jų turimais registrais, kad pavyzdžiui vietoj mokymo įstaigos „Kapsukas“ būtų ID iš juridinių asmenų registro.



Karolis Granickas

unread,
Feb 18, 2019, 7:35:34 AM2/18/19
to atvirid...@googlegroups.com
aciu, Mantai, labai naudinga. Kaip galima susisiekti su OD Board'u? Noriu pasiulyti VP duomenis publikuoti Open Contracting Data Standard formatu. 
Karolis Granickas | My Linkedin | +37061133887
Reply all
Reply to author
Forward
0 new messages