Kol kas dar niekur neskelbiau, bet rytoj pristatysiu Open Data Manifest idėją ir veikiantį prototipą. Prie šios idėjos dirbu jau kuris laikas, kažkur nuo 2018 rudens, bet buvo ir daugiau bandymu ir eksperimentu, tai galima sakyti, kad prie to dirbu jau kelis metus.
Iš esmės tai yra duomenų schema, kuri leidžia aprašyti iš kur ir kaip duomenis galima paimti, kas juos naudoja, naudojamas bendras laukų ir objektų arba esybių ir savybių žodynas, pokyčių versijavimas, yra galimybė susieti objektų klases ir savybes su Knowledge Graph, numatytas suderinamumas su DCAT, DataPackage, integracija su CKAN ir pan. Yra priemonės duomenų normalizavimui, susiejimui ir valymui. Palaikomas schemos normalizavimas ir denormalizavimas, ryšiai tarp objektų, objektų paveldimumas ir pan.
Visa tai leis automatiškai surinkti tvarkingus duomenis į vieną vietą, stebėti atvirų duomenų progresą, poveikį, nustatyti atveriamų duomenų prioritetus ir integruotis su įvairiais standartais.
Šiuo metu yra daugiau ar mažiau išbaigtas ir veikiantis duomenų modelis, pateiktų duomenų automatinis tikrinimas.
Esu aprašęs kelis duomenų rinkinius ir projektus naudojančius tuos duomenis. Išbandžiau vizualizuoti kelis rodiklius.
Tikiuosi tai valstybinėms įstaigoms suteiks daugiau aiškumo, kaip atverti duomenis ir tai bus aiškiai apibrėžtas komunikacijos protokolas, tarp duomenų tiekėjų ir naudotojų. Valstybinės įstaigos turės vieningą karkasą ir neturės spręsti duomenų atvėrimo kiekviena kaip išmano.
Ant viso to viršaus galima kurti pačius įvairiausius įrankius, tai yra fantazijos reikalas. Jei yra noras sukelti visus duomenis į vieną didelę TripleStore, visos galimybės tai padaryti yra. Jei yra kitų idėjų, galim diskutuoti kaip padaryti, kad tai veiktų.
Aš konkrečiai planuoju užsiimti tokiais įrankiais:
- Tobulinti duomenų aprašų automatinį tikrinimą, kad minimizuoti galimų žmogaus klaidų skaičių. Šiuo metu naudojama JSON Schema yra gan ribota šiuo atžvilgiu.
- Artimiausiu metu planuoju daryti tarpinę duomenų saugyklą ant PostgreSQL viršaus, kur bus surenkami visi duomenys ir pateikiami per draugišką API arba pasirinktą formatą, pavyzdžiui CSV, JSON, Turtle ar pan.
- Tada darysiu harvesterius automatizuotam duomenų surinkimui iš tiekėjų į tarpinę saugyklą. Tai reiškia, kad duomenų tiekėjams užteks pateikti duomenų aprašą ir duomenys jau atverti. Greičiausiai imsiuosi reliacinių duomenų bazių harvesterio, nes tokių duomenų yra daugiausiai.
- Darysiu interneto svetainę, kurioje bus vykdomas atvirų duomenų monitoringas, prioritetų sąrašas, įstaigų palyginimas, brandos lygio vertinimas ir pan.
Aišku, visa tai veiks tik tuo atveju, jei bus palaikymas tiek iš duomenų tiekėjų, tiek iš naudotojų. Šiuo metu lyg ir gavau palaiminimą iš Ekonomikos ir Inovacijų ministerijos, kuri atsakinga už atvirus duomenis. Duomenų naudotojai turėtų būti skatinami aprašyti ko jiems reikia, nes priešingu atveju, jei projektui reikalingų duomenų aprašo nėra, tai tokie duomenys nebus prioritetiniai atveriant. Reikia rasti keletą įstaigų kurios sutiktų bendradarbiauti aprašant savo duomenis. Tada reikės organizuoti keletą workshopų, kurių metu tiek tiekėjai, tiek naudotojai susės ir kartu aprašys ką turi ir ko reikia.
Bet viskas dar yra labai ankstyvoje stadijoje todėl bus matyt, kas iš to gausis.