Bienvenido Fredy!
Algunos comentarios entre líneas más abajo.
On 16/03/16 08:20, digitalfredy wrote:
> Hola todos
>
> Me parece clave destacar que de las personas que asistimos al DataWeek3 algunos estamos interesados en continuar con el tema de los datos abiertos y las visualizaciones, tal vez no hay claridad en qué hacer pero por sugerencia de Offray vamos a hacerlo desde aquí e integrarnos con ustedes.
Gracias por aceptar la invitación a participar de esta comunidad. Fredy
es un viejo amigo (no por la edad, sino por el tiempo de conocernos :-P)
y compañero de esta y otras luchas (el software libre, los derechos en
Internet, desde el colectivo RedPaTodos) y compadre.
> Yo me llamo Fredy y luego de usar los datos de Cobra creo que es importante hacer un conjunto de scripts para limpiarlos, especialmente las cifras pues aunque en el taller limpiamos una columna del CSV pero cualquier otra persona que quiera hacer visualizaciones con los números podría lograrlo más rápido si las cifras están limpias.
>
> Aunque no se programar quiero esta semana intentar hacer un script en python para tal fin, si lo logro compartiré los resultados en la lista.
El tema de limpieza de datos es clave. Si bien estamos haciendo la
limpieza orientados por la visualización que queremos hacer, la limpieza
es estructural en el sentido que los datasets que vamos publicando (ejp
[1]) ya los tienen limpios, para nuestra visualización o cualquier otro
uso. Me parece chévere la idea del script en python, aunque después de
ver lo sencilla que fue con SQLite, yo seguiré por ahí. Hay formas de
combinar SQLite con Python en el trabajo con datasets grandes[2][3], por
si te interesa. Después de haber visto la charla de Richard Hipp "SQLite
as an Application File Format"[4] (que recomiendo sobre manera!), creo
que usarlo como "formato" para publicar los datos e incluso limpiarlos y
republicarlos de vuelta puede ayudar con la idea de frictionless
data[5][6] que presentamos en el taller, democratizando la participación
y sin entrar en complejidades técnicas de lo NoSQL los "big data" y el
"next trending topic" :-P. La ventaja del script es que hace la
extracción y limpieza trazable, con lo cual se puede mirar qué fue lo
que se hizo a los datos para limpiarlos. Mi idea es dejar esa traza pero
desde grafoscopio, mostrando cómo se extrajeron, como se transformaron
en bases de datos y cómo se limpiaron. Sin embargo voy a ir "hacia
atrás", de las visualizaciones que necesitamos construir a las
interacciones con los datos para que ellas ocurran (incluidas su
importación, limpieza y la trazabilidad de las mismas).
[1]
https://datahub.io/dataset/contratos-publicos-en-colombia-para-licitaciones-publicas
[2]
http://sebastianraschka.com/Articles/2013_sqlite_database.html
[3]
http://sebastianraschka.com/Articles/2014_sqlite_in_python_tutorial.html
[4]
https://www.youtube.com/watch?v=8y_ABXwYtuc
[5]
http://blog.okfn.org/2013/04/22/forget-big-data-small-data-is-the-real-revolution/
[6]
http://blog.okfn.org/2013/04/24/frictionless-data-making-it-radically-easier-to-get-stuff-done-with-data/
> Respecto al tema de visualización no sé si podemos con libertad plantear las preguntas de grafoscopio aquí.
Pues yo diría que si, a menos de que alguien se oponga. Hasta ahora la
lista ha sido de bajo tráfico y como nos damos cuenta, acá hay varios
temas en diálogo: aspectos técnicos, legales, narrativas de datos, etc.
Sugeriría colocar al comienzo algo que indique que el tema, por ejemplo
"[Grafoscopio]" y si vemos que estos temas empiezan a hacer ruido
podemos crear una lista aparte para ellos. Es decir, en prinicipio soy
partidario de la articulación con comunidades más grandes e
interdisciplinarias y luego dividirlas, en caso de ser necesario, de
acuerdo a la actividad que se vaya presentando.
Offray