CDPedia 0.8 beta

Facundo Batista

unread,

Dec 3, 2012, 12:51:04 PM12/3/12

to cdpedia

Gente:

Les dejo un tarball con la cdpedia 0.8 beta, *con la parte de windows
vieja*, para que prueben si ven todo bien...

http://ubuntuone.com/03o442cw6JItDyLk04v6ss

Tiene 20 mil artículos y un 10% de imágenes, pesa 326MB.

La idea es que la revisemos lo más posible, ver si no tenemos un
problema que frene la release, y de paso también veamos el nuevo
procedimiento para hacer el .exe.

Ya que estamos, les cuento que mi idea es generar distintas versiones
para la 0.8:

- Tarball 100 MB, sin la parte de windows, pensado como para una XO.
- CD clásico
- Tarball de 2GB
- DVD clásico
- Tarball 10 GB

¿Ideas? ¿Opiniones?

Slds!

--

. Facundo

Blog: http://www.taniquetil.com.ar/plog/
PyAr: http://www.python.org/ar/
Twitter: @facundobatista

david weil

unread,

Dec 12, 2012, 9:26:57 PM12/12/12

to cdp...@googlegroups.com

2012/12/3 Facundo Batista <facundo...@gmail.com>

Ya que estamos, les cuento que mi idea es generar distintas versiones
para la 0.8:

- Tarball 100 MB, sin la parte de windows, pensado como para una XO.
- CD clásico
- Tarball de 2GB
- DVD clásico
- Tarball 10 GB

¿Ideas? ¿Opiniones?

Me gusta!

ps: No pude probar la versión que subiste aún.. voy a intentar en algún momento a mas tardar la semana que viene hacerlo y darte feedback!

--
There is no dark side of the moon really. Matter of fact it's all dark.

Facundo Batista

unread,

Dec 13, 2012, 4:27:05 PM12/13/12

to cdp...@googlegroups.com, claudio canepa

2012/12/12 david weil <ten...@gmail.com>:

> 2012/12/3 Facundo Batista <facundo...@gmail.com>
>>
>> Ya que estamos, les cuento que mi idea es generar distintas versiones
>> para la 0.8:
>>
>> - Tarball 100 MB, sin la parte de windows, pensado como para una XO.
>> - CD clásico
>> - Tarball de 2GB
>> - DVD clásico
>> - Tarball 10 GB
>>
>> ¿Ideas? ¿Opiniones?
>
>
> Me gusta!
>
> ps: No pude probar la versión que subiste aún.. voy a intentar en algún
> momento a mas tardar la semana que viene hacerlo y darte feedback!

Bueno, armé el .exe siguiendo las instrucciones de la parte de
pyinstaller del branch de Claudio.

Con eso, rearmé el tarball, acá está:

http://ubuntuone.com/03o442cw6JItDyLk04v6ss

¿Lo prueban por favor y me dan feedback de cómo funca? Si está todo
bien, meto la parte esa en trunk y ya queda firme este laburo tan
copado.

Yo ya lo hice probar en una compu que no tenía nada que ver con donde
armé el .exe (un Windows 7 Enterprise 64 bits, SP1), y anduvo
perfecto, lo cual está buenísimo especialmente porque yo lo armé con
un 32b.

Claudio, una pregunta: el cdpedia.exe "viejo" pesaba unos 39KB, y el
que armó pyinstaller pesa unos 6.7MB... ¿a qué se debe esta diferencia
de tamaño? No me jode que sea más pesado (sólo importa en los
tarballs chiquitos, pero esos sólo se hacen para linux), pero me dió
curiosidad...

¡Muchas gracias! Slds.

Facundo Batista

unread,

Dec 13, 2012, 4:28:03 PM12/13/12

to cdp...@googlegroups.com, claudio canepa

2012/12/13 Facundo Batista <facundo...@gmail.com>:

> Bueno, armé el .exe siguiendo las instrucciones de la parte de
> pyinstaller del branch de Claudio.

BTW, las instrucciones estaban clarísimas y eran muy fáciles de
seguir! Muy buen trabajo!

claudio canepa

unread,

Dec 13, 2012, 10:45:38 PM12/13/12

to cdpedia

2012/12/13 Facundo Batista <facundo...@gmail.com>

2012/12/12 david weil <ten...@gmail.com>:

[...]

Con eso, rearmé el tarball, acá está:

http://ubuntuone.com/03o442cw6JItDyLk04v6ss

¿Lo prueban por favor y me dan feedback de cómo funca? Si está todo
bien, meto la parte esa en trunk y ya queda firme este laburo tan
copado.

Lo bajo y pruebo un poco el sabado - domingo

[...]

Claudio, una pregunta: el cdpedia.exe "viejo" pesaba unos 39KB, y el
que armó pyinstaller pesa unos 6.7MB... ¿a qué se debe esta diferencia
de tamaño? No me jode que sea más pesado (sólo importa en los
tarballs chiquitos, pero esos sólo se hacen para linux), pero me dió
curiosidad...

El cdpedia exe viejo que pesaba 39KB es un relay, posiblemente generado desde C, que :

1. muestra la splash screen durante x segundos

2. lanza el verdadero ejecutable de cdpedia , que es cd_imagen/cdpedia/win32/main/win32main.exe

Este ejecutable pesaba 2.78MB.

La diferencia entre 2.78 y 6.7 MB la atribuyo a

1. cambios de dependencias de cdpedia

2. cambio de version de python

3. el viejo empaquetador usaba directamente los .py , el nuevo interna en el exe los .pyc de cdpedia proper y third_party

Muchas gracias! Slds.

De nada, saludos a todos.

claudio

--

SAn

unread,

Dec 14, 2012, 1:46:43 AM12/14/12

to cdp...@googlegroups.com

2012/12/3 Facundo Batista <facundo...@gmail.com>:

> Gente:
>
> Les dejo un tarball con la cdpedia 0.8 beta, *con la parte de windows
> vieja*, para que prueben si ven todo bien...
>
> http://ubuntuone.com/03o442cw6JItDyLk04v6ss
>
> Tiene 20 mil artículos y un 10% de imágenes, pesa 326MB.
>
> La idea es que la revisemos lo más posible, ver si no tenemos un
> problema que frene la release, y de paso también veamos el nuevo
> procedimiento para hacer el .exe.
>
> Ya que estamos, les cuento que mi idea es generar distintas versiones
> para la 0.8:
>
> - Tarball 100 MB, sin la parte de windows, pensado como para una XO.
> - CD clásico
> - Tarball de 2GB
> - DVD clásico
> - Tarball 10 GB
>
> ¿Ideas? ¿Opiniones?

Me parece genial!

Estuve probando, cambie el config.py para que escuche deje corriendo
en http://bonzo.spiccinini.com.ar:8000/

Encontre dos temas:

* Para que ande via red hay que poner el hostname = "0.0.0.0", lo
cual hace que se levante el navegador en http://0.0.0.0. Por otro lado
no tiene sentido que si el modo es server_mode = True se dispare el
navegador.

* Algunas páginas tardan mucho en cargar, como 2 o 3 segundos (sin
contar el tiempo de las iamgenes). Por ejemplo esta pagina:
http://bonzo.spiccinini.com.ar:8000/wiki/Lucie_%C5%A0af%C3%A1%C5%99ov%C3%A1
Estuve profileando y llegue a que el 95% del tiempo se gasta en:

1 2.962 2.962 2.962 2.962 {method 'seek' of 'bz2.BZ2File' objects}
1 0.000 0.000 2.962 2.962
cdpedia/src/armado/compresor.py:89(get_item)

Esta página siempre tarda mucho en cargar, y en cambio otras páginas
tardan mucho menos.

abrazo!
SAn

Alejandro J. Cura

unread,

Dec 14, 2012, 7:33:02 AM12/14/12

to cdpedia

2012/12/14 SAn <gringo...@gmail.com>:

> * Algunas páginas tardan mucho en cargar, como 2 o 3 segundos (sin
> contar el tiempo de las iamgenes). Por ejemplo esta pagina:
> http://bonzo.spiccinini.com.ar:8000/wiki/Lucie_%C5%A0af%C3%A1%C5%99ov%C3%A1
> Estuve profileando y llegue a que el 95% del tiempo se gasta en:
>
> 1 2.962 2.962 2.962 2.962 {method 'seek' of 'bz2.BZ2File' objects}
> 1 0.000 0.000 2.962 2.962
> cdpedia/src/armado/compresor.py:89(get_item)

Buena idea profilear, SAn!

> Esta página siempre tarda mucho en cargar, y en cambio otras páginas
> tardan mucho menos.

Esto es lo esperado con la estructura de bloques que tenemos, que está
pensada para monousuario desde un dispositivo óptico.
Esa estructura está optimizada para incrementar la compresión de las
páginas, a expensas de que cada bloque hay que descomprimirlo desde el
principio hasta encontrar el artículo deseado.

Tres propuestas para arreglar esto:

La más sencilla: reducir la cantidad de artículos por bloque, con lo
que se achica el tamaño de cada bloque, y se acelera este caso de uso.
Como contra, se pierde oportunidad de compresión en cada bloque y el
espacio total usado va a ser un poco más.

Por otro lado, en el caso de uso que me imagino típico, la maestra
dice: "busquen sobre Mesopotamia" y los alumnos van a estar mirando
por más o menos los misma docena de artículos. Como propuesta un
poquito más complicada, propongo guardar cada artículo descomprimido
en un caché en memoria, para que esos tres segundos solo afecten al
primero que lo busca.

Y la más complicada (que podría ser para la próxima versión de
cdpedia), es usar una biblioteca de bz2 que sepa saltar a un offset
determinado de nuestro bloque y empezar a descomprimir desde ahí. Y
guardar en el índice de bloque el comienzo de cada parte comprimida.
(esto lo hacía hace algunos años una wikipedia para iphone hecha en
ruby y c)

saludos,
--
alecu

Gonzalo Odiard

unread,

Dec 14, 2012, 7:39:41 AM12/14/12

to cdp...@googlegroups.com

Y la más complicada (que podría ser para la próxima versión de
cdpedia), es usar una biblioteca de bz2 que sepa saltar a un offset
determinado de nuestro bloque y empezar a descomprimir desde ahí. Y
guardar en el índice de bloque el comienzo de cada parte comprimida.
(esto lo hacía hace algunos años una wikipedia para iphone hecha en
ruby y c)

Para esto, les recomiendo seek-bzip2

https://bitbucket.org/james_taylor/seek-bzip2

Gonzalo

Facundo Batista

unread,

Dec 14, 2012, 2:32:25 PM12/14/12

to claudio canepa, cdpedia

2012/12/14 claudio canepa <ccan...@gmail.com>:

> Una pregunta, que onda con 'destacados' ?
> Recuerdo haber visto comentarios en el code acerca de artículos
> destacados,
> wikipedia.es muestra algunos 'articulos destacados' en su homepage,
> encabezados por un titulo que linkea hacia otros articulos destacados ?
> La start page de cdpedia no muestra 'articulos destacados' ni link hacia
> ellos (aqui en windows)
>
> La pregunta es, deberia estar viendo algo de destacados en la start page ?

(pongo en copia a la lista porque hay info nueva que está bueno saber)

"Destacados" propiamente dicho son tres cosas:

- Un artículo que está en una lista recopilada por alguien: esto
nosotros no lo usamos, pero era necesario para el build de Educ.ar, y
se puede usar para cosas similares (o sea, si alguien viene y dice:
quiero una versión de la cdpedia que tenga SI o SI esta lista de
artículos)

- Artículos que son necesarios para el funcionamiento de la cdpedia
misma (por ejemplo, notas legales de la wikipedia, nosotros no podemos
entregar la cdpedia sin eso)

- (y esto es nuevo, estoy haciendo un branch en estos días) Todos
aquellos artículos que son apuntados por la "home page". Si se fijan
en el tarball de 300 MB que armé para probar, levantan la CDPedia y no
todos los links de la home page son válidos (lo cual es inaceptable,
el primer salto luego de la home page *tiene que estar sí o sí*).

Reply all

Reply to author

Forward