Beautiful Soup (web scraping)

28 views
Skip to first unread message

Juan Marquez

unread,
Mar 3, 2014, 10:01:48 PM3/3/14
to Python-Venezuela
Necesitaba extraer contenidos de documentos html y encontré esta librería: Beautiful Soup esta brutal (perfecta para lo que necesitaba).

Saludos.

Wil Alvarez

unread,
Mar 3, 2014, 11:29:18 PM3/3/14
to python-v...@googlegroups.com

On Mar 4, 2014 12:01 AM, "Juan Marquez" <juanvm...@gmail.com> wrote:
>
> Necesitaba extraer contenidos de documentos html y encontré esta librería: Beautiful Soup esta brutal (perfecta para lo que necesitaba).
>
> Saludos.

Hola Juan,

¿No probaste mechanize? Yo lo usé y me gustó mucho, el único detalle es que no tiene soporte para ajax, pero ahí podrías usar Selenium.

Luego reviso Beautiful Soup a ver que tal.

Saludos

Milton Mazzarri

unread,
Mar 3, 2014, 11:52:20 PM3/3/14
to python-v...@googlegroups.com
2014-03-03 21:01 GMT-06:00 Juan Marquez <juanvm...@gmail.com>:
> Necesitaba extraer contenidos de documentos html y encontré esta librería:
> Beautiful Soup esta brutal (perfecta para lo que necesitaba).
>

También puedes explorar Scrapy

https://scrapy.readthedocs.org/en/latest/intro/overview.html

Un saludo, feliz día,
--
Milton Mazzarri, a.k.a. [milmazz]
Usuario de GNU/Linux: #369158
http://milmazz.com.ve

Pedro Romero (itobest)

unread,
Mar 4, 2014, 8:41:57 AM3/4/14
to python-v...@googlegroups.com
saludos.... yo estube leyendo un poco, por que ahorita me doy a la actividad de hacer scraping y scrapy es una exelente opcion, si usaras biutifulsoup puede ser un problema las paginas con eqtiquetas rotas y suele ponerse lento en busquedas complejas....



--
Este es un mensaje del foro Python de Venezuela - http://www.python.org.ve
Para suscripciones y retiros: http://goo.gl/ug9by
---
Has recibido este mensaje porque estás suscrito al grupo "Python Venezuela" de Grupos de Google.
Para anular la suscripción a este grupo y dejar de recibir sus correos electrónicos, envía un correo electrónico a python-venezue...@googlegroups.com.
Para obtener más opciones, visita https://groups.google.com/groups/opt_out.

Juan Marquez

unread,
Mar 5, 2014, 10:01:50 AM3/5/14
to Python-Venezuela
La verdad no busque mucho, lo que tengo que hacer es bastante básico (cargar un html para extraer el texto plano) y no me di mala vida, voy a chequear las otras librerías que me recomiendan a ver que tal van, de beautiful soup lo que me gustó fue que hacia exactamente lo que necesitaba y funcionó a la primera.

Saludos

Juan Hernandez

unread,
Mar 5, 2014, 11:31:54 AM3/5/14
to python-venezuela
yo tengo siglos usandola y es buenisima... no he necesitado mas nada


Para anular tu suscripción a este grupo y dejar de recibir sus mensajes, envía un mensaje a python-venezue...@googlegroups.com.
Para acceder a más opciones, visita https://groups.google.com/groups/opt_out.

Reply all
Reply to author
Forward
0 new messages