scrapy, navegação entre paginas e formulários

327 views
Skip to first unread message

Fabio C. Barrionuevo da Luz

unread,
Sep 2, 2013, 9:50:30 PM9/2/13
to python...@googlegroups.com
Boa noite pessoal, gostaria de uma ajuda de quem já trabalhou com o Scrapy.

Alguém possui um exemplo que como se realiza a navegação entre paginas com o Scrapy.

E o preenchimento de formulários, como faz no modo scrapy de fazer?

Fiz este pequeno crawler[1] com o Splinter, e lxml e gostaria de traduzi-lo para o scrapy...

Obrigado a todos.

Fábio C. Barrionuevo da Luz
Acadêmico de Sistemas de Informação na Faculdade Católica do Tocantins - FACTO
Palmas - Tocantins - Brasil - América do Sul

Rodrigo Carvalho

unread,
Nov 5, 2013, 1:23:08 PM11/5/13
to python...@googlegroups.com
Olá Fabio,

Eu tenho um script que navega entre as paginas e faz autenticação também.
O que você realmente precisa?
Estou usando 100% scrapy framework para esta finalizadade. Mas existe excelentes tópicos no stackoverflow sobre isso.

http://doc.scrapy.org/en/0.18/topics/link-extractors.html

Fabio C. Barrionuevo da Luz

unread,
Nov 5, 2013, 2:07:56 PM11/5/13
to python...@googlegroups.com
Na verdade quero deixa-lo mais robusto e principalmente sem a necessidade de ter uma instancia do navegador.
Você poderia compartilhar o seu projeto feito do scrapy ou criar um exemplo de como acessar uma pagina, procurar itens específicos na pagina, procurar links e botões específicos na pagina e interagir com eles?

Obrigado


--
--
------------------------------------
Grupo Python-Brasil
http://www.python.org.br/wiki/AntesDePerguntar
 
<*> Para visitar o site do grupo na web, acesse:
http://groups.google.com/group/python-brasil
 
<*> Para sair deste grupo, envie um e-mail para:
python-brasi...@googlegroups.com
 
---
Você está recebendo esta mensagem porque se inscreveu no grupo "Python Brasil" dos Grupos do Google.
Para cancelar a inscrição neste grupo e parar de receber seus e-mails, envie um e-mail para python-brasi...@googlegroups.com.
Para obter mais opções, acesse https://groups.google.com/groups/opt_out.

Gustavo Carvalho

unread,
Nov 5, 2013, 6:47:20 PM11/5/13
to python...@googlegroups.com
Fábio,

Quanto aos forms nunca usei, mas fazer o Scrapy seguir links basta no parse, vc chamar um Request passando a url, e definindo uma função que irá processar o item (ou até chamar recursivamente a mesma que já está processando) e passá-la por parâmetro como callback.
No link [1] tem um exemplo (o segundo exemplo do link) que faz isso que falei, no caso ele chama o Request pra mesma função.

Ainda dá pra usar o metodo scrapy.utils.url.is_url pra verificar se é uma um url antes de fazer o Request.
Se não tiver sido muito claro avisa que tenho uma exemplo aqui, aí organizo e faço um gist pra postar.


att,
Gustavo de Carvalho Sales
Bacharelando em Ciência da Computação - UFPI
Programador Python - Agência 128 Bits
http://about.me/gt.salles

'A Livre expressão é o que constrói uma nação independentemente da moeda e sua cotação'

Igor Medeiros

unread,
Nov 6, 2013, 9:00:51 AM11/6/13
to python...@googlegroups.com
Oi Fábio,

Comecei a montar um projeto para extrair dados de um simulador da bolsa de valores (folhainvest). 


Mas o arquivo do spider é esse: https://github.com/irgmedeiros/folhainvest/blob/master/folhainvest/spiders/Finvest_spider.py

O spider que montei navega entre diferentes páginas usando regras definida pela variável 'rules' e usa métodos correspondentes para extrair os dados. O método login é um exemplo de como interagir com um form da página, nesse caso para logar. A linha 45 é um recurso para poder recriar o comportamento do Javascript da página para obter o token de autenticação, isso é um problema específico desta página, não precisa se importar com ele. 

Espero que ajude, abraços. 
Reply all
Reply to author
Forward
0 new messages