Raspagem de dados utilizando Scrapy

25 views
Skip to first unread message

Rafael Henrique da Silva Correia

unread,
Mar 13, 2016, 7:21:58 PM3/13/16
to WTTD, Python Sorocaba, Grupy-SP - Grupo de usuários Python na cidade de São Paulo, Python Brasil
Boa noite a todos!

Agora a pouco tomei a iniciativa de ajudar um amigo.... nosso amigo Régis! 

E perguntei a ele se nossa conversa poderia ser gravada, pois a dúvida do Régis pode ser a dúvida de muitos. Pois bem, passei uma introdução rápida sobre Scrapy pra ele e como usar a ferramenta, até criamos um primeiro projeto básico disponível no github do Régis. Segue o vídeo que eu gravei durante nossa conversa:


Resolvi fazer um post pois coloquei mais informações lá pra quem se interessar.
Espero que a nossa conversa seja útil a mais pessoas ;). Qualquer dúvida/sugestão ou crítica mandem ai ;).

Att.

Rafael Henrique da Silva Correia

unread,
Mar 14, 2016, 6:00:54 AM3/14/16
to grup...@googlegroups.com, python...@googlegroups.com, Python Sorocaba, wttd-2015
Moacir bom dia!

Nunca usei scrapy com celery, mas pra ser sincero não vejo problema. Você tem algum exemplo do por que usaria o celery com ele? Podemos testar algo ;)

Att.

Em seg, 14 de mar de 2016 00:14, Moacir Moda Neto <moa....@gmail.com> escreveu:

Aproveitando a deixa para esclarecer uma duvida:

O scrapy funciona bem com celery e/ou tarefas assíncronas no geral?

Enviado via celular

Em 13/03/2016 20:35, "Felipe Pavão | www.felipepavao.com" <con...@felipepavao.com> escreveu:

Foda. Sou fan do Scrapy, mas ainda falta dominar. Vai me ajudar mt. Obrigado.

--
Você recebeu essa mensagem porque está inscrito no grupo "Welcome to the Django 2015" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para wttd-2015+...@googlegroups.com.
Para postar nesse grupo, envie um e-mail para wttd...@googlegroups.com.
Acesse esse grupo em https://groups.google.com/group/wttd-2015.
Para ver essa discussão na Web, acesse https://groups.google.com/d/msgid/wttd-2015/CAKTR4-mYB%3DDvUnPjRLPO0PNt3DVMMDKSh0Mj8cSc63RG72zF7Q%40mail.gmail.com.
Para mais opções, acesse https://groups.google.com/d/optout.

--
--
------------------------------------
Grupo Python-Brasil
http://www.python.org.br/wiki/AntesDePerguntar
 
<*> Para visitar o site do grupo na web, acesse:
http://groups.google.com/group/python-brasil
 
<*> Para sair deste grupo, envie um e-mail para:
python-brasi...@googlegroups.com

---
Você recebeu essa mensagem porque está inscrito no grupo "Python Brasil" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para python-brasi...@googlegroups.com.

Para mais opções, acesse https://groups.google.com/d/optout.

--
Você recebeu essa mensagem porque está inscrito no grupo "Grupy-SP - Grupo de usuários Python na cidade de São Paulo" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para grupy-sp+u...@googlegroups.com.
Para postar nesse grupo, envie um e-mail para grup...@googlegroups.com.
Acesse esse grupo em https://groups.google.com/group/grupy-sp.
Para mais opções, acesse https://groups.google.com/d/optout.

Rafael Henrique da Silva Correia

unread,
Mar 14, 2016, 12:12:41 PM3/14/16
to Moacir Moda Neto, python...@googlegroups.com, Python Sorocaba, wttd-2015, grup...@googlegroups.com

Podemos testar isso Moacir, se vc tiver uma ideia de projeto didático vamos fazer isso ai... :-D.

Flw!


Em seg, 14 de mar de 2016 12:55, Moacir Moda Neto <moa....@gmail.com> escreveu:

Fala Fernando,

Estou fazendo o mesmo... Task de celery com bs4. Fiquei curioso com o scrapy pois ele te entrega algumas coisas já "prontas" né.

Abraços

Enviado via celular

Em 14/03/2016 09:08, "Fernando Freitas Alves" <ffreit...@gmail.com> escreveu:

Bom dia !

Fala Neto, acho que não pega nada usar scrapy com o celery. O celery só cria instâncias da task por fora, É como se estivesse rodando outra app Django pra  executar sua task em vários workers. E pode ou não voltar os dados num banco de resultados

Aqui faço muito disso, mas mais com bs4, não vejo porque com o scrapy não daria.

Abraços

Em 14 de mar de 2016 8:42 AM, "Rodolfo De Nadai" <rden...@gmail.com> escreveu:

Não sei se ajuda também, mas tenho uma postagem em meu blog sobre o Scrapy... é uma versão um pouco mais antiga, então com certeza algumas coisas mudaram, mas pode ser fonte de consulta.
Com relação ao celery nunca usei com o Scrapy, principalmente ao usar o crawler dele. Acho que talvez não seja bem integrado, visto que o crawler roda automaticamente.

http://rdenadai.com.br/blog/view/web-scraping-scrapy.html

Fiz alguns scraps como nosso amigos citou usando requests, beautiful soup 4 e celery... funciona bem, a questão é apenas se vc quiser um crawler para varrer todas as urls do site, bom ae vc teria de fazer na mão mesmo.
Também é possível fazer algum scrap usando Selenium... pode ser uma boa, principalmente se vc precisa acessar via interface, mas consome muito mais mem e processamento (por motivos óbvios neh).

--

Rafael Henrique da Silva Correia

unread,
Mar 14, 2016, 5:50:10 PM3/14/16
to WTTD, Python Sorocaba, Grupy-SP - Grupo de usuários Python na cidade de São Paulo, Python Brasil

kristhyan claro

unread,
Jul 11, 2023, 3:55:35 PM7/11/23
to Python Sorocaba
Fala Galera,
Beleza?

O atributo Keys não está sendo reconhecido;
Assim, a sua importação no editor fica desabilitada.

Alguém saberia alguma solução?

Rafael Henrique da Silva Correia

unread,
Jul 11, 2023, 3:57:38 PM7/11/23
to kristhyan claro, Python Sorocaba
Oi Kristhyan, consegue mandar alguma informação extra? Tipo um printscreen ou qualquer outra coisa que possa ajudar a resolver o problema?
Eu particularmente não uso Pycharm, mas já tenho uns bons anos de Python, então talvez eu consiga ajudar se vc mandar mais detalhes.

Abraço!

--
Você recebeu essa mensagem porque está inscrito no grupo "Python Sorocaba" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para python-soroca...@googlegroups.com.
Para ver essa discussão na Web, acesse https://groups.google.com/d/msgid/python-sorocaba/4ad2eb9b-0835-44fd-bb1b-dd30fbcddda6n%40googlegroups.com.


--
Rafael Henrique da Silva Correia

kristhyan claro

unread,
Jul 12, 2023, 9:11:20 AM7/12/23
to Python Sorocaba
Segue correção de último link:

bit.ly/3XKxu85

kristhyan claro

unread,
Jul 12, 2023, 9:11:20 AM7/12/23
to Python Sorocaba
E ai Rafael,

Primeiramente obrigado por se dispor tão brevemente.

Acabo de passar brevemente as informações e prints de código e erro para este notebook:

Um Abraço Cara!

Em terça-feira, 11 de julho de 2023 às 16:57:38 UTC-3, raf...@abraseucodigo.com.br escreveu:

Rafael Henrique da Silva Correia

unread,
Jul 12, 2023, 9:16:02 AM7/12/23
to kristhyan claro, Python Sorocaba
Oi Kristhyan, acho que pelo link que vc mandou ficou bem claro o problema.... vou replicar aqui localmente assim que possível e te dou um retorno.

PS: Estou respondendo você agora desta forma pois não conseguirei testar isso por agora tão ja, mas eu consegui entender, ficou claro :)

kristhyan claro

unread,
Jul 12, 2023, 2:03:40 PM7/12/23
to Rafael Henrique da Silva Correia, Python Sorocaba
Imagina Cara,

Pô, já fico extremamente contente e Grato :D
Reply all
Reply to author
Forward
0 new messages