varredura de site

aabnoguera

unread,

Sep 15, 2011, 12:50:00 AM9/15/11

to PHPRS

Bom dia!

Tenho um cliente que me fez um pedido, pelo menos para mim, inédito, o
qual comparto com os colegas a fim de saber se alguem já passou por
situação, pelo menos, parecida. Talves possamos trocar idéias...

Meu cliente possui uma loja de artigos de informática, a qual atua
online também, através de uma loja virtual. Ele gostaria de um sistema
online que visitasse o site do cliente e fizesse uma listagem de todos
os produtos do site do fornecedor para posteriormente comparar com a
listagem que ele possui na loja dele. A idéia é controlar estoques e,
aos poucos, inserir os todos os produtos que o fornecedor
disponibilize.

Sem acesso ao banco de dados do fornecedor, minha pergunta é: Como
"escanear" (expressão usada por meu cliente) o site inteiro??

Num primeiro momento, pensei até em expressões regulares... mas ainda
assim, como descobrir categorias e subcategorias simplesmente baseando-
se em querystrings complexas...

Espero ter sido claro...
Desde já, obrigado por toda e qualquer colaboração.

Guilherme Uhelski

unread,

Sep 15, 2011, 8:23:39 AM9/15/11

to lista...@googlegroups.com

Olá Angelo.

Eu pensaria em fazer algo parecido com um crawler, usando curl para
acessar as páginas da loja e um scrapper (como o
http://simplehtmldom.sourceforge.net) para buscar o conteúdo que você
quer "capturar". O trabalho inicial seria mapear as páginas do
catálogo e os elementos html que constam as informações que você
precisa, depois disso é só deixar o crawler fazer o trabalho dele.

Espero que ajude.

2011/9/15 aabnoguera <angelo....@gmail.com>:

> --
> You received this message because you are subscribed to the Google
> Groups "PHPRS" group.
> To post to this group, send email to lista...@googlegroups.com
> To unsubscribe from this group, send email to
> lista-phprs...@googlegroups.com
> For more options, visit this group at
> http://groups.google.com/group/lista-phprs?hl=en

Marcelo Rezende

unread,

Sep 15, 2011, 8:35:05 AM9/15/11

to lista...@googlegroups.com

Olá Angelo,

Só vejo 2 possibilidades de você conseguir obter esses dados:

A primeira e mais fácil, seria você identificar qual a ferramenta de ecommerce o site utiliza e verificar se ele gera os feeds dos produtos, daí você poderia recuperar a lista de produtos por xml. Esse seria o melhor caminho, visto que algumas ferramentas de ecommerce possuem até API de integração.

A outra maneira seria fazendo a captura e parsing da página. Essa sem dúvida é a pior.

--
You received this message because you are subscribed to the Google
Groups "PHPRS" group.
To post to this group, send email to lista...@googlegroups.com
To unsubscribe from this group, send email to
lista-phprs...@googlegroups.com
For more options, visit this group at
http://groups.google.com/group/lista-phprs?hl=en

--
Marcelo Rezende
mal...@gmail.com

http://phpwafr.wordpress.com

alta produtividade no desenvolvimento em PHP

Ângelo Rigo

unread,

Sep 15, 2011, 8:43:42 AM9/15/11

to lista...@googlegroups.com

Oi

Se o fornecedor tivesse webservices para expor seus estoque a pessoas que ele confia
fornecendo login e senha.

Deve ser por ai... php+webservices ou robots da web

+-------------------------------
Ângelo Marcos Rigo
http://www.u4w.com.br
------------------------------+

2011/9/15 aabnoguera <angelo....@gmail.com>

Reply all

Reply to author

Forward