Re: [gophp] Capturar todas URLs de um site

1,611 views
Skip to first unread message

Mayckon Barbosa da Silva

unread,
Mar 19, 2013, 5:23:50 AM3/19/13
to go...@googlegroups.com
Acunetix.

Em 19 de março de 2013 01:38, felipe rodrigues <felip...@gmail.com> escreveu:
Alguém sabe como capturar todas URLs de um site?
Consegui usando uma api do google, fazendo com que pesquise o termo site:nomedosite.com.br e pegue os links dos resultados, funciona perfeitamente, o google bloqueia rápido a consulta mas da para evitar isso usando proxys randomicos a cada consulta.

O problema é que o termo site:nomedosite.com.br retorna apenas as urls indexadas pelo google, o que fazer no caso das urls que estão como noindex ou ainda não foram indexadas?

Alguém tem uma ideia de capturar as URLs sem usar a api de busca do google?

Tipo um crawler?

--
Você recebeu esta mensagem porque está inscrito na Lista "GOPHP" em Grupos do Google.
Para Postar: go...@googlegroups.com
Para Sair do Grupo: gophp-un...@googlegroups.com
Link: http://groups.google.com/group/gophp?hl=pt-BR
---
Você está recebendo esta mensagem porque se inscreveu no grupo "GOPHP" dos Grupos do Google.
Para cancelar a inscrição neste grupo e parar de receber seus e-mails, envie um e-mail para gophp+un...@googlegroups.com.
Para obter mais opções, acesse https://groups.google.com/groups/opt_out.
 
 

Luís Henrique Faria

unread,
Mar 19, 2013, 6:34:19 AM3/19/13
to gophp
Contanto que haja links para as outras páginas em algum lugar, o xenu é ótimo.
Pega os títulos também, é uma beleza.


2013/3/19 Mayckon Barbosa da Silva <mayc...@gmail.com>
Acunetix


Ole Peter Smith

unread,
Mar 19, 2013, 7:33:35 AM3/19/13
to go...@googlegroups.com
asterix, fedodorix???
ggggggggg

0le


2013/3/19 Mayckon Barbosa da Silva <mayc...@gmail.com>
Acunetix.



--
                                            /////
                                         ( O O )
=================oOO==(_)==OOo=================
            Every day and every hour, I'm Learning more
          The more I Learn, the less I Know about before
         The Less I know, the more I want to Look around
             Diggin' deeper into Higher Ground...  UB40
                                   .oooO Oooo.
==================(     )=(     )=====================
                                     \  (     )  /
                                      \_)   (_/
===============================================
                        Ole Peter Smith, IME, UFG
            http://olepeter.mat.ufg.br  - ole at mat.ufg.br
===============================================
                   Life sure is a Mystery to be Lived
                      Not a Problem to be Solved
===============================================

Marcus Paulo Mazzon Dias

unread,
Mar 19, 2013, 9:35:17 AM3/19/13
to go...@googlegroups.com
senao quiser usar uma ferramenta ja pronta domdocument ai tem que fazer recursivo e com expressao para pegar somente os links do site e nao pegar links externos.
Att. Marcus Paulo Mazzon Dias
Desenvolvimento de Sistemas e Sites.
www.marcusp.com.br

Ole Peter Smith

unread,
Mar 19, 2013, 12:03:07 PM3/19/13
to go...@googlegroups.com

eu faria tudo a mao, brincando com expressoes regulares....

0le

Send via Android

Felipe Rodrigues

unread,
Mar 19, 2013, 8:07:30 PM3/19/13
to go...@googlegroups.com
Achei isso aqui http://phpcrawl.cuab.de/

Alguém já usou?

Ole Peter Smith

unread,
Mar 19, 2013, 10:54:37 PM3/19/13
to go...@googlegroups.com
puuutz...

$lines=preg_grep('/HREF=/i',$lines);
...

0le


2013/3/19 Felipe Rodrigues <felip...@gmail.com>
Reply all
Reply to author
Forward
0 new messages