Biblioteca JS para HTML scraping? Preview de links

34 views
Skip to first unread message

André Costa

unread,
Apr 23, 2013, 8:55:05 AM4/23/13
to js.pro
Preciso fazer uma rotina estilo o preview de links doFacebook, aonde é
passado uma URL e a minha rotina retorna o titulo, descrição e um
thumb da página HTML, anteriormente estava usando YQL, mas ela tem
algumas restrições e limitações quanto ao numero de requisições.

Gostaria de saber se alguem conhece alguma biblioteca em JS para essa
necessidade.
OBS: Queria fazer isso no client side.

Desde já agradeço.

@andre_zip
http://andrec.org/

PotHix

unread,
Apr 23, 2013, 10:09:18 AM4/23/13
to js...@googlegroups.com
Æ!!

Fazer só no Client side vai ser bem difícil devido ao same origin policy: http://en.wikipedia.org/wiki/Same_origin_policy

Há braços

--
PotHix

Suissa

unread,
Apr 23, 2013, 11:59:08 AM4/23/13
to js.pro
Node.js eh suave, usando o Phantomjs ele tem metodo para gerar a screenshot da pagina nativo.



--
You received this message because you are subscribed to the Google Groups "js.pro" group.
To unsubscribe from this group and stop receiving emails from it, send an email to jspro+un...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.
 
 



--
Jean C. Nascimento aka Suissa
Organizador Sampa.js e FrontinSampa
NoSQL e Node.js Evangelist
WebDeveloper

Suissa Corp - Consultoria, Treinamento e Cursos em AngularJs, Node.js e MongoDb


André S. Costa

unread,
Apr 23, 2013, 12:30:53 PM4/23/13
to js...@googlegroups.com

Galera na verdade eu não quero o screen da tela, eu quero pegar a meta tag title, descrition e a primeira imagem da pagina (image[0]).

E nao temos node rodando no server :(
Sacaram?

Via android.

@andre_zip
http://andrec.org

Suissa

unread,
Apr 23, 2013, 4:38:06 PM4/23/13
to js.pro
Nunca vi um scrapping de client-side, se achar um me avisa por favor.


2013/4/23 André S. Costa <andreco...@gmail.com>

--
You received this message because you are subscribed to the Google Groups "js.pro" group.
To unsubscribe from this group and stop receiving emails from it, send an email to jspro+un...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.
 
 

Gabriel Pugliese

unread,
Apr 23, 2013, 2:20:07 PM4/23/13
to js...@googlegroups.com
Você precisa de YQL então para fazer o trabalho pra vc e retornar um json:

--

Gabriel Pugliese
@gabrielsapo
+55 11 9-9374-2720
http://www.blogcloud.com.br


--

Eduardo Bohrer

unread,
Apr 24, 2013, 12:00:32 AM4/24/13
to js...@googlegroups.com
No caso do fb (e a maioria que implementa esse tipo de coisa) leva em consideração principalmente as metatags do open-graph (http://ogp.me/). 

Bem difícil você conseguir implementar isso apenas com client side. 
No server side deve haver algo por aí pra resolver isso.

Gabriel Pugliese

unread,
Apr 23, 2013, 5:16:22 PM4/23/13
to js...@googlegroups.com
Avisa todos nós :D

--

Gabriel Pugliese
@gabrielsapo
+55 11 9-9374-2720
http://www.blogcloud.com.br


Message has been deleted

André S. Costa

unread,
Apr 25, 2013, 8:34:56 PM4/25/13
to js...@googlegroups.com
Pois é galera como disse antes eu queria escapar do YQL pois ele tem limitações de requisições/dia e nós iremos tratar com uma carga pesada de requisições, pelo que pesquisei isso não tem como deixar do lado cliente tem que ser feito no server mesmo.

Eu acabei implementando no backend usando JSOUP para java.
Mas valeu mesmo pelas dicas, obrigadão


2013/4/24 Lucas P. Brigida <lucasb...@gmail.com>
Há um tempo atrás eu fiz scraping(client-side), pegando notícias do uol e g1 (apenas um conceito), está funcionando.
https://github.com/lucasbrigida/web-crawling

Dê uma olhada


2013/4/23 Suissa <jnasc...@gmail.com>



--
Lucas Pereira Brígida

- github: https://github.com/lucasbrigida
- skype: lucas.brigida
- about: Developer & Graduate student in computer science at Itajuba
Federal University.

Developer at Code Stack

--
You received this message because you are subscribed to the Google Groups "js.pro" group.
To unsubscribe from this group and stop receiving emails from it, send an email to jspro+un...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.
 
 



--
André da Silva Costa - Analysis and Systems Development

Linux User #533608


Reply all
Reply to author
Forward
0 new messages