Web Crawler é crime?

1,093 views
Skip to first unread message

Guilherme de Souza

unread,
Mar 20, 2012, 9:27:11 AM3/20/12
to startup...@googlegroups.com
Galera, 

Estou com a seguinte dúvida, vou criar um web crawler e coletar informações de diversos sites e juntar tudo em um só, parecido com o que o Saveme faz, porém seria outro segmento.

Seria crime eu coletar esta informações sem previa autorização (mesmo eu redirecionando o trafego)?

--
Guilherme Rares
Consultor de Tecnologia
Cel: (11) 7368-8469

Paulo Fernandes

unread,
Mar 20, 2012, 9:55:42 AM3/20/12
to startup...@googlegroups.com
In my point of view 

NÃO


Pablo Cantero

unread,
Mar 20, 2012, 10:15:30 AM3/20/12
to startup...@googlegroups.com
O site que vc copiou a informação pode requerer a remoção de conteúdo judicialmente.

Um vez consultei sobre isso com a Cecília Manara.


Eles atendem super bem, recomendo! 

2012/3/20 Paulo Fernandes <paulofer...@gmail.com>

Marcelo Linhares

unread,
Mar 20, 2012, 9:37:12 AM3/20/12
to startup...@googlegroups.com
De forma alguma!
Isto é comun e praxe, Buscapé começou assim, vários "meta-buscadores" da época (quem se lembra do meta-miner) também eram assim, não conheço nenhuma jurisprudência que classifique isto como crime.

[]s
2012/3/20 Guilherme de Souza <guic...@gmail.com>



--
Marcelo Linhares
Pessoal -> marcelolinhares.com
CachaçaExpress - Seu portal de Cachaças na Internet
http://www.cachacaexpress.com.br/

Eduardo Cavalcanti

unread,
Mar 20, 2012, 10:01:20 AM3/20/12
to startup...@googlegroups.com
Isso é uma missão para um bom advogado especializado em meios digitais...

Em princípio também acho que não, tendo em vista que as informações já estão disponíveis online e não fazem parte da propriedade intelectual da empresa que as publica.

2012/3/20 Paulo Fernandes <paulofer...@gmail.com>



--
Eduardo Cavalcanti
+55(21)81668905

Cleber Gouvêa

unread,
Mar 20, 2012, 10:15:29 AM3/20/12
to startup...@googlegroups.com
Sim, é crime de acordo com a lei de direitos autorais atual não se pode copiar trechos de outros sites sem autorização do autor no caso de teu site visar lucro.

A boa notícia é que nossa lei de direitos autorais está totalmente caduca (é de 1998), por ela web, linkania, etc não existiriam pois a maioria absoluta dos sites está ilegal, o Google por exemplo, além de apresentar trechos de sites nos resultados sem autorização dos donos, ainda apresenta a versão em cache com o conteúdo integral. Ou seja, o risco jurídico é baixo, desde que tu tenha uma política de remoção do conteúdo caso alguém solicite, é assim que funcionam as coisas em um ambiente aberto, livre.

Seguem os trechos da lei atual:

Art. 29. Depende de autorização prévia e expressa do autor a utilização da obra, por quaisquer modalidades, tais como:

I – a reprodução parcial ou integral;

IX – a inclusão em base de dados, o armazenamento em computador, a microfilmagem e as demais formas de arquivamento do gênero;


Art. 46. Não constitui ofensa aos direitos autorais:

II – a reprodução, em um só exemplar de pequenos trechos, para uso privado do copista, desde que feita por este, sem intuito de lucro;

http://www.cultura.gov.br/site/2008/02/02/lei-no-9610-de-19-de-fevereiro-de-1998/

Cleber

2012/3/20 Guilherme de Souza <guic...@gmail.com>
Galera, 

Rafael Caceres

unread,
Mar 20, 2012, 10:00:50 AM3/20/12
to startup...@googlegroups.com
Acredito que apenas se o site em que você puxar os dados deixar isso explicito. Afinal, as informações estão todas públicas, não?


--
Rafael Caceres
CEO, DROPIT Smart Web
+55 48 9650.4642
Florianópolis - SC
raf...@dropit.com.br
http://www.dropit.com.br

Miguel Galves

unread,
Mar 20, 2012, 10:03:28 AM3/20/12
to startup...@googlegroups.com
Se for, então é melhor eu preparar minha defesa, pq é justamente o que a 
minha startup siga.st faz. :-) A gente agrega conteúdo, organiza, e depois
redireciona nosso usuários para os sites originais. Com isto, damos visitação
para nossas fontes e, muito importante, não interferimos na questão de midia
gráfica.


2012/3/20 Paulo Fernandes <paulofer...@gmail.com>



--
Miguel Galves
siga.st

Danilo Fernandes

unread,
Mar 20, 2012, 9:37:17 AM3/20/12
to startup...@googlegroups.com

Guilherme,

 

Até onde eu sei não é crime... Basta vocês pensar que o google pega a informação e ele não pede para ninguém assinar um contrato permitindo...

A única coisa que vocês precisa lembrar é de dar os créditos, dizer quem fez, ou onde foi encontrado...

 

Estou falando isso pq se você pegar gente chata, e acredite, existe, pode ser considerado plágio...

Thiago Colares

unread,
Mar 20, 2012, 10:17:05 AM3/20/12
to startup...@googlegroups.com
E no meu caso, quando eu pego conteúdo colocado por usuários?

não faço um crawler, é mais um visualizador hehe



2012/3/20 Pablo Cantero <pa...@pablocantero.com>

Thiago Colares

unread,
Mar 20, 2012, 9:45:44 AM3/20/12
to startup...@googlegroups.com
Boa pergunta! Utilizo isto em uma brincadeira que mantenho: http://touke.apimenti.com.br
traduz cifras de violão para ukulele


--
Thiago Colares
71 3334-5034



2012/3/20 Guilherme de Souza <guic...@gmail.com>

Dimas Kastiberg

unread,
Mar 20, 2012, 10:20:18 AM3/20/12
to startup...@googlegroups.com
rapaz respoite os ROBOTS.TXT que estão as páginas que não devem ser visitadas por crawlers
--
Dimas Kastibergue Fernandes

Paulo Patto

unread,
Mar 20, 2012, 10:03:21 AM3/20/12
to startup...@googlegroups.com
Mas pode ser caracterizado como roubo de informação se não me engano, tem que consultar um especialista em direito digital. Já vi thread em algumas lista falado sobre isso, procurei aqui no meu histórico de e-mails mas não achei nada mas na comunidade de python já devem ter discutido isso e muito, lembro que web crawler pode se enquadrar em três categorias dependendo do site e da informação coletada.

2012/3/20 Paulo Fernandes <paulofer...@gmail.com>



--
Paulo Patto
"Se em vez de enchermos o bolso enchermos a cabeça, não seremos roubados"

Lucas Arruda

unread,
Mar 20, 2012, 10:40:44 AM3/20/12
to startup...@googlegroups.com
On Tue, Mar 20, 2012 at 11:00 AM, Rafael Caceres <raf...@dropit.com.br> wrote:
Acredito que apenas se o site em que você puxar os dados deixar isso explicito. Afinal, as informações estão todas públicas, não?



Estar publicamente disponível não tem a ver com a licença atrelada àqueles dados.

Acho que o Cleber esclareceu para a gente. Em tese é crime, porém é aceito que você reproduza e tire sob requisição da empresa. 

Alguém uma vez já comentou aqui na lista que o Buscapé fazia isso e um dos sites tentou processar ele. Ele não retirou. Mais tarde, quando o Buscapé estava bombando, ele resolveu tirar esse mesmo site que causou problemas para ele. Resultado? O site quis processar novamente por não incluir ele no Buscapé e portanto favorecer apenas os concorrentes dele.

Ou seja, se o seu uso da informação for benéfico para site, não se preocupe. Se não for, pode ser que ele tente te processar, mas o máximo que poderá acontecer é você ter que retirar esse site.

Já vi isso acontecendo com pessoas que usavam os webservices dos Correios e teve que tirar. Isso também aconteceu com um aplicativo para o iPhone que acessava sua conta da Vivo. Mais tarde, depois de muito rolo, um diretor da Vivo que usava o aplicativo mandou liberar!


[]'s
Lucas Arruda
lucasarruda.com

Renato Gil

unread,
Mar 20, 2012, 10:41:58 AM3/20/12
to startup...@googlegroups.com
Pois é, linkar pode, e usar o conteúdo? Seria proibido? Ainda que citasse a referência?
Estou tocando um labs de uma ferramenta e caí na mesma questão do Thiago Colares.

[]s
Renato Gil

Klederson Bueno

unread,
Mar 20, 2012, 10:44:04 AM3/20/12
to startup...@googlegroups.com
Na realidade complementando a informacao do amigo, o grande lance é o tipo de uso que você faz com a informação adquirida, por ex:

Vc tem um jornal, e no seu jornal web vc poe feed ou crawling de varios outros e ta la monta seu jornal as pessoas acessam o conteudo na integra, navegam etc... vc ate poe a fonte e o link pro original mas gerou receita e navegaçao para voce.

Isso é o erro mais comun, usar o conteudo de forma que não gere interesse no site origem.

--
/**

 * PHP Architect/Consultant
 * @author Klederson Bueno <klederson [at] klederson [dot] com>
 * @see http://www.phpburn.com
 * @see http://github.com/klederson
 * @see http://www.twitter.com/klederson
 * @about http://about.me/klederson
 */

Guilherme de Souza

unread,
Mar 20, 2012, 10:47:50 AM3/20/12
to startup...@googlegroups.com
Obrigado galera pelo feedback.

Bom meu site acredito eu que seja benéfico para os sites que serão buscados.

Vou citar fonte e redirecionar o trafego como eu disse anteriormente.

Irei continuar com o projeto e irei apresenta-lo aqui assim que o MVP ficar pronto.

Dirceu Santa Rosa

unread,
Mar 20, 2012, 10:48:08 AM3/20/12
to startup...@googlegroups.com
Em tese, depende do tipo de informação que será coletada e da modalidade de redistribuição.

Se a informação é, digamos, restrita ( só poderia ser acessada por membros cadastrados, ou através de um serviço pago ), as chances de problema seriam maiores.

Se a redistribuição é em caráter comercial ( você está cobrando por isso ) ou impede alguém de cobrar de forma adequada ( alguém que inseriu o conteúdo deixou de receber $ ou % de vendas ), isso também pode ser um problema.

E crime na cara dura talvez isso não o seja, apenas um ilícito cível ou de concocrrência desleal.

Deixando claro desde já que aqui estou apenas assuntando em cima do que você falou. São hipóteses que variam de caso a caso. Não posso nem pensar em uma opinião jurídica só com as infos que você me passou, ok ?

Abraços

Dirceu

José Lúcio

unread,
Mar 20, 2012, 10:58:19 AM3/20/12
to startup...@googlegroups.com
Como o pessoal disse, desde que você não "prejudique" o autor e dê os devidos créditos, é ok.

Mas o ideal é fazer (pelo menos na minha opinião) como Guy Kawasaki faz com os twitts dele:
http://holykaw.alltop.com/no-sex-required-women-have-orgasms-at-the-gym?tu2=1 (exemplo de hoje)

Ele coloca um resumo do texto na página da Alltop e linka pro conteúdo original pra ler toda a matéria.

Abs,
--
José Lúcio Cordeiro
+55 11 6773 5973
http://about.me/luciojr



2012/3/20 Dirceu Santa Rosa <dirceu...@gmail.com>

Pedro Ramos

unread,
Mar 20, 2012, 11:40:58 AM3/20/12
to startup...@googlegroups.com
Guilherme e demais,

Naturalmente, é importante entender mais sobre um caso concreto antes de ir a fundo com uma opinião jurídica. Em linhas gerais, entendo que os sites apontados no resultado de um agregador são criados e inseridos na internet pelos respectivos proprietários, e não  pelas ferramentas de busca/agregadores, que não tem qualquer ingerência sob o conteúdo dos sites pesquisados. A função de seu crawler é simplesmente facilitar a busca das informações em outros sites.

Vejo que esses mecanismos, desde que deixem claro a fonte da mera manchete destacada e direcionem o usuário para o conteúdo original, não copiam, reproduzem ou se apropriam dos conteúdos exibidos, apenas se valendo de um mecanismo de deeplink, em que o hyperlink é direcionado para o conteúdo interno de um outro site. Não vejo como esse mecanismo precisa de autorização prévia dos sites (artigo 29 da Lei 9.610/98) ou da empresa cujo nome é veiculado (artigo 20 do Código Civil) - embora, obviamente, essas empresas podem solicitar a retirada do conteúdo (ou ainda incluir linhas de código que impeçam web crawlers).

Já falar em indenização pela utilização do conteúdo terceiro em agregadores é mais complexo. Há algumas teses sendo ventiladas sobre o assunto no Brasil, em círculos muito acadêmicos, sem precedentes judiciais. Em termos de jurisprudência mesmo, tem bastante coisa do Google, no sentido de isentar completamente a responsabilidade pela "agregação" do conteúdo (boa dica de leitura é o AI 990.09.364460-6, do TJ-SP).

Nos EUA e Europa, já houve ações contra sites agregadores de conteúdo e de notícias (dê uma olhada nos casos Ticketmaster Vs. Tickets.com nos EUA e no Paperboy.de na Alemanha) e a maioria dos casos tem decidido pela legalidade dos agregadores.


Abs!


Pedro Ramos

http://www.linkedin.com/in/pedrohsramos 

https://twitter.com/#!/pedrohramos 



Rafael Caceres

unread,
Mar 20, 2012, 10:55:06 AM3/20/12
to startup...@googlegroups.com
Qualquer coisa escrita num guardanapo é seu direito autoral, e a licença é atrelada automaticamente. 

O que eu quis dizer foi exatamente o que tu disse, talvez não me expressei bem. Em tese é crime, mas ninguém vai conseguir te processar se você tirar o conteúdo quando solicitado. Mas talvez se a restrição de cópia esteja explicita, um advogado pode conseguir alguma coisa! hehe




--
Rafael Caceres
CEO, DROPIT Smart Web
+55 48 9650.4642
Florianópolis - SC
raf...@dropit.com.br
http://www.dropit.com.br

Breno Santos Salgado

unread,
Mar 20, 2012, 11:48:37 AM3/20/12
to Startup Brasil
pode haver alguns problemas...

por exemplo, ta tendo uma polêmica com o pinterest ultimamente, pq as
pessoas colocam conteúdo de outros sites lá, sem autorização, e depois
o pinterest vai monetizar em cima daquilo...

então digamos, se o cara tem um blog com arte dele e os pins dele
fazem mais sucesso pelo pinterest que pelo blog dele, ou digamos algum
outro agregante de sucesso, como o 9gag, eles usam conteúdo que não é
deles e podem muito bem desviar renda que o autor original do conteúdo
teria com anúncios, porém esses sites já tem nos termos a forma de
passar toda a responsabilidade para quem colocou o conteúdo no site,
no caso de um crawler isso não acontece, então podem haver sim
problemas, claro que eu não entendo nada da parte jurídica
precisamente, mas a lógica diria que é bem possível

mas também, essa situação só deve se mostrar em um produto de massa
crítica, de qualquer forma eu imagino que no mínimo vc é obrigado a
mostrar de onde vc pegou esse conteúdo...

se não, talvez o modelo do google fosse ilegal, por exemplo

On 20 mar, 11:58, José Lúcio <joseluci...@gmail.com> wrote:
> Como o pessoal disse, desde que você não "prejudique" o autor e dê os
> devidos créditos, é ok.
>
> Mas o ideal é fazer (pelo menos na minha opinião) como Guy Kawasaki faz com
> os twitts dele:http://holykaw.alltop.com/no-sex-required-women-have-orgasms-at-the-g...
> de hoje)
>
> Ele coloca um resumo do texto na página da Alltop e linka pro conteúdo
> original pra ler toda a matéria.
>
> Abs,
> --
> José Lúcio Cordeiro
> +55 11 6773 5973http://about.me/luciojr
>
> 2012/3/20 Dirceu Santa Rosa <dirceu.s.r...@gmail.com>
Reply all
Reply to author
Forward
0 new messages