Projeto JusBrasil de Machine Learning em Diários Oficiais

42 views
Skip to first unread message

Lucas Ribeiro

unread,
Mar 14, 2014, 7:14:00 PM3/14/14
to thac...@googlegroups.com
Pessoal, lançamos no JusBrasil a primeira parte de um projeto que estamos desenvolvendo para estruturar os dados de diários oficiais:

http://www.jusbrasil.com.br/diarios/documentos/DJSP/2014/03/13/Judicial-1a-instancia-interior-parte-ii/

Acho que todos aqui sabem a quantidade absurda de informação que existe neles, bem como a dificuldade de se procurar as coisas lá. A partir dos pdf's, convertemos em html e extraímos entidades e relacionamentos. A partir daí estruturamos a informação, criamos tópicos, índices, etc. Volume absurdo de informação, que deve virar uma parte significativa do volume de documentos da web brasileira.

Em breve, além de monitorar atividade judicial por pessoa, empresa, vara, juiz, comarca, ou seja lá o que mais, poderemos gerar relatórios de perfil e produtividade do judiciário nunca antes imaginados (bem mais completos que aqueles que o CNJ divulga).

O que acham?

andre luiz

unread,
Mar 14, 2014, 8:45:53 PM3/14/14
to Transparência Hacker
Lucas,
fiz uma andanças pelos arquivos de lins...rs
parabéns...
abs
andré



--
Você recebeu essa mensagem porque está inscrito no grupo quot;Transparência Hacker" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para thackday+u...@googlegroups.com.
Para postar nesse grupo, envie um e-mail para thac...@googlegroups.com.
Visite este grupo em http://groups.google.com/group/thackday.
Para ver esta discussão na web, acesse https://groups.google.com/d/msgid/thackday/61e1c5f1-c45c-4aa5-94c8-942d93130a9d%40googlegroups.com.
Para mais opções, acesse https://groups.google.com/d/optout.

Vitor Baptista

unread,
Mar 14, 2014, 9:52:27 PM3/14/14
to thac...@googlegroups.com
Bem legal, Lucas! Como vocês estão extraindo o texto do PDF? Que ferramentas? Alguma técnica específica?

Abraços,



Para mais opções, acesse https://groups.google.com/d/optout.



--

Vítor Baptista

Developer  |  http://vitorbaptista.com | LinkedIn | @vitorbaptista

The Open Knowledge Foundation

Empowering through Open Knowledge

http://okfn.org/  |  @okfn  |  OKF on Facebook  |  Blog  |  Newsletter

Daniel Bramatti

unread,
Mar 14, 2014, 9:53:33 PM3/14/14
to thac...@googlegroups.com

Muito bom!



.

.

Daniel Bramatti | Editoria Nacional - Estadão Dados - Blog Públicos | O Estado de S. Paulo

Av. Eng. Caetano Álvares, 55 - Limão - São Paulo - SP - 02598-900

+ 55 11 3856-4592

estadoQuer  Blog Públicos Estadão Dados



gus...@jusbrasil.com.br

unread,
Mar 16, 2014, 7:58:45 PM3/16/14
to thac...@googlegroups.com
Vitor Baptista ,

Faço parte do time do jusbrasil.

Para converter o PDF em html estamos utilizando uma solução própria.

José Barbosa

unread,
Mar 17, 2014, 7:37:26 AM3/17/14
to thac...@googlegroups.com
Não sei exatamente qual o foco do que tem extraído, mas um dos grandes problemas de se extrair dados dos diários oficiais é a manipulação de tabelas (pelo menos num escopo que me interessa, o que afeta servidores públicos). 

Como vocês tem trabalhado nisto? Pode contar alguma coisa sobre a solução própria, que tipo de ferramentas/bibliotecas utilizam, e se enfrentam este problema de tabelas (ou outros relacoinados ao PDF) e como fizeram para solucionar. 

Lucas Ribeiro

unread,
Mar 17, 2014, 9:18:08 AM3/17/14
to thac...@googlegroups.com
José, eu não sei te dar detalhes sobre o nosso projeto de PDF, porque eu já utilizo os pdf`s convertidos. Mas nós temos nossos problemas com tabelas também.
Se vc quiser, me manda um email direto pra mim que eu encaminho ele pra o pessoal que trabalha na conversão. Seria interessante saber o que vc anda usando por aí tb!

Bruno Freitas

unread,
Mar 17, 2014, 10:00:14 AM3/17/14
to thac...@googlegroups.com
Pessoal,

Se der, compartilhem o conhecimento com a gente!

Abs


--
Você recebeu essa mensagem porque está inscrito no grupo quot;Transparência Hacker" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para thackday+u...@googlegroups.com.
Para postar nesse grupo, envie um e-mail para thac...@googlegroups.com.
Visite este grupo em http://groups.google.com/group/thackday.

Para mais opções, acesse https://groups.google.com/d/optout.



--
A covardia coloca a questão: 'É seguro?'
O comodismo coloca a questão: 'É popular?'
A etiqueta coloca a questão: 'é elegante?'
Mas a consciência coloca a questão, 'É correto?'
E chega uma altura em que temos de tomar uma posição que não é segura, não é elegante, não é popular, mas temos de fazer porque a nossa consciência nos diz que é essa a atitude correta.

****************************
Bruno Marçal de Freitas
Reply all
Reply to author
Forward
0 new messages