publicação e infraestrutura do serveoquantoganha

Leonardo Cezar

unread,

Jul 9, 2012, 6:59:47 PM7/9/12

to racat...@googlegroups.com

Srs,

Entendo que em breve (algumas horas) teremos uma versão 0.9 da
aplicação serveoquantoganha e acho razoável discutirmos sobre a
publicação em produção.

De tarde fiz o merge da versão do Wesley com o que tinha no github e
quem quiser dar uma olhada é só baixar do repositório.

Tenho algumas dúvidas sobre o cenário tecnológico do projeto e
gostaria de discutir aqui:

1) A ideia é trabalhar com pull-requests ou commits diretamente no
repositório do Christian? Se for pra trabalhar com pull-requests sem
galho, eu já clono o diretório lá, senão seria interessante todos nós
conseguirmos fazer commit no projeto do Christian. Eu sou a favor da
segunda opção.

2) Para publicação em produção, eu acho que vamos precisar algumas
coisas, caso a ideia seja colocar no heroku; as mudanças são:
- Pensar num framework que não tenhamos muito impacto na migração.
Eu acho que o Sinatra (ruby) seria um dos que não precisaríamos mudar
nada, porém eu prefiro adotar NodeJS (ExpertJS). Mas seria melhor
decidir isto com a opinião de todos. Outras opções são NodeJS
(javascript), Flask (python), Rails (Blargh!), Scala, ...

3) Com a mudança que o Wesley implementou na estrutura dos dados
gerando um JSON, já acredito que seria o momento de discutir aquela
coisa da API RESTful e então, remetemos a tecnologia do backend da
aplicação.

Resolvendo essas questões já publico a versão 0.9.1 para todos
acompanharem e para a sociedade visualizar.

Abraço!

-Leo
--
Leonardo Cezar
http://postgreslogia.wordpress.com

Christian Moryah

unread,

Jul 9, 2012, 7:42:50 PM7/9/12

to racat...@googlegroups.com

Ae galera!!!!

Novamente, está sendo um prazer e uma honra trabalhar com vocês, muito embora até agora eu não tenha feito nada além de pilhar vocês (:D), prometo que amanhã vou dedicar um tempo pra fazer alguma melhoria na visualização.

Sobre as ponderações:

1: prefiro a opção 2 (td mundo faz commit!), só falar que eu abro geral..

2: Eu não manjo bem de nenhuma dessas, mas sugiro node (minha primeira opção) e ruby (nunca nem brinquei)

3: Concordo que essa é a hora de começarmos a pensar nisso e aproveitar e dividir a equipe em 1-galera que faz interface e 2- galera que faz api / trata os dados (mas claro que nao precisa ter rigidez nessas definições, afinal é legal brincar de tudo)

Vamo por os dados numa base então ou vamos deixar eles estrutuados num arquivo texto, num formato json ? Entendo que essa é uma base bem pequena, portanto seria fácil fazer de qqer jeito, mas qual seria o jeito mais fácil / legal / melhor pro futuro?

Falando na base, alguma novidade naquele parsing do PDF ? Acho que se nao rolar agente pode pegar aquela base extraída (ods) , colocar os nomes (manual msm) e bolar um jeito de incluir automático numa base.

Vamos aguardar as idéias.

Abracios!

2012/7/9 Leonardo Cezar <lhc...@gmail.com>

--
Você está recebendo esta mensagem porque se inscreveu no grupo "RacatonaTDC" dos Grupos do Google.
Para postar neste grupo, envie um e-mail para racat...@googlegroups.com.
Para cancelar a inscrição nesse grupo, envie um e-mail para racatonatdc...@googlegroups.com.
Para obter mais opções, visite esse grupo em http://groups.google.com/group/racatonatdc?hl=pt-BR.

fgmacedo

unread,

Jul 10, 2012, 9:15:41 AM7/10/12

to racat...@googlegroups.com

Bom dia senhores,

Não consegui avançar muito na questão de extrair os dados do PDF.

Minha tentativa foi utilizar o pdfminner [1] para tentar ao menos melhorar a saída em texto que obtivemos do PDF. No entanto, na estrutura interna do PDF é como se cada caractere fosse posicionado com coordenadas (x,y), e deste modo, até para formar palavras dá um certo trabalho, quem dirá reconhecer padrões de tabelas (não padronizadas). Consegui um resultado muito próximo do txt que já tinhamos no sábado.

#Fail

Abs,

[1] http://www.unixuser.org/~euske/python/pdfminer/index.html

Abracios!

2012/7/9 Leonardo Cezar <lhc...@gmail.com>

Para cancelar a inscrição nesse grupo, envie um e-mail para racatonatdc+unsubscribe@googlegroups.com.

Leonardo Cezar

unread,

Jul 10, 2012, 9:57:36 AM7/10/12

to racat...@googlegroups.com

Fernando,

Ainda podemos aguardar pela conclusão do Guto. Não sei se ele
conseguiu andar com o analisador sintático. Se ele não resolver, ainda
temos a opção de tentar acessar esses dados pelo e-SIC. Christian,
acha que faria sentido?

Também estamos aguardando pelos dados do judiciário que devem ser
liberados até o dia 20 deste mês.

O sonho não acabou! Vamo-que-vamo!

Abraço!

-Leo

Ainda precisamos aguardar o

2012/7/10 fgmacedo <fgma...@gmail.com>:

>>> racatonatdc...@googlegroups.com.

>>> Para obter mais opções, visite esse grupo em
>>> http://groups.google.com/group/racatonatdc?hl=pt-BR.
>>>
>>

> --
> Você está recebendo esta mensagem porque se inscreveu no grupo "RacatonaTDC"
> dos Grupos do Google.

> Para ver esta discussão na web, acesse
> https://groups.google.com/d/msg/racatonatdc/-/c7deV5J_0h0J.

>
> Para postar neste grupo, envie um e-mail para racat...@googlegroups.com.
> Para cancelar a inscrição nesse grupo, envie um e-mail para

> racatonatdc...@googlegroups.com.

> Para obter mais opções, visite esse grupo em
> http://groups.google.com/group/racatonatdc?hl=pt-BR.

Alexandre Gomes

unread,

Jul 10, 2012, 3:20:49 PM7/10/12

to racat...@googlegroups.com

1) Repo central com vários colaboradores é mais rápido de fazer acontecer. Repos distribuídos + pull-requests é o git-way-of-life. Voto no primeiro também, pra acelerar :-P

2) html + js já não está resolvendo o problema?

3) Isso explica a necessidade de um framework.

[]s!

2012/7/9 Leonardo Cezar <lhc...@gmail.com>

Christian Moryah

unread,

Jul 10, 2012, 6:25:58 PM7/10/12

to racat...@googlegroups.com

Ae, podemos fazer um pedido de acesso à informação solicitando que essa informação venhade uma forma processável por máquina sim, em paralelo poderíamos ir desenhando uma arquitetura enxuta de API, daí voltamos à questão da tecnologia (o_0!)

Vamos criar essas coisas como issues, o Leo já começou: https://github.com/chris-redfield/serveoquantoganha/issues

Será que o Guto ainda existe ? Vou criar o pedido de acesso a informação como issue e assim que possível vou fazê-lo (talvez hj mesmo)...

Talvez criar um issue e abrir uma votação pra gente escolher a linguagem ? Posso fazer tbm u.u

Outros issues pro banco...

Em paralelo quem tiver interesse podia continuar tunando a interface, talvez pensarnumalogo tbm seila

>>> racatonatdc+unsubscribe@googlegroups.com.

>>> Para obter mais opções, visite esse grupo em
>>> http://groups.google.com/group/racatonatdc?hl=pt-BR.
>>>
>>
> --
> Você está recebendo esta mensagem porque se inscreveu no grupo "RacatonaTDC"
> dos Grupos do Google.
> Para ver esta discussão na web, acesse
> https://groups.google.com/d/msg/racatonatdc/-/c7deV5J_0h0J.
>
> Para postar neste grupo, envie um e-mail para racat...@googlegroups.com.
> Para cancelar a inscrição nesse grupo, envie um e-mail para

> racatonatdc+unsubscribe@googlegroups.com.

Reply all

Reply to author

Forward