Analisador morfológico

1,269 views
Skip to first unread message

William Colen

unread,
Sep 25, 2009, 8:59:06 AM9/25/09
to Dicionário pt-BR para verificação ortográfica
Bom dia, pessoal,

Sou líder do projeto Cogroo (cogroo.sf.net), que é o corretor
gramatical para o BrOffice.org.

Tenho muito interesse em ter os dicionários do Jspell com anotações
morfológicas migrados para pt-Br, e se possível no formato compatível
com Hunspell.

Como está o projeto de vocês? Eu poderia dar uma mãozinha.

Abraços,
William

William Colen

unread,
Sep 27, 2009, 3:12:01 PM9/27/09
to Dicionário pt-BR para verificação ortográfica
Olá, pessoal,

Outra pergunta. Por que vocês estão refazendo este trabalho? Já não
existe um dicionário para o Firefox chamado Vero?
Para o corretor gramatical ele não funciona, já que não tem anotações
morfológicas. Vou ter que usar o do projeto Natura mesmo.
Minha idéia é escrever um script que me auxilie na revisão desse
dicionário. Nesse script eu uso o Hunspell com o dicionário do Vero
para revisar o dicionário pt-PT do projeto Natura. Acredito que com
esse auxilio o trabalho fique menos chato, já que o Hunspell deve
muitas vezes sugerir a correção, seria só aceitar.
Depois de um tempo eu poderia pensar em alguma forma de automatizar o
processo, por exemplo, poderia aceitar uma sugestão automaticamente
quando o Hunspell sugerir apenas uma mudança de acentuação ou a
remoção de um "c" mudo.

Vocês que já tiveram experiência nisso, acham que iria funcionar?

Muito obrigado,
William


2009/9/25 William Colen <willia...@gmail.com>:

Jeferson Hultmann

unread,
Sep 27, 2009, 7:48:17 PM9/27/09
to dic...@googlegroups.com
olá,

Eu tenho os arquivos da pasta DIC do svn da natura com uns 99%
já em pt-BR.

Também criei arquivos DIC extras com milhares de palavras
adicionais.

Sobre o jspell, pouco entendo pois só uso como fonte do dic
hunspell.

Não mexo nisso desde janeiro, espero acabar ainda em 2009. :-)

Ainda tenho essas etapas:

1) criar um programa que converta as palavras pra nova
ortografia (comparando com uma lista com todas as palavras
modificadas, devem ser umas 300).
2) achar um jeito de listar todas as palavras possíveis do
dicionário hunspell (suponho que seja possível com executável
hunspell)
3) aplicar item 1 item 2
4) Versão beta!
5) adicionar mais palavras (umas 2000)
6) remover palavras (umas 10000)
7) versão final!

[]s


Em 25/09/2009 09:59, Citando a mensagem de William Colen:

Jeferson Hultmann

unread,
Sep 27, 2009, 7:55:25 PM9/27/09
to dic...@googlegroups.com
Dicionários pt-BR existem pelo menos 2, mas nenhum deles
satisfaz as condições, legais e subjetivas, para estar no
código-fonte da mozilla (dê uma pesquisada no arquivo da lista).

Claro que adaptar é trabalhoso, mas a longo prazo vale a pena
dada a superioridade do projeto Natura. Visto que possibilita
projetos como o seu. :o)

Se você se precisa apenas das palavras já convertidas em pt-BR
(como o arquivo port.geral.dic), posso te enviar!

As palavras que adicionei estão arquivos separados.

[]s


Em 27/09/2009 16:12, Citando a mensagem de William Colen:

William Colen

unread,
Sep 27, 2009, 9:17:09 PM9/27/09
to dic...@googlegroups.com
Legal!

Acho que posso te ajudar nos próximos passos. Poderia me mandar o que
já foi feito?
Qual será a licença do dicionário pt-BR? Eu precisaria do dicionário
compatível com LGPL v. 3 para o verificador gramatical...

Obrigado,
William

2009/9/27 Jeferson Hultmann <hult...@gmail.com>:

Jeferson Hultmann

unread,
Sep 27, 2009, 9:34:38 PM9/27/09
to dic...@googlegroups.com
Usa as licenças MPL e GPL/LGPL 2. Se for OK, me diga que vou
achar os arquivos.

http://natura.di.uminho.pt/svnweb/index.cgi/Natura/browse/dicionarios/jspell.pt/DOC/license

[]s

Em 27/09/2009 22:17, Citando a mensagem de William Colen:


--
At

William Colen

unread,
Sep 27, 2009, 9:59:56 PM9/27/09
to dic...@googlegroups.com
Tenho que falar com algum consultor para ter toda certeza, mas
acredito que posso usar LGPL 2 porque ela permite reciproca parcial. O
Cogroo é LGPL 3 e o dicionário seria um componente dele, então entendo
que poderia usar neste caso.
Esse juridiquês para mim sempre foi um drama!
Estarei aguardando os arquivos.

Jeferson Hultmann

unread,
Sep 28, 2009, 8:17:01 PM9/28/09
to dic...@googlegroups.com
Só uma coisa: você quer apenas os arquivos hunspell (aff e dic)?

[]s

Em 27/09/2009 22:59, Citando a mensagem de William Colen:

William Colen

unread,
Sep 28, 2009, 8:42:52 PM9/28/09
to dic...@googlegroups.com
Você converteu para o formato Hunspell já? Não tem mais Jspell?

Pode ser os arquivos do hunspell sim, mas melhor no formato em que
você também está trabalhando, para poder fazer as coisas
colaborativamente.

O repositório de versões não está sendo usado mais?

Obrigado,
William

2009/9/28 Jeferson Hultmann <hult...@gmail.com>:

Jeferson Hultmann

unread,
Sep 28, 2009, 8:57:38 PM9/28/09
to dic...@googlegroups.com
Bem, eu não mexo com jspell, só sei que é a partir do jspell é
que são criados os outros dicionários (como o hunspell).

Os arquivos que edito são as listas de palavras da pasta
jspell.pt/DIC do svn natura. Não sei de estes são jspell. :-)

Eu tenho o hunspell pois desde janeiro uso estes arquivos no
Firefox e Thunderbird.

E O repositório CVS do mozdev não está atualizado.

[]s


Em 28/09/2009 21:42, Citando a mensagem de William Colen:

William Colen

unread,
Sep 28, 2009, 9:37:02 PM9/28/09
to dic...@googlegroups.com
Ok... pode enviar os dicionários no formato Hunspell mesmo. Vou
começar o trabalho passando um outro revisor sem acordo ortográfico, e
em seguida vou passar o mesmo revisor com o acordo. Acho que isto já
nos dará algumas pistas do que teremos que fazer.

Jeferson Hultmann

unread,
Sep 28, 2009, 11:29:18 PM9/28/09
to dic...@googlegroups.com
OK, abre como ZIP e pega o dic e aff.

http://downloads.mozdev.org/br/ortografia.pt-br-dev.xpi

[]s


Em 28/09/2009 22:37, Citando a mensagem de William Colen:

Mario Felipe Rinaldi

unread,
Sep 28, 2009, 11:43:26 PM9/28/09
to dic...@googlegroups.com
jeferson, seria legal ter um servidor git ou mercurial??? :)

2009/9/29 Jeferson Hultmann <hult...@gmail.com>



--
"Cruj, Cruj, Cruj, Tchau!" \o
[]s

Mário Rinaldi

10 SIN
20 GO TO HELL

Jeferson Hultmann

unread,
Sep 28, 2009, 11:51:17 PM9/28/09
to dic...@googlegroups.com
O mozdev oferece mercurial, mas como é um repositório por
projeto prefiro ficar no CVS mesmo (atualizarei tão logo volte a
mexer nisso).

Mas se você comentou pensando em colocar lá o arquivos hunspell,
então não é caso, no repo só ficam os fontes e hunspell é
"output". :-)

[]s

Em 29/09/2009 00:43, Citando a mensagem de Mario Felipe Rinaldi:


> jeferson, seria legal ter um servidor git ou mercurial??? :)
>

> 2009/9/29 Jeferson Hultmann <hult...@gmail.com <mailto:hult...@gmail.com>>

William Colen

unread,
Sep 28, 2009, 11:55:24 PM9/28/09
to dic...@googlegroups.com
O Hunspell é output? Você está editando esses arquivos que você mandou
ou são outros? Eu prefiro trabalhar com os de entrada.
Já estou escrevendo alguns scripts aqui. Vou colocar num repositório
do meu projeto. Quando tiver alguma coisa mando.

abraços,
William

2009/9/29 Jeferson Hultmann <hult...@gmail.com>:

Jeferson Hultmann

unread,
Sep 29, 2009, 12:07:19 AM9/29/09
to dic...@googlegroups.com
Os arquivos que eu edito são os localizados no jspell.pt/DIC do
svn natura. Desculpe a confusão, pensei que tinha ficado claro aqui:
http://groups.google.com/group/dic-br/msg/3600b41bcdf1a067

Estes arquivos viram jspell (se é que já não são) e depois
myspell, hunspell etc.

Como você quer os arquivos para o corretor gramatical, acredito
que o hunspell seja o melhor, pois está tudo consolidado.

[]s


Em 29/09/2009 00:55, Citando a mensagem de William Colen:

William Colen

unread,
Sep 29, 2009, 1:29:53 PM9/29/09
to dic...@googlegroups.com
Oi Jefferson,

Conversei com o Rui Vilela, que trabalha no projeto Natura, e ele me contou que ao converter da sintaxe Jspell para a sintaxe Hunspell usando os scripts deles estamos perdendo dados:

"... a etiquetação morfológica pode fugir um pouco ao que o hunspell define como padrão (baseada em Jspell). A parte relacionada com a sufixação de sufixos que gera as conjugações pronominais (-se, -lhe, -te, etc...) não foi convertida para o formato "2 fold affix" do hunspell. Ou seja, não deve estar a funcionar (nem tenho a certeza se funcionará) ..."

Isto confirma que seria melhor trabalharmos no formato Jspell mesmo (que é o formato dos arquivos da pasta jspell.pt/DIC) até descobrirmos pelo menos como arrumar este problema relatado pelo Rui.

Obrigado,

Jeferson Hultmann

unread,
Sep 29, 2009, 8:44:55 PM9/29/09
to dic...@googlegroups.com
OK, coloquei os arquivos aqui:
http://groups.google.com/group/dic-br/files

[]s

Em 29/09/2009 14:29, Citando a mensagem de William Colen:


> Oi Jefferson,
>
> Conversei com o Rui Vilela, que trabalha no projeto Natura, e ele me
> contou que ao converter da sintaxe Jspell para a sintaxe Hunspell usando
> os scripts deles estamos perdendo dados:
>
> "... a etiquetação morfológica pode fugir um pouco ao que o hunspell
> define como padrão (baseada em Jspell). A parte relacionada com a
> sufixação de sufixos que gera as conjugações pronominais (-se, -lhe,
> -te, etc...) não foi convertida para o formato "2 fold affix" do
> hunspell. Ou seja, não deve estar a funcionar (nem tenho a certeza se
> funcionará) ..."
>
> Isto confirma que seria melhor trabalharmos no formato Jspell mesmo (que
> é o formato dos arquivos da pasta jspell.pt/DIC

> <http://natura.di.uminho.pt/svnweb/index.cgi/Natura/browse/dicionarios/jspell.pt/DIC>)


> até descobrirmos pelo menos como arrumar este problema relatado pelo Rui.
>
> Obrigado,
> William
>
>
>
> 2009/9/29 Jeferson Hultmann <hult...@gmail.com

> <mailto:hult...@gmail.com>>:


> >
> > Os arquivos que eu edito são os localizados no jspell.pt/DIC

> <http://jspell.pt/DIC> do svn natura.


> > Desculpe a confusão, pensei que tinha ficado claro aqui:
> > http://groups.google.com/group/dic-br/msg/3600b41bcdf1a067
> >
> > Estes arquivos viram jspell (se é que já não são) e depois myspell,
> hunspell
> > etc.
> >
> > Como você quer os arquivos para o corretor gramatical, acredito que o
> > hunspell seja o melhor, pois está tudo consolidado.
> >
> > []s
> >
> >
> > Em 29/09/2009 00:55, Citando a mensagem de William Colen:
> >>
> >> O Hunspell é output? Você está editando esses arquivos que você mandou
> >> ou são outros? Eu prefiro trabalhar com os de entrada.
> >> Já estou escrevendo alguns scripts aqui. Vou colocar num repositório
> >> do meu projeto. Quando tiver alguma coisa mando.
> >>
> >> abraços,
> >> William
> >>
> >>
> >>
> >> 2009/9/29 Jeferson Hultmann<hult...@gmail.com

> <mailto:hult...@gmail.com>>:


> >>>
> >>> O mozdev oferece mercurial, mas como é um repositório por projeto
> prefiro
> >>> ficar no CVS mesmo (atualizarei tão logo volte a mexer nisso).
> >>>
> >>> Mas se você comentou pensando em colocar lá o arquivos hunspell, então
> >>> não é
> >>> caso, no repo só ficam os fontes e hunspell é "output". :-)
> >>>
> >>> []s
> >>>
> >>> Em 29/09/2009 00:43, Citando a mensagem de Mario Felipe Rinaldi:
> >>>>
> >>>> jeferson, seria legal ter um servidor git ou mercurial??? :)
> >>>>
> >>>> 2009/9/29 Jeferson Hultmann<hult...@gmail.com
> <mailto:hult...@gmail.com>

> >>>> <mailto:hult...@gmail.com <mailto:hult...@gmail.com>>>

William Colen

unread,
Oct 14, 2009, 5:43:24 PM10/14/09
to Dicionário pt-BR para verificação ortográfica
Olá,

Estou trabalhando aos poucos no dicionário OK? Fiz alguns scripts que
poderão ser interessantes para vocês. Logo publico aqui como usar. Tem
um script que gera uma listagem de todas as palavras do dicionário
usando Jspell (seriam 1.464.130 palavras), outro script roda o
corretor ortográfico Vero com acordo ortográfico nas palavras do
dicionário, podemos usar isto para avaliar o trabalho que teremos ao
migrar para a nova ortografia. Tem script que gera os dicionários no
formato Hunspell (copiei e modifiquei o script do projeto Natura).
Estou fazendo isto tudo no SVN do meu projeto.

Tenho uma pergunta para o Jeferson:
Quais são os arquivos com palavras que você adicionou? Porque existem
arguivos com nome br-xyz.txt e outros port.xyz.dic ? Seriam esses
port.xyz.dic derivados do pt-PT e estes br-xyz.txt criados por vocês?
Nas palavras que vocês adicionaram, posso confiar nos atributos delas?
(categoria, gênero, número etc)

Obrigado
William

On Sep 29, 9:44 pm, Jeferson Hultmann <hultm...@gmail.com> wrote:
> OK, coloquei os arquivos aqui:http://groups.google.com/group/dic-br/files
>
> []s
>
> Em 29/09/2009 14:29, Citando a mensagem de William Colen:
>
> > Oi Jefferson,
>
> > Conversei com o Rui Vilela, que trabalha no projeto Natura, e ele me
> > contou que ao converter da sintaxe Jspell para a sintaxe Hunspell usando
> > os scripts deles estamos perdendo dados:
>
> > "... a etiquetação morfológica pode fugir um pouco ao que o hunspell
> > define como padrão (baseada em Jspell). A parte relacionada com a
> > sufixação de sufixos que gera as conjugações pronominais (-se, -lhe,
> > -te, etc...) não foi convertida para o formato "2 fold affix" do
> > hunspell. Ou seja, não deve estar a funcionar (nem tenho a certeza se
> > funcionará) ..."
>
> > Isto confirma que seria melhor trabalharmos no formato Jspell mesmo (que
> > é o formato dos arquivos da pasta jspell.pt/DIC
> > <http://natura.di.uminho.pt/svnweb/index.cgi/Natura/browse/dicionarios...>)
> > até descobrirmos pelo menos como arrumar este problema relatado pelo Rui.
>
> > Obrigado,
> > William
>
> > 2009/9/29 Jeferson Hultmann <hultm...@gmail.com
> > <mailto:hultm...@gmail.com>>:
>
> >  > Os arquivos que eu edito são os localizados no jspell.pt/DIC
> > <http://jspell.pt/DIC> do svn natura.
> >  > Desculpe a confusão, pensei que tinha ficado claro aqui:
> >  >http://groups.google.com/group/dic-br/msg/3600b41bcdf1a067
>
> >  > Estes arquivos viram jspell (se é que já não são) e depois myspell,
> > hunspell
> >  > etc.
>
> >  > Como você quer os arquivos para o corretor gramatical, acredito que o
> >  > hunspell seja o melhor, pois está tudo consolidado.
>
> >  > []s
>
> >  > Em 29/09/2009 00:55, Citando a mensagem de William Colen:
>
> >  >> O Hunspell é output? Você está editando esses arquivos que você mandou
> >  >> ou são outros? Eu prefiro trabalhar com os de entrada.
> >  >> Já estou escrevendo alguns scripts aqui. Vou colocar num repositório
> >  >> do meu projeto. Quando tiver alguma coisa mando.
>
> >  >> abraços,
> >  >> William
>
> >  >> 2009/9/29 Jeferson Hultmann<hultm...@gmail.com
> > <mailto:hultm...@gmail.com>>:
>
> >  >>> O mozdev oferece mercurial, mas como é um repositório por projeto
> > prefiro
> >  >>> ficar no CVS mesmo (atualizarei tão logo volte a mexer nisso).
>
> >  >>> Mas se você comentou pensando em colocar lá o arquivos hunspell, então
> >  >>> não é
> >  >>> caso, no repo só ficam os fontes e hunspell é "output". :-)
>
> >  >>> []s
>
> >  >>> Em 29/09/2009 00:43, Citando a mensagem de Mario Felipe Rinaldi:
>
> >  >>>> jeferson, seria legal ter um servidor git ou mercurial??? :)
>
> >  >>>> 2009/9/29 Jeferson Hultmann<hultm...@gmail.com
> > <mailto:hultm...@gmail.com>
> >  >>>> <mailto:hultm...@gmail.com <mailto:hultm...@gmail.com>>>

Jeferson Hultmann

unread,
Oct 14, 2009, 6:35:17 PM10/14/09
to Dicionário pt-BR para verificação ortográfica
On 14 out, 18:43, William Colen <william.co...@gmail.com> wrote:
> Tenho uma pergunta para o Jeferson:
> Quais são os arquivos com palavras que você adicionou? Porque existem
> arguivos com nome br-xyz.txt e outros port.xyz.dic ? Seriam esses
> port.xyz.dic derivados do pt-PT e estes br-xyz.txt criados por vocês?


sim. Os arquivos pt-PT são "idênticos" ao original. Ou a linha está
comentada ou adicionei alguma flexão (principalmente diminutivos).

Os arquivos br* são novas palavras que adicionei. Não são adicionadas
aleatoriamente, são palavras que o corretor não reconhecia em textos
da web.


> Nas palavras que vocês adicionaram, posso confiar nos atributos delas?
> (categoria, gênero, número etc)

Sim, tive um trabalhão para classificá-las. :-)

[]s
Reply all
Reply to author
Forward
0 new messages