Otimizando a conversão de DOCX para Markdown com Pandoc e Lua Filters

20 views
Skip to first unread message

Paulo Moreno

unread,
Oct 14, 2025, 8:16:28 AM (7 days ago) Oct 14
to Lua BR
Olá pessoal!

Meu nome é Paulo Moreno e atuo no mercado editorial há vários anos. Atualmente, venho explorando novos modelos de publicação aberta e me deparei com o Quarto Markdown (https://quarto.org/), que considero uma solução promissora para fluxos de trabalho ainda baseados em arquivos MS Word.

Nesse contexto, tentei utilizar o Pandoc (https://pandoc.org/) para converter arquivos Word (DOCX) em Quarto Markdown (QMD), mas os resultados não foram totalmente precisos — principalmente porque meus arquivos DOCX utilizam estilos de parágrafo personalizados que o Pandoc acaba ignorando. Além disso, gostaria de extrair as informações do cabeçalho da primeira página do DOCX e incluí-las como uma seção YAML dentro do QMD, mas ainda não encontrei uma forma eficiente de fazer isso.

Entendo que é possível utilizar Lua filters para otimizar o processo de conversão e, possivelmente, mapear todos os estilos de parágrafo em diferentes classes dentro do arquivo Markdown convertido (veja imagem em anexo para mais detalhes sobre o mapeamento de estilos de paragráfos).

Gostaria de saber se vocês têm experiência ou métodos automatizados para alcançar uma conversão precisa de DOCX para QMD utilizando Lua filters. Além disso, conhecem algum estudo de caso em que o Pandoc tenha sido usado como conversor base, complementado por Lua para reduzir a “lacuna semântica” entre a estrutura orientada a layout do Word e o formato Markdown mais semanticamente rico do Quarto?

Antecipadamente agradeço a ajuda!

Att:
Paulo Moreno
Screenshot map-paragraph-styles.png

Eric Chiesse

unread,
Oct 14, 2025, 1:23:14 PM (7 days ago) Oct 14
to lua...@googlegroups.com
Interessante. Eu não sabia que o pandoc interfaceava com Lua.

Bom, li um pouquinho a documentação do pandoc e me parece que o que vc realmente precisa é de um custom reader (https://pandoc.org/custom-readers.html) por causa dos estilos personalizados no seu docx

Já a parte de escrita no QMD não sei se o lua filter vai resolver ou se vc vai precisar de um custo writer (https://pandoc.org/custom-writers.html)

Pela descrição do seu problema parece que apenas manipular a AST gerada inicialmente com um filtro não vai resolver pois a AST não vai ter tudo o que você quer.

Abs
---
Eric Chiesse


--
Lua BR - https://groups.google.com/g/lua-br
---
Você recebeu essa mensagem porque está inscrito no grupo "Lua BR" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para lua-br+un...@googlegroups.com.
Para ver esta conversa, acesse https://groups.google.com/d/msgid/lua-br/fcd7363f-253d-43fb-b4bb-4b49fdd5dfbfn%40googlegroups.com.

Francisco Rabelo

unread,
Oct 14, 2025, 6:37:51 PM (7 days ago) Oct 14
to Lua BR
Achei interessante o seu problema. E por curiosidade fiz esse questionamento a Gemini PRO só pra ver o que ela poderia gerar de solução. 
Eu gerei um link do chat com a Gemini Versão PRO:  
https://g.co/gemini/share/b905736b3131 
Você pode continuar a conversa a Gemini pra ver até onde ela pode ir pra solucionar o problema.
Me notifique se você obter sucesso. 
Estou curioso! 

Francisco Rabelo

unread,
Oct 14, 2025, 6:42:16 PM (7 days ago) Oct 14
to Lua BR
O link com uma atualização do chat com a Gemini:  https://g.co/gemini/share/1df6a5673f32 

Em terça-feira, 14 de outubro de 2025 às 09:16:28 UTC-3, Paulo Moreno escreveu:
Reply all
Reply to author
Forward
0 new messages