Sto cercando di programmare (in java) un semplice parser per la gestione degli ebook. Al momento ho scritto le classi per la numerazione automatica della toc per gli epub, per la visualizzazione dei file xml generati dalla decompressione dei file .odt e per l'estrazione del testo grezzo dai file .xml e derivati che tornano utili per il confronto delle versioni .odt e .epub dello stesso libro.
Al momento, per quest'ultima funzionalità, ho fatto un test con risultati incoraggianti su un breve testo di Benedetto Croce: "Discorso sul dovere della borghesia" ma la testerò su testi più ampi di cui ho curato sia la digitalizzazione che l'impaginazione.
Se qualcuno è appassionato di questo linguaggio e vuole collaborare può scaricare il progetto quì: g...@github.com:lucalzetta/codice_libri.git.
Ciao e buon Natale a tutti.