Workflow .docx mit .tex. Bitte um Rat

13 views
Skip to first unread message

InJa schwirsi

unread,
Feb 13, 2022, 6:09:22 AMFeb 13
to
Ich arbeite in einem kleinen Kreis von Autoren, der kurze Texte produziert. Diese Texte sind rein literarisch und enthalten keine Formeln, Tabellen etc.
Die ausgewählten Texte werden am Ende eines Jahres lektoriert und gebunden ausgegeben in einem Buch mit rund 250 Seiten. Es sind bereits 6 Bände in unserer Reihe erschienen.

Im Kreis bin ich der einzige, der LaTeX benutzt. Der Rest benutzt Word (oder LibreOffice).
Da wir Probleme mit dem Verlag haben (nicht nur Coronabedingt) untersuchen wir die Möglichkeit, die Ausgabe künftiger Bände in die eigene Hand zu nehmen. Weil ich der einzige bin, der mit dem Begriff Typografie etwas anfangen kann, hat man suggeriert, dass ich dabei die Führung übernehmen sollte.

Bisher hat die Leiterin der Gruppe (sie ist ausgebildete Lektorin und auch gegen siebzig) unsere einzelnen Texte als docx Dateien gesammelt und sie an den Verlag weitergeleitet. Diese docx Dateien haben eine festgelegte Einstellung bezüglich Schriftart und -größe und Seitengröße etc.
Wenn wir dies selbst in die Hand nehmen, sehe ich folgende Arbeit auf mich zukommen:

Konvertierung jeder .docx Datei in eine .tex Datei
Das Anbringen des gewünschten Layouts: Kapitel, Absätze, Seitennummern, Inhaltsverzeichnis
<Hier die Schritte, an die ich nicht gedacht habe>


Bleibt uns noch:

Die generierte Gesamt-PDF Datei von den einzelnen Autoren auf Fehler überprüfen zu lassen, wahrscheinlich iterativ mit einigen Durchgängen.
Das Dokument in PDF-Format an eine Druckerei zu schicken und den Probedruck auf Fehler zu überprüfen.

Fragen:

Ist dieser Workflow realistisch oder habe ich wesentliche Schritte übersehen?
Sollte man dies ganz anders angehen? (Die Autoren auf LaTeX umschulen geht nicht).
Gibt es Leute, die Erfahrung mit einem ähnlichen Vorgehen haben und Tipps geben können?
Wie groß ist der geschätzte Aufwand der genannten (und vergessenen) Schritte?



Dr Eberhard W Lisse

unread,
Feb 13, 2022, 7:09:18 AMFeb 13
to
Für Open/Libre Office gibt es Writer2latex, dess Alphaversion ein jar
file hat, mit dem man das von der Kommandozeile aus machen kann.


Und dann gibt es natürlich Pandoc, von dem behauptet wird, es könne
soetwas auch, habe aber mit Word/OL Office noch nicht gespielt (nur mit
markdown --> LaTeX -> LyX).

Wenn das mit Pandoc geht, dann kann man sich geeignete Templates
anlegen, die dann für die jeweilige Datei weiteres regelt.


Mittels \include sollten sich die einzelnen Dateien in eine Masterdatei
einlesen lassen, deren Präambel einiges von Layout festlegt.

Ggfs kann man das Schreiben der \include Zeilen mit einem Shell Skript
unterstützen.


Ich überführe soetwas dann übrigens in Lyx, wo die Handarbeit einfacher
ist. Dabei wird dann hin und wieder etwas Perl fällig, um einige
Kleinigkeiten die tex2lyx nicht gut übersetzt, aufzulösen.


Das ist beim ersten Mal natürlich ein Aufwand, aber im nächsten Jahr
wesentlich weniger. Insbesonderen, wenn man sich noch ein Makefile
anlegt :-)-O


Was den Umgang mit dem Verlag (PDF und so) angeht, wissen die Redakteure
der TeXnischen Kommödie besser...

mfg, el

Axel Berger

unread,
Feb 13, 2022, 8:57:07 AMFeb 13
to
InJa schwirsi wrote:
> Konvertierung jeder .docx Datei in eine .tex Datei

DOCX ist nicht DOCX. 90 % aller Dateien, die ich zu sehen bekomme,
bestehen, völlig unabhängig von Bildung und Erfahrung des Autors,
aussschließlich aus Standardabsätzen, die, wenn sie z.B. Überschriften
sein sollen, einzeln manuell umformatiert wurden.

Mit Glück ist es anders. Ich speichere solche Dateien als ersten Schritt
aus Openoffice als HTML. Ab da kann ich dann mit Makros eines guten
Texteditors weiterarbeiten und 90 % der Umwandlung in TeX
automatisieren. Die Menge der Nacharbeit hängt ausschließlich von der
Qualität der Vorlage ab. Erkennbare Muster kann ich operationalisieren,
stochastisches Chaos nicht.

Wenn es ganz schlimm wird, und man jede einzelene Überschrift selbst
kennzeichnen muß, ist Markdown das bessere Zwischenformat. Es schreibt
sich einfach schneller und läßt sich dann in einem Rutsch automatisch in
LaTeX wandeln.

> Wie groß ist der geschätzte Aufwand der genannten (und vergessenen) Schritte?

Wenn die Autoren sehr systematisch und diszipliniert arbeiten nach
erstmaligem Erstellen und Test der Makros nahe null. Ich würde das
Gegenteil erwarten.

N.B: Solche Wandlungen mache ich mehr oder weniger regelmäßig, meist
ausgehend vom HTML einer kaputten, nichtvaliden und skriptverseuchten
Webseite.


--
/¯\ No | Dipl.-Ing. F. Axel Berger Tel: +49/ 221/ 7771 8067
\ / HTML | Roald-Amundsen-Straße 2a Fax: +49/ 221/ 7771 8069
 X in | D-50829 Köln-Ossendorf http://berger-odenthal.de
/ \ Mail | -- No unannounced, large, binary attachments, please! --

InJa schwirsi

unread,
Feb 13, 2022, 12:21:11 PMFeb 13
to
Vielen Dank für eure schnellen Reaktionen.

Ich habe in meinem Post vergessen zu sagen, dass ich weder Word noch Windows benutze. Ich arbeite ausschließlich auf Ubuntu 20.04 Systemen (letzte Updates eingespielt).
Wenn notwendig könnte ich eine virtuelle Windows Maschine aufsetzen. Ich vermeide das lieber, weil ich mich mit Microsoft Systemen nicht auskenne.

@Eberhard
Writer2Latex sieht auf dem ersten Blick vielversprechend aus. Die docx Dateien lassen sich ohne Probleme in odt speichern und danach in LaTeX konvertieren. Gibt es deines Wissens eine Einstellung, wobei man die Umlaute wie \"u einfach als ü bekommt und \ss als ß? (Ich hoffe, dass dies nicht in der Post verloren geht).

@Axel
Mein erster Gedanke war tatsächlich eine Konvertierung nach html, wonach ich mit einem bash-skript die Teile heraus selektiere, die ich brauche und die Formatierung (Fett, Kursiv etc.) für LaTeX anpasse.
Ich finde, dass das Ergebnis von Writer2Latex so gut ist, dass ich zuerst damit weiter experimentieren werde.


Ich habe den Vorteil, dass kaum Formatierungen in den Originaltexten vorkommen. Ab und zu Kursiv oder Fett und Absätze. Jede Textdatei formt ein Kapitel im Enddokument und hat einen Titel mit Autor.
Ein paar dieser Texte sind Gedichte, ob Writer2Latex das gut hinbekommt, weiß ich noch nicht, aber ein bisschen Handwerk ist OK.

Ich werde es in den kommenden Wochen mal ausprobieren, indem ich von jedem Autor einen bestehenden Text aus dem Vorjahr nehme und schaue, wie gut sich damit ein PDF zusammenstellen lässt.

Nochmals vielen Dank
Jack

Axel Berger

unread,
Feb 13, 2022, 1:47:44 PMFeb 13
to
InJa schwirsi wrote:
> Gibt es deines Wissens eine Einstellung, wobei man die Umlaute wie
> \"u einfach als ü bekommt und \ss als ß?

An Nacharbeit kommst Du nie vorbei. Das ist für jeden halbwegs
brauchbaren Editor die leichteste Übung. Als ich mir Writer2Latex vor
längerer Zeit mal angesehen habe, fand ich deren automatische Umwandlung
nach TeX unbrauchbar. Dein Bedarf mag anders sein.

> Ich finde, dass das Ergebnis von Writer2Latex so gut ist, dass ich
> zuerst damit weiter experimentieren werde.

OK.

Thomas Prufer

unread,
Feb 14, 2022, 2:29:29 AMFeb 14
to
On Sun, 13 Feb 2022 09:21:10 -0800 (PST), InJa schwirsi <jac...@schuli-wirsi.de>
wrote:

>Ich habe den Vorteil, dass kaum Formatierungen in den Originaltexten vorkommen. Ab und zu Kursiv oder Fett und Absätze. Jede Textdatei formt ein Kapitel im Enddokument und hat einen Titel mit Autor.
>Ein paar dieser Texte sind Gedichte, ob Writer2Latex das gut hinbekommt, weiß ich noch nicht, aber ein bisschen Handwerk ist OK.
>
>Ich werde es in den kommenden Wochen mal ausprobieren, indem ich von jedem Autor einen bestehenden Text aus dem Vorjahr nehme und schaue, wie gut sich damit ein PDF zusammenstellen lässt.

Ich hab von TeX keine/wenig Ahnung, aber Erfahrung mit Autoren und Word bzw.
Open/Libre Office.

Die Worte es kommen "kaum Formatierungen in den Originaltexten vor" sind da sehr
hilfreich!

Im schlimmsten Fall liefert der wer ein Sammelsurium aus manuell angewandten
Formatierungen, inkonsistent mit nicht-ganzzahligen Schriftgrößen ("damit es in
die Zeile passt"). Dazu Formatvorlagen verwendet, aber nicht immer, dafür diese
teilweise aber inkonsistent mit manuellen Änderungen überschrieben.
Seitenwechsel werden durch eine "passende" Anzahl von leeren Absätzen erzwungen.
(Dann reicht uU schon die Umstellung vom Drucker von 300 auf 600 dpi um das
Kartenhaus einfallen zu lassen...) Schlimmstenfalls je Kapitel eine Datei, und
je Datei eigene Formatvorlagen.

Irgendwann ist der Wille des Autors gar nicht nicht mehr erkennbar, und du must
selber ran und überlegen.

Absätze und ab und zu Hervorhebung ist handhabbar:-) Nur Mut.


Thomas Prufer

Axel Berger

unread,
Feb 14, 2022, 3:17:46 AMFeb 14
to
Thomas Prufer wrote:
> Irgendwann ist der Wille des Autors gar nicht nicht mehr erkennbar, und du must
> selber ran und überlegen.

So kenne ich das. "Alles wegwerfen und neu anfangen" ist der beste Weg,
dann mußt Du aber im WYSIWYG selbst Hervorhebungen visuell suchen gehen.
HTML aus Officeprogrammen sieht furchtbar aus, es erlaubt aber im Editor
halbwegs bequem ein "alles wegwerfen, außer ..."

Dr Eberhard W Lisse

unread,
Feb 14, 2022, 12:43:51 PMFeb 14
to

Ich schreibe so gut wie nichts auf Deutsch, daher fallt mir nur RTFM
oder Perl/Python ein :-)-O

Ich nehme übrigens so etwas wie:

function w2l
{
#
# get the Alpha version from http://writer2latex.sourceforge.net/
# install the module into LibreOffice AND put the jar into a directory
# $HOME/java
#
if [[ -r $HOME/java/writer2latex.jar ]]
then
if [[ -x /usr/bin/java ]]
then
java -jar \
"$HOME/java/writer2latex.jar" \
-latex \
-ultraclean \
-inputencoding=utf8 \
-multilingual=false \
-ignore_hard_page_breaks=true \
-ignore_double_spaces=true \
"$@"
else
echo "/usr/bin/java not found or executable"
fi
else
echo "$HOME/java/writer2latex.jar not found"
fi
}


mfg, el

On 2022-02-13 19:21 , InJa schwirsi wrote:
[...]
> Writer2Latex sieht auf dem ersten Blick vielversprechend aus. Die
> docx Dateien lassen sich ohne Probleme in odt speichern und danach in
> LaTeX konvertieren. Gibt es deines Wissens eine Einstellung, wobei
> man die Umlaute wie \"u einfach als ü bekommt und \ss als ß? (Ich
> hoffe, dass dies nicht in der Post verloren geht).
[...]

Christian Justen

unread,
Feb 15, 2022, 5:50:33 AMFeb 15
to
On Mon, 14 Feb 2022 09:18:31 +0100,
Axel Berger wrote:
>
> Thomas Prufer wrote:
> > Irgendwann ist der Wille des Autors gar nicht nicht mehr erkennbar, und du must
> > selber ran und überlegen.
>
> So kenne ich das. "Alles wegwerfen und neu anfangen" ist der beste Weg,
> dann mußt Du aber im WYSIWYG selbst Hervorhebungen visuell suchen gehen.
> HTML aus Officeprogrammen sieht furchtbar aus, es erlaubt aber im Editor
> halbwegs bequem ein "alles wegwerfen, außer ..."

Wie es mit OpenOffice/LibreOffice aussieht, weiß ich nicht, da ich
versuche, diesen Murks zu meiden. Aber zumindest Word war früher in der
Lage, nicht nur nach Text, sondern auch nach Formatierungen zu suchen
und Ersetzungen durchzuführen. So habe ich jedenfalls vor 23 Jahren
meine Word-Dokumente nach LaTeX übertragen.

Gruß, Christian.

--
Christian Justen
Kokoschkastraße 2, 52531 Übach-Palenberg
Tel. +49 (2451) 4090490

Dr Eberhard W Lisse

unread,
Feb 21, 2022, 1:34:47 PMFeb 21
to

Ich habe heute einmal

soffice --headless --convert-to odt file.docx
writer2latex.jar" \
-latex \
-ultraclean \
-inputencoding=utf8 \
-multilingual=false \
-ignore_hard_page_breaks=true \
-ignore_double_spaces=true file.odt
tex2lyx -c scrartcl file.tex
open file.lyx

ausprobiert.

Das braucht noch ein klein wenig Finesse (writer2latex erwähnt etwas von
Templates (was bei dem angefragten speziellen Problem vielleicht helfen
kann, also RTFM), und tex2lyx hat auch ein paar hilfreiche Optionen)

mfg, el
Reply all
Reply to author
Forward
0 new messages