So konvertieren Sie Dateiformate mit Pandoc in Linux [Quick Guide]

In einem früheren Artikel habe ich das Verfahren zur Stapelkonvertierung einer Handvoll Markdown-Dateien in HTML mit pandoc behandelt. In diesem Artikel wurden mehrere HTML-Dateien erstellt, aber pandoc kann noch viel mehr. Es wurde „das Schweizer Taschenmesser“ der Dokumentenkonvertierung genannt – und das aus gutem Grund. Es gibt nicht viel, was es nicht kann.

Pandoc kann .docx, .odt, .html, .epub, LaTeX, DocBook usw. in diese und andere Formate umwandeln, wie JATS, TEI Simple, AsciiDoc und mehr.

Ja, das bedeutet, dass pandoc .docx-Dateien in .pdf und .html konvertieren kann, aber Sie denken vielleicht: „Word kann Dateien auch in .pdf und .html exportieren. Warum sollte ich Pandoc brauchen?“

Da hätten Sie einen guten Punkt, aber da pandoc so viele Formate konvertieren kann, könnte es Ihr bevorzugtes Werkzeug für alle Ihre Konvertierungsaufgaben werden. Für example, wissen viele von uns, dass Markdown-Editoren ihre Markdown-Dateien in .html exportieren können. Mit pandoc können Markdown-Dateien auch in zahlreiche andere Formate konvertiert werden.

Ich habe selten Markdown-Export nach HTML; Normalerweise lasse ich Pandoc machen.

Konvertieren von Dateiformaten mit Pandoc

Hier werde ich Markdown-Dateien in verschiedene Formate konvertieren. Ich schreibe fast alles mit der Markdown-Syntax, muss aber oft in ein anderes Format konvertieren: .docx-Dateien werden normalerweise für Schularbeiten benötigt, .html für Webseiten, die ich erstelle – und für .epub-Arbeiten, .pdf für Flyer und Handouts und gelegentlich sogar eine TEI Simple-Datei für ein Digital-Humanities-Projekt einer Universität. Pandoc kann all dies und mehr problemlos handhaben.

Zuerst musst du Pandoc installieren. Um .pdf-Dateien zu erstellen, wird auch LaTeX benötigt. Das Paket das ich bevorzuge ist TeX Live.

Notiz: Wenn Sie pandoc vor der Installation ausprobieren möchten, gibt es eine Online-Probeseite unter: https://pandoc.org/try/

Pandoc und Texlive installieren

Benutzer von Ubuntu und anderen Debian-Distributionen können die folgenden Befehle in das Terminal eingeben:

sudo apt-get update
sudo apt-get install pandoc texlive

Beachten Sie in der zweiten Zeile, dass Sie pandoc und texlive auf einmal installieren. Der Befehl apt-get wird damit kein Problem haben, aber gehen Sie Kaffee holen; Das kann ein paar minuten dauern.

Zur Konvertierung gelangen

Sobald pandoc und texlive installiert sind, können Sie einige Arbeit durchbrennen!

Das Beispieldokument für dieses Projekt wird ein Artikel sein, der erstmals im Dezember 1894 in der North American Review veröffentlicht wurde und den Titel trägt: „Wie man Zugräuber abwehrt“. Die Markdown-Datei, die ich verwenden werde, wurde vor einiger Zeit im Rahmen eines Restaurierungsprojekts erstellt.

Die Datei: how_to_repel_train_robbers.md befindet sich in meinem Documents-Verzeichnis, in einem Unterverzeichnis namens Samples. So sieht es in Ghostwriter aus.

Markdown-Datei in Ghostwriter

Ich möchte .docx-, .pdf- und .html-Versionen dieser Datei erstellen.

Die erste Bekehrung

Ich beginne damit, zuerst eine .pdf-Kopie zu erstellen, da ich mir die Mühe gemacht habe, ein LaTeX-Paket zu installieren.

Im Verzeichnis ~/Documents/samples/ gebe ich Folgendes ein, um eine .pdf-Datei zu erstellen:

pandoc -o htrtr.pdf how_to_repel_train_robbers.md

Der obige Befehl erstellt eine Datei namens htrtr.pdf aus der Datei how_to_repel_train_robbers.md. Der Grund, warum ich htrtr als Namen verwendet habe, war, dass er kürzer ist als how_to_repel_train_robbers – htrtr ist der erste Buchstabe jedes Wortes im langen Titel.

Hier ist eine Momentaufnahme der .pdf-Datei, sobald sie erstellt wurde:

Konvertierte PDF-Datei, die in Ocular angezeigt wird

Die zweite Bekehrung

Als nächstes möchte ich eine .docx-Datei erstellen. Der Befehl ist fast identisch mit dem, den ich zum Erstellen der .pdf-Datei verwendet habe und lautet:

pandoc -o htrtr.docx how_to_repel_train_robbers.md

Im Handumdrehen wird eine .docx-Datei erstellt. So sieht es in Libre Writer aus:

Konvertierte DOCX-Datei, die in Libre Writer angezeigt wird

Die dritte Bekehrung

Ich möchte dies vielleicht im Web veröffentlichen, daher wäre eine Webseite schön. Ich erstelle eine .html-Datei mit diesem Befehl:

pandoc -o htrtr.html how_to_repel_train_robbers.md

Auch hier ist der Befehl zum Erstellen sehr ähnlich wie bei den letzten beiden Konvertierungen. So sieht die .html-Datei in einem Browser aus:

Konvertierte HTML-Datei angezeigt in Firefox

Schon etwas bemerkt?

Schauen wir uns die vergangenen Befehle noch einmal an. Sie sind:

pandoc -o htrtr.pdf how_to_repel_train_robbers.md
pandoc -o htrtr.docx how_to_repel_train_robbers.md
pandoc -o htrtr.html how_to_repel_train_robbers.md

Der einzige Unterschied zu diesen drei Befehlen ist die Erweiterung neben htrtr. Dies gibt Ihnen einen Hinweis darauf, dass pandoc auf die Erweiterung des von Ihnen angegebenen Ausgabedateinamens angewiesen ist.

Fazit

Pandoc kann weit mehr als die drei kleinen Umbauten hier. Wenn Sie in einem bevorzugten Format schreiben, die Datei jedoch in ein anderes Format konvertieren müssen, stehen die Chancen gut, dass pandoc dies für Sie tun kann.

Was würden Sie damit machen? Würden Sie das automatisieren? Was wäre, wenn Sie eine Website mit Artikeln zum Herunterladen für Ihre Leser hätten? Sie können diese kleinen Befehle so modifizieren, dass sie als Skript funktionieren, und Ihre Leser können entscheiden, welches Format sie möchten. Sie können .docx, .pdf, .odt, .epub oder mehr anbieten. Ihre Leser wählen, das richtige Konvertierungsskript wird ausgeführt und Ihre Leser laden ihre Datei herunter. Es kann getan werden.