PDF unter Linux extrahieren und ins Deutsche übersetzen
Dieses Tutorial zeigt, wie du ein PDF-Dokument (z.B. ein französisches PDF) mit Open-Source-Tools auf einem Linux-System in durchsuchbaren Text umwandelst und anschließend ins Deutsche übersetzt.
Voraussetzungen
- Linux-System (Debian, LMDE oder irgendeine andere Distribution)
- Terminal-Zugang
- Installation folgender Pakete:
ocrmypdfpoppler-utilstesseract-ocr-fra(französische Sprache für OCR)tesseract-ocr-deu(deutsche Sprache, falls für OCR benötigt)translate-shell(für maschinelle Übersetzung)- Optional:
po4aund gettext-Tools für PO/POT-Workflow
1. Prüfen, ob Text im PDF direkt extrahierbar ist
Öffne das PDF mit einem PDF-Reader (z.B. Evince, Okular) und versuche, Text zu markieren und zu kopieren.
-
Wenn es klappt: Text direkt extrahieren
pdftotext input.pdf dokument.txt -
Wenn nicht (Scan-PDF ohne Text), dann weiter mit OCR.
2. OCR für das PDF ausführen
OCR erzeugt unsichtbaren Text im PDF, der durchsuchbar und extrahierbar ist.
ocrmypdf -l fra input.pdf output_ocr.pdf
Erläuterung:
-l frasagt, dass die Texte auf Französisch sind (OCR-Sprache)input.pdfist dein Original-PDFoutput_ocr.pdfist die neue Datei mit eingebetteter Textschicht
3. Text aus dem OCR-PDF extrahieren
Jetzt kannst du den erkannten Text extrahieren:
pdftotext output_ocr.pdf dokument.txt
Die Datei dokument.txt enthält den reinen französischen Text.
4. Text maschinell ins Deutsche übersetzen
Übersetze den Text mit translate-shell:
trans -b :de -i dokument.txt -o dokument_de.txt
Parameter:
-b: „Brief mode“ (übersetzt nur den Text, keine Zusatzinfos):de: Zielsprache Deutsch-i: Eingabedatei (hier französischer Text)-o: Ausgabedatei (deutsche Übersetzung)
5. Optional: Professioneller PO/POT-Workflow mit po4a
Für größere Projekte oder bessere Verwaltung kannst du so vorgehen:
a) Pot-Datei aus Text erstellen
po4a-gettextize -f text -m dokument.txt -p dokument.pot
b) PO-Datei für Deutsch anlegen
msginit --input=dokument.pot --locale=de --output=dokument-de.po
c) .po-Datei bearbeiten
Öffne dokument-de.po mit einem Texteditor oder einem Tool wie Poedit.
d) Übersetzung zurück ins Textformat übertragen
po4a-translate -f text -m dokument.txt -p dokument-de.po -l dokument_de.txt
Zusammenfassung aller Befehle
1. Pakete installieren
sudo apt update
sudo apt install ocrmypdf poppler-utils tesseract-ocr-fra tesseract-ocr-deu translate-shell po4a gettext
2. OCR-PDF erzeugen (für Scan-PDF)
ocrmypdf -l fra input.pdf output_ocr.pdf
3. Text aus OCR-PDF extrahieren
pdftotext output_ocr.pdf dokument.txt
4. Text ins Deutsche übersetzen
trans -b :de -i dokument.txt -o dokument_de.txt
Optional: PO-Workflow
po4a-gettextize -f text -m dokument.txt -p dokument.pot msginit --input=dokument.pot --locale=de --output=dokument-de.po
PO-Datei bearbeiten…
po4a-translate -f text -m dokument.txt -p dokument-de.po -l dokument_de.txt
Hinweise
- Die OCR- und Übersetzungsqualität kann je nach Dokument variieren.
- Lokal installierte Lösungen sind besonders bei sensiblen Daten zu bevorzugen.
- Für eine GUI-basierte OCR kannst du z.B.
gscan2pdfinstallieren und verwenden. - Die vorgehensweise ist für alle Sprachen gleich. Bei OCR muss dann die jeweilige Sprache installiert sein, aus der man übersetzen will.
Viel Erfolg bei der Übersetzung deines PDF-Dokuments!