PDF ins Deutsche übersetzen

Erstellt am: 28/05/2024 - Lesezeit: 2 Minuten

PDF unter Linux extrahieren und ins Deutsche übersetzen

Dieses Tutorial zeigt, wie du ein PDF-Dokument (z.B. ein französisches PDF) mit Open-Source-Tools auf einem Linux-System in durchsuchbaren Text umwandelst und anschließend ins Deutsche übersetzt.


Voraussetzungen

  • Linux-System (Debian, LMDE oder irgendeine andere Distribution)
  • Terminal-Zugang
  • Installation folgender Pakete:
    • ocrmypdf
    • poppler-utils
    • tesseract-ocr-fra (französische Sprache für OCR)
    • tesseract-ocr-deu (deutsche Sprache, falls für OCR benötigt)
    • translate-shell (für maschinelle Übersetzung)
    • Optional: po4a und gettext-Tools für PO/POT-Workflow

1. Prüfen, ob Text im PDF direkt extrahierbar ist

Öffne das PDF mit einem PDF-Reader (z.B. Evince, Okular) und versuche, Text zu markieren und zu kopieren.

  • Wenn es klappt: Text direkt extrahieren
    pdftotext input.pdf dokument.txt

  • Wenn nicht (Scan-PDF ohne Text), dann weiter mit OCR.


2. OCR für das PDF ausführen

OCR erzeugt unsichtbaren Text im PDF, der durchsuchbar und extrahierbar ist.

ocrmypdf -l fra input.pdf output_ocr.pdf

Erläuterung:

  • -l fra sagt, dass die Texte auf Französisch sind (OCR-Sprache)
  • input.pdf ist dein Original-PDF
  • output_ocr.pdf ist die neue Datei mit eingebetteter Textschicht

3. Text aus dem OCR-PDF extrahieren

Jetzt kannst du den erkannten Text extrahieren:

pdftotext output_ocr.pdf dokument.txt

Die Datei dokument.txt enthält den reinen französischen Text.


4. Text maschinell ins Deutsche übersetzen

Übersetze den Text mit translate-shell:

trans -b :de -i dokument.txt -o dokument_de.txt

Parameter:

  • -b: „Brief mode“ (übersetzt nur den Text, keine Zusatzinfos)
  • :de: Zielsprache Deutsch
  • -i: Eingabedatei (hier französischer Text)
  • -o: Ausgabedatei (deutsche Übersetzung)

5. Optional: Professioneller PO/POT-Workflow mit po4a

Für größere Projekte oder bessere Verwaltung kannst du so vorgehen:

a) Pot-Datei aus Text erstellen

po4a-gettextize -f text -m dokument.txt -p dokument.pot

b) PO-Datei für Deutsch anlegen

msginit --input=dokument.pot --locale=de --output=dokument-de.po

c) .po-Datei bearbeiten

Öffne dokument-de.po mit einem Texteditor oder einem Tool wie Poedit.

d) Übersetzung zurück ins Textformat übertragen

po4a-translate -f text -m dokument.txt -p dokument-de.po -l dokument_de.txt


Zusammenfassung aller Befehle

1. Pakete installieren

sudo apt update

sudo apt install ocrmypdf poppler-utils tesseract-ocr-fra tesseract-ocr-deu translate-shell po4a gettext

2. OCR-PDF erzeugen (für Scan-PDF)

ocrmypdf -l fra input.pdf output_ocr.pdf

3. Text aus OCR-PDF extrahieren

pdftotext output_ocr.pdf dokument.txt

4. Text ins Deutsche übersetzen

trans -b :de -i dokument.txt -o dokument_de.txt

Optional: PO-Workflow

po4a-gettextize -f text -m dokument.txt -p dokument.pot msginit --input=dokument.pot --locale=de --output=dokument-de.po

PO-Datei bearbeiten…

po4a-translate -f text -m dokument.txt -p dokument-de.po -l dokument_de.txt


Hinweise

  • Die OCR- und Übersetzungsqualität kann je nach Dokument variieren.
  • Lokal installierte Lösungen sind besonders bei sensiblen Daten zu bevorzugen.
  • Für eine GUI-basierte OCR kannst du z.B. gscan2pdf installieren und verwenden.
  • Die vorgehensweise ist für alle Sprachen gleich. Bei OCR muss dann die jeweilige Sprache installiert sein, aus der man übersetzen will.

Viel Erfolg bei der Übersetzung deines PDF-Dokuments!


Profilbild

Christian Rumpf

Ich bin aktiver Berufskraftfahrer in zweiter Generation mit langjähriger Erfahrung im Transportsektor. Auf diesem Blog teile ich meine persönliche Meinung und Erfahrungen.

 

Du hast Fragen, Anregungen oder Kritik? Schreib mir eine E-Mail: ue.golbsnaitsirhc@ofni