Erstellt am: 28/05/2024 - Lesezeit: 2 Minuten

PDF unter Linux extrahieren und ins Deutsche übersetzen

Dieses Tutorial zeigt, wie du ein PDF-Dokument (z.B. ein französisches PDF) mit Open-Source-Tools auf einem Linux-System in durchsuchbaren Text umwandelst und anschließend ins Deutsche übersetzt.

Voraussetzungen

Linux-System (Debian, LMDE oder irgendeine andere Distribution)
Terminal-Zugang
Installation folgender Pakete:
- ocrmypdf
- poppler-utils
- tesseract-ocr-fra (französische Sprache für OCR)
- tesseract-ocr-deu (deutsche Sprache, falls für OCR benötigt)
- translate-shell (für maschinelle Übersetzung)
- Optional: po4a und gettext-Tools für PO/POT-Workflow

1. Prüfen, ob Text im PDF direkt extrahierbar ist

Öffne das PDF mit einem PDF-Reader (z.B. Evince, Okular) und versuche, Text zu markieren und zu kopieren.

Wenn es klappt: Text direkt extrahieren
pdftotext input.pdf dokument.txt
Wenn nicht (Scan-PDF ohne Text), dann weiter mit OCR.

2. OCR für das PDF ausführen

OCR erzeugt unsichtbaren Text im PDF, der durchsuchbar und extrahierbar ist.

ocrmypdf -l fra input.pdf output_ocr.pdf

Erläuterung:

-l fra sagt, dass die Texte auf Französisch sind (OCR-Sprache)
input.pdf ist dein Original-PDF
output_ocr.pdf ist die neue Datei mit eingebetteter Textschicht

3. Text aus dem OCR-PDF extrahieren

Jetzt kannst du den erkannten Text extrahieren:

pdftotext output_ocr.pdf dokument.txt

Die Datei dokument.txt enthält den reinen französischen Text.

4. Text maschinell ins Deutsche übersetzen

Übersetze den Text mit translate-shell:

trans -b :de -i dokument.txt -o dokument_de.txt

Parameter:

-b: „Brief mode“ (übersetzt nur den Text, keine Zusatzinfos)
:de: Zielsprache Deutsch
-i: Eingabedatei (hier französischer Text)
-o: Ausgabedatei (deutsche Übersetzung)

5. Optional: Professioneller PO/POT-Workflow mit `po4a`

Für größere Projekte oder bessere Verwaltung kannst du so vorgehen:

a) Pot-Datei aus Text erstellen

po4a-gettextize -f text -m dokument.txt -p dokument.pot

b) PO-Datei für Deutsch anlegen

msginit --input=dokument.pot --locale=de --output=dokument-de.po

c) `.po`-Datei bearbeiten

Öffne dokument-de.po mit einem Texteditor oder einem Tool wie Poedit.

d) Übersetzung zurück ins Textformat übertragen

po4a-translate -f text -m dokument.txt -p dokument-de.po -l dokument_de.txt

Zusammenfassung aller Befehle

1. Pakete installieren

sudo apt update

sudo apt install ocrmypdf poppler-utils tesseract-ocr-fra tesseract-ocr-deu translate-shell po4a gettext

2. OCR-PDF erzeugen (für Scan-PDF)

ocrmypdf -l fra input.pdf output_ocr.pdf

3. Text aus OCR-PDF extrahieren

pdftotext output_ocr.pdf dokument.txt

4. Text ins Deutsche übersetzen

trans -b :de -i dokument.txt -o dokument_de.txt

Optional: PO-Workflow

po4a-gettextize -f text -m dokument.txt -p dokument.pot msginit --input=dokument.pot --locale=de --output=dokument-de.po

PO-Datei bearbeiten…

po4a-translate -f text -m dokument.txt -p dokument-de.po -l dokument_de.txt

Hinweise

Die OCR- und Übersetzungsqualität kann je nach Dokument variieren.
Lokal installierte Lösungen sind besonders bei sensiblen Daten zu bevorzugen.
Für eine GUI-basierte OCR kannst du z.B. gscan2pdf installieren und verwenden.
Die vorgehensweise ist für alle Sprachen gleich. Bei OCR muss dann die jeweilige Sprache installiert sein, aus der man übersetzen will.

Viel Erfolg bei der Übersetzung deines PDF-Dokuments!

PDF ins Deutsche übersetzen

PDF unter Linux extrahieren und ins Deutsche übersetzen

Voraussetzungen

1. Prüfen, ob Text im PDF direkt extrahierbar ist

2. OCR für das PDF ausführen

3. Text aus dem OCR-PDF extrahieren

4. Text maschinell ins Deutsche übersetzen

5. Optional: Professioneller PO/POT-Workflow mit `po4a`

a) Pot-Datei aus Text erstellen

b) PO-Datei für Deutsch anlegen

c) `.po`-Datei bearbeiten

d) Übersetzung zurück ins Textformat übertragen

Zusammenfassung aller Befehle

1. Pakete installieren

2. OCR-PDF erzeugen (für Scan-PDF)

3. Text aus OCR-PDF extrahieren

4. Text ins Deutsche übersetzen

Optional: PO-Workflow

PO-Datei bearbeiten…

Hinweise

Christian Rumpf

PDF ins Deutsche übersetzen

PDF unter Linux extrahieren und ins Deutsche übersetzen

Voraussetzungen

1. Prüfen, ob Text im PDF direkt extrahierbar ist

2. OCR für das PDF ausführen

3. Text aus dem OCR-PDF extrahieren

4. Text maschinell ins Deutsche übersetzen

5. Optional: Professioneller PO/POT-Workflow mit po4a

a) Pot-Datei aus Text erstellen

b) PO-Datei für Deutsch anlegen

c) .po-Datei bearbeiten

d) Übersetzung zurück ins Textformat übertragen

Zusammenfassung aller Befehle

1. Pakete installieren

2. OCR-PDF erzeugen (für Scan-PDF)

3. Text aus OCR-PDF extrahieren

4. Text ins Deutsche übersetzen

Optional: PO-Workflow

PO-Datei bearbeiten…

Hinweise

Christian Rumpf

5. Optional: Professioneller PO/POT-Workflow mit `po4a`

c) `.po`-Datei bearbeiten