Dieses Tutorial zeigt, wie du ein PDF-Dokument (z.B. ein französisches PDF) mit Open-Source-Tools auf einem Linux-System in durchsuchbaren Text umwandelst und anschließend ins Deutsche übersetzt.
ocrmypdfpoppler-utilstesseract-ocr-fra (französische Sprache für OCR)tesseract-ocr-deu (deutsche Sprache, falls für OCR benötigt)translate-shell (für maschinelle Übersetzung)po4a und gettext-Tools für PO/POT-WorkflowÖffne das PDF mit einem PDF-Reader (z.B. Evince, Okular) und versuche, Text zu markieren und zu kopieren.
Wenn es klappt: Text direkt extrahierenpdftotext input.pdf dokument.txt
Wenn nicht (Scan-PDF ohne Text), dann weiter mit OCR.
OCR erzeugt unsichtbaren Text im PDF, der durchsuchbar und extrahierbar ist.
ocrmypdf -l fra input.pdf output_ocr.pdf
Erläuterung:
-l fra sagt, dass die Texte auf Französisch sind (OCR-Sprache)input.pdf ist dein Original-PDFoutput_ocr.pdf ist die neue Datei mit eingebetteter TextschichtJetzt kannst du den erkannten Text extrahieren:
pdftotext output_ocr.pdf dokument.txt
Die Datei dokument.txt enthält den reinen französischen Text.
Übersetze den Text mit translate-shell:
trans -b :de -i dokument.txt -o dokument_de.txt
Parameter:
-b: „Brief mode“ (übersetzt nur den Text, keine Zusatzinfos):de: Zielsprache Deutsch-i: Eingabedatei (hier französischer Text)-o: Ausgabedatei (deutsche Übersetzung)po4aFür größere Projekte oder bessere Verwaltung kannst du so vorgehen:
po4a-gettextize -f text -m dokument.txt -p dokument.pot
msginit --input=dokument.pot --locale=de --output=dokument-de.po
.po-Datei bearbeitenÖffne dokument-de.po mit einem Texteditor oder einem Tool wie
Poedit.
po4a-translate -f text -m dokument.txt -p dokument-de.po -l dokument_de.txt
sudo apt update
sudo apt install ocrmypdf poppler-utils tesseract-ocr-fra tesseract-ocr-deu translate-shell po4a gettext
ocrmypdf -l fra input.pdf output_ocr.pdf
pdftotext output_ocr.pdf dokument.txt
trans -b :de -i dokument.txt -o dokument_de.txt
po4a-gettextize -f text -m dokument.txt -p dokument.pot msginit --input=dokument.pot --locale=de --output=dokument-de.po
po4a-translate -f text -m dokument.txt -p dokument-de.po -l dokument_de.txt
gscan2pdf installieren und verwenden.Viel Erfolg bei der Übersetzung deines PDF-Dokuments!