Dieses Tutorial zeigt, wie du ein PDF-Dokument (z.B. ein französisches PDF) mit Open-Source-Tools auf einem Linux-System in durchsuchbaren Text umwandelst und anschließend ins Deutsche übersetzt.
ocrmypdf
poppler-utils
tesseract-ocr-fra
(französische Sprache für OCR)tesseract-ocr-deu
(deutsche Sprache, falls für OCR benötigt)translate-shell
(für maschinelle Übersetzung)po4a
und gettext-Tools für PO/POT-WorkflowÖffne das PDF mit einem PDF-Reader (z.B. Evince, Okular) und versuche, Text zu markieren und zu kopieren.
Wenn es klappt: Text direkt extrahieren
pdftotext input.pdf dokument.txt
Wenn nicht (Scan-PDF ohne Text), dann weiter mit OCR.
OCR erzeugt unsichtbaren Text im PDF, der durchsuchbar und extrahierbar ist.
ocrmypdf -l fra input.pdf output_ocr.pdf
Erläuterung:
-l fra
sagt, dass die Texte auf Französisch sind (OCR-Sprache)input.pdf
ist dein Original-PDFoutput_ocr.pdf
ist die neue Datei mit eingebetteter TextschichtJetzt kannst du den erkannten Text extrahieren:
pdftotext output_ocr.pdf dokument.txt
Die Datei dokument.txt
enthält den reinen französischen Text.
Übersetze den Text mit translate-shell
:
trans -b :de -i dokument.txt -o dokument_de.txt
Parameter:
-b
: „Brief mode“ (übersetzt nur den Text, keine Zusatzinfos):de
: Zielsprache Deutsch-i
: Eingabedatei (hier französischer Text)-o
: Ausgabedatei (deutsche Übersetzung)po4a
Für größere Projekte oder bessere Verwaltung kannst du so vorgehen:
po4a-gettextize -f text -m dokument.txt -p dokument.pot
msginit --input=dokument.pot --locale=de --output=dokument-de.po
.po
-Datei bearbeitenÖffne dokument-de.po
mit einem Texteditor oder einem Tool wie
Poedit.
po4a-translate -f text -m dokument.txt -p dokument-de.po -l dokument_de.txt
sudo apt update
sudo apt install ocrmypdf poppler-utils tesseract-ocr-fra tesseract-ocr-deu translate-shell po4a gettext
ocrmypdf -l fra input.pdf output_ocr.pdf
pdftotext output_ocr.pdf dokument.txt
trans -b :de -i dokument.txt -o dokument_de.txt
po4a-gettextize -f text -m dokument.txt -p dokument.pot msginit --input=dokument.pot --locale=de --output=dokument-de.po
po4a-translate -f text -m dokument.txt -p dokument-de.po -l dokument_de.txt
gscan2pdf
installieren und verwenden.Viel Erfolg bei der Übersetzung deines PDF-Dokuments!
Ich bin aktiver Berufskraftfahrer in zweiter Generation mit langjähriger Erfahrung im Transportsektor. Auf diesem Blog teile ich meine persönliche Meinung und Erfahrungen.
Du hast Fragen, Anregungen oder Kritik? Schreib mir eine E-Mail: ue.golbsnaitsirhc@ofni
Alle Tags |
BKF |
62
|
Allgemein |
19
|
Tutorials |
13
|
Test |
10
|
Eisplatten |
9
|
Linux |
8
|
Tutorial |
8
|
Arbeitsrecht |
7
|
Datenschutz |
7
|
Gesetzliche Änderungen |
5
|
Gewerkschaft |
5
|
Kampagne |
5
|
Kündigung |
5
|
Maut |
5
|
OBU |
5
|
Privatsphäre |
5
|
TollCollect |
5
|
IAA |
4
|
Messe |
4
|
Navigation |
4
|
Nutzfahrzeuge |
4
|
EU |
3
|
Fahrerkarte |
3
|
Meinung |
3
|
Social |
3
|
Windows |
3
|
Allgmein |
2
|
Discounter |
2
|
Matrix |
2
|
Petition |
2
|
Recht |
2
|
Tests |
2
|
Umstieg |
2
|
2FA |
1
|
30Jahre |
1
|
561 |
1
|
Adb |
1
|
ADR |
1
|
Anleitung |
1
|
Aprilscherz |
1
|
Arbeitskampf |
1
|
Arbeitszeiten |
1
|
Becker |
1
|
Behördenumfragen |
1
|
BeundEntladeverbot |
1
|
Browser |
1
|
CalDAV |
1
|
CardDAV |
1
|
Chatkontrolle |
1
|
Client Side Scanning |
1
|
Comeback |
1
|
Debian |
1
|
Denkfehler |
1
|
Dienstreise |
1
|
Digital |
1
|
Dokumentation |
1
|
Dozer |
1
|
1
|
E2EE |
1
|
Einsteiger |
1
|
ET-Radio |
1
|
Europa |
1
|
1
|
Fahrbahn |
1
|
Familie |
1
|
Gefahrgut |
1
|
Geld |
1
|
Gesetz |
1
|
Gesetzliche Regelungen |
1
|
1
|
Headset |
1
|
Headsets |
1
|
HGB |
1
|
IHK |
1
|
Kernel |
1
|
KI |
1
|
Klimaziele |
1
|
Konsole |
1
|
Ladesäulen |
1
|
Ladungssicherung |
1
|
Lenkzeit |
1
|
Loehne |
1
|
Messias |
1
|
Netzwerk |
1
|
Neues |
1
|
NextCloud |
1
|
Notdurft |
1
|
Nufam |
1
|
Parkplatz |
1
|
Passkeys |
1
|
Passphrasen |
1
|
Passwort-Alternative |
1
|
Passwörter |
1
|
Pauschalen |
1
|
Politik |
1
|
Privacy |
1
|
Produkttest |
1
|
Proxy |
1
|
Radical |
1
|
Rampe |
1
|
RaspberryPI |
1
|
RSS-Feed |
1
|
Sandax |
1
|
Scherz |
1
|
Security |
1
|
Sicherheit |
1
|
Smartphone |
1
|
Social Network |
1
|
Software |
1
|
Spam |
1
|
Sperre |
1
|
Spotify |
1
|
Standklimaanlage |
1
|
Starlink |
1
|
Steuern |
1
|
Straßenkontrollen |
1
|
Streik |
1
|
Streiken |
1
|
Technik |
1
|
Tipps |
1
|
Tod |
1
|
Toilette |
1
|
TomTom |
1
|
TruckTollo |
1
|
UEFI |
1
|
Umgehen |
1
|
Unfall |
1
|
Verkehr |
1
|
Verschlüsselung |
1
|
Virtualisierung |
1
|
Warnwestenpflicht |
1
|
WebAuthn |
1
|
1
|
XMPP |
1
|
YouTube |
1
|
Zertifikate |
1
|