Dieses Tutorial zeigt, wie du ein PDF-Dokument (z.B. ein französisches PDF) mit Open-Source-Tools auf einem Linux-System in durchsuchbaren Text umwandelst und anschließend ins Deutsche übersetzt.
ocrmypdfpoppler-utilstesseract-ocr-fra (französische Sprache für OCR)tesseract-ocr-deu (deutsche Sprache, falls für OCR benötigt)translate-shell (für maschinelle Übersetzung)po4a und gettext-Tools für PO/POT-WorkflowÖffne das PDF mit einem PDF-Reader (z.B. Evince, Okular) und versuche, Text zu markieren und zu kopieren.
Wenn es klappt: Text direkt extrahieren
pdftotext input.pdf dokument.txt
Wenn nicht (Scan-PDF ohne Text), dann weiter mit OCR.
OCR erzeugt unsichtbaren Text im PDF, der durchsuchbar und extrahierbar ist.
ocrmypdf -l fra input.pdf output_ocr.pdf
Erläuterung:
-l fra sagt, dass die Texte auf Französisch sind (OCR-Sprache)input.pdf ist dein Original-PDFoutput_ocr.pdf ist die neue Datei mit eingebetteter TextschichtJetzt kannst du den erkannten Text extrahieren:
pdftotext output_ocr.pdf dokument.txt
Die Datei dokument.txt enthält den reinen französischen Text.
Übersetze den Text mit translate-shell:
trans -b :de -i dokument.txt -o dokument_de.txt
Parameter:
-b: „Brief mode“ (übersetzt nur den Text, keine Zusatzinfos):de: Zielsprache Deutsch-i: Eingabedatei (hier französischer Text)-o: Ausgabedatei (deutsche Übersetzung)po4aFür größere Projekte oder bessere Verwaltung kannst du so vorgehen:
po4a-gettextize -f text -m dokument.txt -p dokument.pot
msginit --input=dokument.pot --locale=de --output=dokument-de.po
.po-Datei bearbeitenÖffne dokument-de.po mit einem Texteditor oder einem Tool wie
Poedit.
po4a-translate -f text -m dokument.txt -p dokument-de.po -l dokument_de.txt
sudo apt update
sudo apt install ocrmypdf poppler-utils tesseract-ocr-fra tesseract-ocr-deu translate-shell po4a gettext
ocrmypdf -l fra input.pdf output_ocr.pdf
pdftotext output_ocr.pdf dokument.txt
trans -b :de -i dokument.txt -o dokument_de.txt
po4a-gettextize -f text -m dokument.txt -p dokument.pot msginit --input=dokument.pot --locale=de --output=dokument-de.po
po4a-translate -f text -m dokument.txt -p dokument-de.po -l dokument_de.txt
gscan2pdf installieren und verwenden.Viel Erfolg bei der Übersetzung deines PDF-Dokuments!
Ich bin aktiver Berufskraftfahrer in zweiter Generation mit langjähriger Erfahrung im Transportsektor. Auf diesem Blog teile ich meine persönliche Meinung und Erfahrungen.
Du hast Fragen, Anregungen oder Kritik? Schreib mir eine E-Mail: ue.golbsnaitsirhc@ofni
| Alle Tags |
| BKF |
62
|
| Allgemein |
19
|
| Tutorials |
13
|
| Linux |
11
|
| Test |
10
|
| Eisplatten |
9
|
| Tutorial |
8
|
| Arbeitsrecht |
7
|
| Datenschutz |
7
|
| Gesetzliche Änderungen |
5
|
| Gewerkschaft |
5
|
| Kampagne |
5
|
| Kündigung |
5
|
| Maut |
5
|
| OBU |
5
|
| Privatsphäre |
5
|
| TollCollect |
5
|
| IAA |
4
|
| Messe |
4
|
| Navigation |
4
|
| Nutzfahrzeuge |
4
|
| EU |
3
|
| Fahrerkarte |
3
|
| Meinung |
3
|
| Social |
3
|
| Windows |
3
|
| Allgmein |
2
|
| Discounter |
2
|
|
2
|
| Matrix |
2
|
| Petition |
2
|
| Recht |
2
|
| Sicherheit |
2
|
| Smartphone |
2
|
| Tests |
2
|
| Umstieg |
2
|
|
2
|
| WireGuard |
2
|
| 2FA |
1
|
| 30Jahre |
1
|
| 561 |
1
|
| Adb |
1
|
| ADR |
1
|
| Anleitung |
1
|
| Aprilscherz |
1
|
| Arbeitskampf |
1
|
| Arbeitszeiten |
1
|
| Becker |
1
|
| Behördenumfragen |
1
|
| BeundEntladeverbot |
1
|
| Browser |
1
|
| CalDAV |
1
|
| CardDAV |
1
|
| Chatkontrolle |
1
|
| Client Side Scanning |
1
|
| Comeback |
1
|
| Debian |
1
|
| Denkfehler |
1
|
| Dienstreise |
1
|
| Digital |
1
|
| DigitaleSouveränität |
1
|
| Digitalpolitik |
1
|
| Dokumentation |
1
|
| Dozer |
1
|
|
1
|
| E2EE |
1
|
| Einsteiger |
1
|
| ET-Radio |
1
|
| Europa |
1
|
| Fahrbahn |
1
|
| Familie |
1
|
| Fwknop |
1
|
| Gefahrgut |
1
|
| Geld |
1
|
| Gesetz |
1
|
| Gesetzliche Regelungen |
1
|
|
1
|
| Headset |
1
|
| Headsets |
1
|
| HGB |
1
|
| IHK |
1
|
| Kernel |
1
|
| KI |
1
|
| Klimaziele |
1
|
| Konsole |
1
|
| Ladesäulen |
1
|
| Ladungssicherung |
1
|
| Lenkzeit |
1
|
| Loehne |
1
|
| Messias |
1
|
| Meta |
1
|
| Netzwerk |
1
|
| Neues |
1
|
| NextCloud |
1
|
| Nftables |
1
|
| Notdurft |
1
|
| Nufam |
1
|
| OpenSource |
1
|
| Parkplatz |
1
|
| Passkeys |
1
|
| Passphrasen |
1
|
| Passwort-Alternative |
1
|
| Passwörter |
1
|
| Pauschalen |
1
|
| Politik |
1
|
| Privacy |
1
|
| Produkttest |
1
|
| Proxy |
1
|
| Radical |
1
|
| Rampe |
1
|
| RaspberryPI |
1
|
| RSS-Feed |
1
|
| Sandax |
1
|
| Scherz |
1
|
| Security |
1
|
| Social Network |
1
|
| Software |
1
|
| Spam |
1
|
| Sperre |
1
|
| Spotify |
1
|
| SSH |
1
|
| Standklimaanlage |
1
|
| Starlink |
1
|
| Steuern |
1
|
| Straßenkontrollen |
1
|
| Streik |
1
|
| Streiken |
1
|
| Technik |
1
|
| Tipps |
1
|
| Tod |
1
|
| Toilette |
1
|
| TomTom |
1
|
| TruckTollo |
1
|
| UEFI |
1
|
| Umgehen |
1
|
| Unfall |
1
|
| Verkehr |
1
|
| Verschlüsselung |
1
|
| Virtualisierung |
1
|
| VPN |
1
|
| Warnwestenpflicht |
1
|
| WebAuthn |
1
|
| XMPP |
1
|
| YouTube |
1
|
| Zertifikate |
1
|