OCR-Schwärzung: Gescannte PDFs für die Schwärzung bearbeitbar machen
Eine gescannte PDF ist eine Folge von Bildern, kein Text. Suchen und Schwärzen funktioniert ohne OCR nicht. Hier der passende Workflow.
Viele Dokumente kommen als gescannte PDF an — unterschriebene Verträge, alte Archivunterlagen, Arztbriefe. Für Menschen ist der Text lesbar, für Software sind es nur Bilder. OCR wandelt das um.
Der Unterschied
- Text-PDF: Im Hintergrund gibt es Text-Objekte. Suchen funktioniert, Kopieren und Einfügen funktioniert, Schwärzung funktioniert.
- Image-PDF: Nur Rasterbilder. Suchen funktioniert nicht, Text ist nicht auswählbar. Muss zuerst durch OCR verarbeitet werden.
OCR-Qualität variiert
- Gut gescanntes Papier (300+ DPI): 98–99 % Zeichengenauigkeit mit moderner OCR (Tesseract 5, Azure Read, Google Vision).
- Schlecht gescannt / zerknittert / schlechte Kopie: 70–90 %. Manuelle Prüfung erforderlich.
- Handschrift: Eigenes Modell nötig, 60–85 % bei gut lesbaren Handschriften.
Workflow für die Schwärzung mit OCR
- OCR auf die PDF anwenden (Acrobat hat diese Funktion, das Open-Source-Tool Tesseract ebenfalls).
- Nach sensiblen Mustern suchen (Steuer-ID, E-Mail, Telefonnummer).
- Identifizierte Bereiche schwärzen.
- Ausgabe als Text-plus-Bild oder nur als Bild — je nach Verwendungszweck.
- Verifizierung: Die Ausgabe erneut mit OCR scannen und prüfen, ob sensible Texte nicht mehr auffindbar sind.
Ein häufiger Fallstrick
Wenn Sie OCR anwenden und anschließend auf Textebene schwärzen, das Ergebnis aber als Bild exportieren, können sensible Daten noch immer in der Hintergrund-Textebene vorhanden sein. Stellen Sie sicher, dass Sie die Textebene ebenfalls schwärzen — nicht nur die visuelle Darstellung.
Siehe auch: Schwärzungs-Übersicht, Pattern Mode.
Volledige gids: Redacción de PDF para pymes: la guía completa
Dit artikel is onderdeel van onze uitgebreide PDF redactie-gids. Lees de pillar voor het complete plaatje.
Lees de pillar →