PDF redactie · 2 min leestijd · 13 November 2025

OCR-Schwärzung: Gescannte PDFs für die Schwärzung bearbeitbar machen

Eine gescannte PDF ist eine Folge von Bildern, kein Text. Suchen und Schwärzen funktioniert ohne OCR nicht. Hier der passende Workflow.

Viele Dokumente kommen als gescannte PDF an — unterschriebene Verträge, alte Archivunterlagen, Arztbriefe. Für Menschen ist der Text lesbar, für Software sind es nur Bilder. OCR wandelt das um.

Der Unterschied

Text-PDF: Im Hintergrund gibt es Text-Objekte. Suchen funktioniert, Kopieren und Einfügen funktioniert, Schwärzung funktioniert.
Image-PDF: Nur Rasterbilder. Suchen funktioniert nicht, Text ist nicht auswählbar. Muss zuerst durch OCR verarbeitet werden.

OCR-Qualität variiert

Gut gescanntes Papier (300+ DPI): 98–99 % Zeichengenauigkeit mit moderner OCR (Tesseract 5, Azure Read, Google Vision).
Schlecht gescannt / zerknittert / schlechte Kopie: 70–90 %. Manuelle Prüfung erforderlich.
Handschrift: Eigenes Modell nötig, 60–85 % bei gut lesbaren Handschriften.

Workflow für die Schwärzung mit OCR

OCR auf die PDF anwenden (Acrobat hat diese Funktion, das Open-Source-Tool Tesseract ebenfalls).
Nach sensiblen Mustern suchen (Steuer-ID, E-Mail, Telefonnummer).
Identifizierte Bereiche schwärzen.
Ausgabe als Text-plus-Bild oder nur als Bild — je nach Verwendungszweck.
Verifizierung: Die Ausgabe erneut mit OCR scannen und prüfen, ob sensible Texte nicht mehr auffindbar sind.

Ein häufiger Fallstrick

Wenn Sie OCR anwenden und anschließend auf Textebene schwärzen, das Ergebnis aber als Bild exportieren, können sensible Daten noch immer in der Hintergrund-Textebene vorhanden sein. Stellen Sie sicher, dass Sie die Textebene ebenfalls schwärzen — nicht nur die visuelle Darstellung.

Siehe auch: Schwärzungs-Übersicht, Pattern Mode.

Onderwerpen

#redactie #ocr #gescande-pdf

Volledige gids: Redacción de PDF para pymes: la guía completa

Dit artikel is onderdeel van onze uitgebreide PDF redactie-gids. Lees de pillar voor het complete plaatje.

Lees de pillar →

OCR-Schwärzung: Gescannte PDFs für die Schwärzung bearbeitbar machen

Der Unterschied

OCR-Qualität variiert

Workflow für die Schwärzung mit OCR

Ein häufiger Fallstrick

Volledige gids: Redacción de PDF para pymes: la guía completa

Verwant leesmateriaal

Redaktions-Workflow automatisieren: von Ad-hoc zu strukturiert

Schwärzung im Offboarding-Prozess: Welche Dokumente müssen bereinigt werden?

DSGVO: Schwärzung, Pseudonymisierung und Anonymisierung — was wann?

Audit Trail für die Schwärzung: Was protokollieren, warum und wie lange?

BSN in Dokumenten erkennen und entfernen

Pattern-Modus: Bulk-Schwärzung für wiederkehrende Muster