PDF redactie · 1 min leestijd · 13 november 2025

OCR-redactie: gescande PDF's bewerkbaar krijgen voor redactie

Een gescande PDF is een serie afbeeldingen, geen tekst. Zoeken en redigeren werkt niet zonder OCR. Hier de workflow.

Veel documenten komen binnen als gescande PDF — ondertekende contracten, oude archiefstukken, doctors-brieven. Tekst is voor mensen leesbaar, voor software zijn het afbeeldingen. OCR zet het om.

Het verschil

Tekst-PDF: onderliggend zijn er text-objecten. Zoeken werkt, copy-paste werkt, redactie werkt.
Image-PDF: alleen raster-afbeeldingen. Zoeken werkt niet, tekst is niet selecteerbaar. Moet eerst door OCR.

OCR-kwaliteit varieert

Goed gescand papier (300+ DPI): 98-99% karakter-accuratie met moderne OCR (Tesseract 5, Azure Read, Google Vision).
Slecht gescand / gekreukeld / vieze kopie: 70-90%. Handmatig verifiëren nodig.
Handgeschreven: apart model nodig, 60-85% bij goed leesbare handschriften.

Workflow voor redactie met OCR

OCR toepassen op PDF (Acrobat heeft dit, open-source Tesseract ook).
Zoeken op gevoelige patronen (BSN, e-mail, telefoon).
Geïdentificeerde regio's redigeren.
Output als text-plus-image of alleen image afhankelijk van doel.
Verificatie: scan de output nogmaals met OCR, check of gevoelige tekst niet meer te vinden is.

Specifieke valkuil

Als je OCR doet en daarna redigeert op tekst-niveau, maar het resultaat als afbeelding exporteert, kun je toch nog gevoelige data in de achtergrond-tekstlaag hebben. Zorg dat je de tekstlaag óók redigeert, niet alleen de visuele.

Zie ook: redactie-pillar, pattern mode.

Onderwerpen

#redactie #ocr #gescande-pdf

Volledige gids: PDF redaction for SMBs: the complete guide

Dit artikel is onderdeel van onze uitgebreide PDF redactie-gids. Lees de pillar voor het complete plaatje.

Lees de pillar →

OCR-redactie: gescande PDF's bewerkbaar krijgen voor redactie

Het verschil

OCR-kwaliteit varieert

Workflow voor redactie met OCR

Specifieke valkuil

Volledige gids: PDF redaction for SMBs: the complete guide

Verwant leesmateriaal

Redactie-workflow automatiseren: van ad hoc naar gestroomlijnd

Redactie in het offboarding-proces: welke documenten moet je opschonen?

AVG: redactie, pseudonimiseren en anonimiseren — welke wanneer?

Audit trail voor redactie: wat log je, waarom, hoe lang?

BSN in documenten herkennen en verwijderen

Pattern mode: bulk-redactie voor terugkerende patronen