OCR-redactie: gescande PDF's bewerkbaar krijgen voor redactie
Een gescande PDF is een serie afbeeldingen, geen tekst. Zoeken en redigeren werkt niet zonder OCR. Hier de workflow.
Veel documenten komen binnen als gescande PDF — ondertekende contracten, oude archiefstukken, doctors-brieven. Tekst is voor mensen leesbaar, voor software zijn het afbeeldingen. OCR zet het om.
Het verschil
- Tekst-PDF: onderliggend zijn er text-objecten. Zoeken werkt, copy-paste werkt, redactie werkt.
- Image-PDF: alleen raster-afbeeldingen. Zoeken werkt niet, tekst is niet selecteerbaar. Moet eerst door OCR.
OCR-kwaliteit varieert
- Goed gescand papier (300+ DPI): 98-99% karakter-accuratie met moderne OCR (Tesseract 5, Azure Read, Google Vision).
- Slecht gescand / gekreukeld / vieze kopie: 70-90%. Handmatig verifiëren nodig.
- Handgeschreven: apart model nodig, 60-85% bij goed leesbare handschriften.
Workflow voor redactie met OCR
- OCR toepassen op PDF (Acrobat heeft dit, open-source Tesseract ook).
- Zoeken op gevoelige patronen (BSN, e-mail, telefoon).
- Geïdentificeerde regio's redigeren.
- Output als text-plus-image of alleen image afhankelijk van doel.
- Verificatie: scan de output nogmaals met OCR, check of gevoelige tekst niet meer te vinden is.
Specifieke valkuil
Als je OCR doet en daarna redigeert op tekst-niveau, maar het resultaat als afbeelding exporteert, kun je toch nog gevoelige data in de achtergrond-tekstlaag hebben. Zorg dat je de tekstlaag óók redigeert, niet alleen de visuele.
Zie ook: redactie-pillar, pattern mode.
Volledige gids: PDF redactie voor MKB: de complete gids
Dit artikel is onderdeel van onze uitgebreide PDF redactie-gids. Lees de pillar voor het complete plaatje.
Lees de pillar →