OCR et rédaction : rendre les PDF numérisés modifiables pour la rédaction
Un PDF numérisé est une série d'images, pas du texte. La recherche et la rédaction ne fonctionnent pas sans OCR. Voici le processus à suivre.
De nombreux documents arrivent sous forme de PDF numérisés — contrats signés, archives anciennes, courriers médicaux. Le texte est lisible pour les humains, mais pour les logiciels, ce ne sont que des images. L'OCR permet de les convertir.
La différence
- PDF texte : des objets texte sont présents en arrière-plan. La recherche fonctionne, le copier-coller fonctionne, la rédaction fonctionne.
- PDF image : uniquement des images matricielles. La recherche ne fonctionne pas, le texte n'est pas sélectionnable. Un traitement OCR est nécessaire au préalable.
La qualité de l'OCR varie
- Document bien numérisé (300+ DPI) : précision caractère de 98-99 % avec les OCR modernes (Tesseract 5, Azure Read, Google Vision).
- Numérisation médiocre / document froissé / copie sale : 70-90 %. Une vérification manuelle est nécessaire.
- Manuscrit : modèle dédié requis, 60-85 % pour les écritures lisibles.
Processus de rédaction avec OCR
- Appliquer l'OCR au PDF (Acrobat le propose, Tesseract open-source également).
- Rechercher les données sensibles selon des modèles (numéro de sécurité sociale, e-mail, téléphone).
- Rédiger les zones identifiées.
- Exporter en texte + image ou uniquement en image selon l'objectif.
- Vérification : passer à nouveau le résultat par l'OCR et s'assurer que le texte sensible n'est plus détectable.
Piège spécifique
Si vous appliquez l'OCR puis rédigez au niveau du texte, mais exportez le résultat sous forme d'image, des données sensibles peuvent subsister dans la couche de texte en arrière-plan. Assurez-vous de rédiger également cette couche de texte, et pas seulement le rendu visuel.
Voir aussi : guide complet sur la rédaction, mode pattern.
Volledige gids: Redacción de PDF para pymes: la guía completa
Dit artikel is onderdeel van onze uitgebreide PDF redactie-gids. Lees de pillar voor het complete plaatje.
Lees de pillar →