Le fonctionnement de la reconnaissance optique de caractères – Partie 1

OCR, LAD, RAD, ICR… autant d’acronymes barbares que vous pouvez rencontrer dès que vous cherchez  à passer à un traitement numérique de vos documents.

La naissance de l'OCR

Le premier brevet sur ​​la technologie OCR a été attribué à un allemand, Gustav Tauschek,  en 1929.

C'est une machine mécanique utilisant des gabarits et un détecteur photosensible qui pointe de la lumière. Une image contenant le texte à reconnaître passe devant la fenêtre de la machine. Un disque tourne à l’intérieur de la lentille objective. Le disque a des trous en forme de lettres. Quand l’image et la forme du trou coïncident, un mécanisme s’enclenche et imprime le caractère reconnu.

Comme de nombreuses innovations technologiques, c’est l’armée qui en développe les premières applications destinées  à augmenter l'automatisation des données. Dans les années 1960-1970, ce sont les postes de toute la planète qui adoptent la reconnaissance de caractères pour trier le courrier. Les utilisations se multiplient, et en 1974, un scientifique développe une machine capable de lire les textes reconnus. Ce projet financé par Stevie Wonder fut commercialisé en 1978.

Après ce paragraphe retraçant l’histoire de l’OCR, nous pouvons rentrer dans le vif du sujet, comment le système actuel fonctionne-t-il ?

La reconnaissance optique de caractères est scindée en plusieurs étapes consécutives qui  sont imperceptibles pour l’utilisateur.

Le redressement du document

La numérisation, première étape du traitement, est très importante car la qualité des informations que nous allons pouvoir recueillir en découle. Il est important de prendre toutes les précautions nécessaires afin de numériser au mieux le document. Malgré tout le soin apporté, le document scanné peut être légèrement de travers et ce, pour différentes raisons :
  • - Placement manuel sur le scanner mal fait
  • - Papier bien placé, mais facture imprimé de travers
  • - ...
La première étape consiste donc à redresser le document pour en faciliter la lecture des caractères grâce à un algorithme de correction d’orientation.

Nettoyage du "bruit"

La numérisation engendre l’apparition de « bruit » sur l’image. Ces parasites qui nuisent à la qualité de l’image peuvent avoir de multiples sources :
  • - Des pliures sur le document scanné
  • - Des tâches ou poussières sur le document ou sur la vitre du scanner
  • - Du tramage ou des fonds de couleur sur le document papier
  • - Différents réglages du scanner (résolution, luminosité, contraste, …)
  • - …
C’est à cause du « bruit » que des caractères peuvent être reconnus à la place d’autres ou qu’un pixel noir peut être assimilé à une virgule… Pour permettre une reconnaissance optimale du texte, il faut réduire le « bruit », supprimer au maximum les parasites de l’image. Ce même procédé est utilisé par les photographes pour améliorer la netteté des photos prises dans des conditions de faible luminosité.

Le passage à l'OCR

A ce moment de l’opération, DEMAT’EXPERT® transforme automatiquement votre document en format TIFF si ce n’est pas déjà le cas.  Il est recommandé de numériser vos documents en TIFF 300 dpi, ce qui permet de gagner quelques secondes de traitement par feuille et d’obtenir une reconnaissance optimale des caractères. De plus chaque traitement opéré sur l’image peut entraîner des dégradations de la qualité de l’image, autant ne pas compliquer la tâche de l’OCR. Le moteur de l’OCR a maintenant pour mission de transformer l’image, de la segmenter en sous-ensembles de pixels (points noirs ou blancs) dont il garde en mémoire la position dans le document. Il reconnait ensuite le caractère correspondant à chaque ensemble de pixels et forme donc des mots. L’OCR retranscrit simplement les caractères qu’il reconnait, il ne donne aucun sens aux mots reconnus. C’est pourquoi ces données sont ensuite retraitées.

Retraitement de l'OCR

Beaucoup de caractères se ressemblent. L’OCR ne sait pas toujours faire la différence entre certaines lettres ou certains chiffres. Par exemple :
  • - Les « ronds » comme : o (lettre minuscule), O (lettre majuscule), 0 (chiffre), Q (lettre majuscule), ° (rond en exposant), …
  • - Les « bâtons » comme : i (lettre minuscule), l (lettre L minuscule), I (lettre i majuscule), 1 (chiffre), …
Un retraitement intelligent de l’ensemble des données est alors opéré. Par exemple :
  • - Si dans une série de chiffres se glisse un i (lettre minuscule), un l (lettre L minuscule) ou un I (lettre i majuscule), il sera remplacé par un 1 (chiffre).
  • - Si dans une série de chiffres se glisse un o (lettre minuscule), un O (lettre majuscule), un Q (lettre majuscule), ou un ° (rond en exposant), il sera remplacé par un 0 (chiffre).
  •  - …

Conclusion et recommandations

Au terme de ces différentes étapes, le taux de reconnaissance est d’environ 80 à 100% pour un document de bonne qualité. Ces chiffres peuvent être bien inférieurs pour des documents abîmés, raturés, ou tachés. Pour l’ensemble de ces étapes, comptez entre 5 et 10 secondes par feuille pour une facture complexe. Les recommandations pour une reconnaissance optimale découlent de ce que nous avons pu voir précédemment :
  • - Gardez vos documents vierges de toutes tâches, pliures autant que possible
  • - Placez au mieux le document dans le scanner
  • - Numérisez au format TIFF 300 dpi