Le fonctionnement de la reconnaissance optique de caractères – Partie 2

Dans notre précédent article, nous avons établi que l’OCR était capable de reconnaitre les caractères présents sur un document numérisé, et qu’un retraitement intelligent permettait de rectifier les incohérences d’une suite de caractères. Maintenant que les caractères sont reconnus, nous allons décrypter les procédés qui vont rendre ces données ...

Maintenant que les caractères sont reconnus, nous allons décrypter les procédés qui vont rendre ces données utiles et exploitables dans notre logiciel de dématérialisation. Nous allons donc nous intéresser à la LAD, la Lecture Automatique de Documents.

Couplée à l’OCR, la LAD permet d’extraire des informations d’un document numérisé et de les exploiter au sein du logiciel de saisie dématérialisée. La LAD a été conçue pour trouver des données sur un document, de façon autonome ou assistée, à partir d’un dictionnaire et, si besoin, de profils créés par l’utilisateur (les profils sont ensuite mutualisés entre tous les utilisateurs afin d’optimiser l’utilisation du process de dématérialisation).

Le Fonctionnement du dictionnaire

a - Les Index

Un dictionnaire contient des index de reconnaissance qui correspondent à des champs de l’écran de saisie du logiciel. Certains de ces index ont plusieurs formats possibles.

Par exemple,  il existe un index « Date ». Cet index  contient plusieurs  formats identifiables, car une date peut prendre plusieurs formes :

JJ/MM/AAAA                         =>          01/06/2014

JJJJ* JJ MMM* AAAA              =>          Dimanche 1 Juin 2014

 Dans l’index seront stockés les formats des valeurs, et non les valeurs elles-mêmes.

Un index peut contenir un très grand nombre de formats de valeurs pour pouvoir être efficace dans toutes les situations.

b - Les ancres sémantiques

Les index contiennent chacun une liste d’ancres.

Grâce à une recherche sémantique performante, la reconnaissance de l’ancre sur le document  va permettre de retrouver la donnée correspondant à un index.

Pour l’index « Date », les différentes ancres possibles dans notre exemple sont « En date du » et « Facturé le ».

Le logiciel scrute le document à la recherche des ancres indiquées dans le dictionnaire.

Le logiciel DEMAT’EXPERT® est livré avec un dictionnaire très complet qui reste entièrement personnalisable par l’utilisateur.

c - Le rapprochement des données et des ancres sémantiques

Après avoir identifié l’ancre d’un index sur le document, le logiciel recherche ensuite la donnée :

  • -          ayant un format cohérent avec la valeur de l’index recherché
  • -          étant géographiquement la plus proche de l’ancre

L'apprentissage

Dans le cas où la donnée n’a pu être reconnue grâce au dictionnaire, l’apprentissage entre en jeu.

L’apprentissage permet de créer un profil de reconnaissance pour chacun des documents. Ce profil est ensuite mutualisé entre tous les utilisateurs d’une même structure.

La création d’un profil de document « Fournisseur XXX » par un utilisateur profitera donc à tous les utilisateurs ayant également des documents du « Fournisseur XXX » à comptabiliser.

Cet apprentissage peut être réalisé de deux façons :

  •       - Apprentissage avec Ancrage :

On définit manuellement une ancre sémantique et un emplacement géographique pour la donnée. C'est cette ancre qui sera recherchée les fois suivantes pour retrouver la donnée.

  •       - Apprentissage sans ancrage :

On indique uniquement l'emplacement de la donnée, sans mot clé (sans ancre), seul l'emplacement de la donnée est retenu, on parle donc d'apprentissage purement géographique. Cela peut être risqué dans le cas où le format du document n’est pas toujours le même.

L'import dans DEMAT'EXPERT®

Chaque index correspond à un champ de saisie dans DEMAT’EXPERT®, il suffit simplement au logiciel de recopier les données reconnues par index dans chacun des champs correspondants.

Dans l’exemple ci-dessous, on peut voir que le logiciel a reconnu la date, le numéro de facture, le compte de tiers fournisseur grâce à son n° SIREN ainsi que l’ensemble des montants de la facture (HT, TVA, TTC).