Je suis tombé il y a peu sur cet article ventant les bienfaits d'un "nouvel" OCR dans le paysage du libre. Après mes déboires répétés avec GOCR, j'ai donc bondi sur l'occasion.
Tesseract n'est pas tombé, loin de là, de la dernière pluie. Il s'agit en réalité d'un projet relativement ancien développé entre 1985 et 1994 par le groupe HP pour être finalement abandonné lors d'un recentrage des activités du groupe.
Ce n'est du coup qu'en 2005 que le projet reprend des couleurs lorsque certains employés décident de publier son code avec l'aide de Google et de l'Information Science Research Institute. Ces derniers apportant au vénérable outil debuggage et améliorations diverses.
Tesseract n'est devenu réellement libre qu'un peu plus tard, en Août 2006, une fois que les derniers parties propriétaires eurent été ôtées (réseau de neurone Aspirin/Migraine).
Et l'histoire ne s'arrête cependant pas là, car Tesseract, qui doit être considéré comme un "simple" moteur de reconnaissance de caractère multi-langues, est aujourd'hui en cours d'intégration dans un plus vaste projet nommé OCRopus. Mené par Google, l'objectif est de donner naissance à une chaîne complète comprenant la numérisation, l'analyse de formatage (RAST), la reconnaissance de langue, la reconnaissance de caractères (Tesseract) et une correction du résultat (aspell).
Bref, de quoi changer complètement le positionnement des plate-formes libres dans le domaine l'OCR.
C'est fou le nombre d'outils que l'on ne connaît pas qui sont déjà sagement en attente d'être installé sur nos disques (je mirrore les bases URPMI toutes les nuits). Tesseract n'échappe pas à la régle et son installation s'est simplement résumé à un :
Pour ce test, j'utilise un exemplaire de Newsweek, bien chiffonné par un mois de bourlingue, à l'inimitable papier glacé ultra-fin. C'est un peu le test critique pour moi car ce papier est à ce point transparent que la lampe fluorescente du scanner fait apparaître en partie le texte qui se trouve derrière la page.
Première étape donc, un scan en 400DPI (ce qui semble être le bon compromis taille/reconnaissance):
Ceci fait je vais juste éditer le résultat avec Gimp pour n'extraire qu'une seule colonne d'article. En effet, Tesseract n'a pour l'instant pas d'analyseur de format, et le double colonage du newsweek, ainsi que la photo centrale, ne va pas vraiment l'aider. Cela donne donc la source suivante (que j'ai réduite en taille pour l'intégrer ici) :

Ensuite je vais créer deux fichiers graphique. L'un au format TIF pour tesseract, l'autre en PPM pour GOCR.
Le temps du test est maintenant arrivé, d'abord GOCR :
Ce qui me donne en 3.92s :
Maintenant le même test avec tesseract :
Cette fois le résultat tombe en 3.12ss ce qui donne déjà Tesseract comme étant 1.25 fois plus rapide qu'GOCR :
Le résultat est juste sans appel. Le texte produit par Tesseract est tout simplement parfait contrairement à GOCR qui a du mal avec la transparence du papier et loupe un paquet de caractères.
Plus rapide donc et surtout bien pour des résultats bien meilleur (même si cela demande à être re-testé en français) tesseract semble d'un coup de baguette magique promettre aux plate-formes libres (ou pas d'ailleurs, car il fonctionne aussi sous Windows) une numérisation de document d'une qualité enfin digne de ce nom. Une très très bonne nouvelle en vérité.
Poster un nouveau commentaire