OCR - amélioration des champs reconnus

Bonjour Ă  tous,
Nous sommes en train d’enregistrer les factures d’achats avec l’OCR, mais nous avons des erreurs dans al reconnaissance des montants ht, tva et ttc. Il fait souvent des mĂ©langes. D’autant plus quand il y a plusieurs tva sur le mĂȘme ticket comme celui la

J’ai vu que vous Ă©tiez en train d’implĂ©menter l’ocr de mistral, c’est intĂ©ressant !

Je voulais savoir oĂč vous en Ă©tiez et si vous aviez prĂ©vu une date pour la release.

Et comment faites vous les reconnaissances des champs aprùs avoir reçu l’ocr en retour ?
Je voudrai pouvoir expliquer oĂč trouver les champs pour ne pas se tromper la fois d’aprĂšs.

J’ai quand mĂȘme regardĂ© les ocr existant et j’ai vu entre autre dans les opensources olmocr avec la dĂ©mo ici qui m’a permis de tester le doc ci-dessus.

TICKET N°915451 - VNI le 05/06/2025 12:20:47 caisse : Caisse 1 - impression n°1 Opérateur : / Marine / Vendeur : / Marine

|Qté|Produit|Prix TTC|Prix TTC TVA|
| --- | --- | --- | --- |
|1|Brownie|2.50|2.50|
|1|Savoyard|5.40|5.40|
|1|Taxe Boissons sucrées|0.10|0.10|
|1|Boisson Offerte|0.00|0.00|

TOTAL TTC : 8.00€ Total remise TTC: 0.00€

Nombre total d’articles : 4 / 4 ligne(s)

TAXES : 3 - EXONERE DE T : 0.00€ / 0.10€ HT 2 - TVA 5.5% : 0.13€ / 2.37€ HT 5 - TVA 10% : 0.49€ / 4.91€ HT

TOTAL : 7.38€ HT TOTAL TTC : 8.00€

Toute la difficultĂ© est de rĂ©ussir Ă  s’adapter Ă  chaque ticket de caisse ou facture qui sont toutes diffĂ©rentes.
ChatGPT a trĂšs bien rĂ©ussi Ă  l’analyser et Ă  me donner les infos qu’il faut, mais c’est gourmand en ressources.

AprÚs en faisant des recherches avec expression réguliÚre spécifique pour chacun des fournisseurs, on pourrait réussi à identifier les bonnes lignes sans erreurs. Comme un ocr avec apprentissage (idem que InvoiceNet)

Bonjour @oryxr,

Oui j’ai commencĂ© l’intĂ©gration avec l’OCR de Mistral pour proposer une alternative Ă  AWS Textract Ă  partir de la version 5 de Dokos. On prĂ©voit une publication Ă  la rentrĂ©e/automne.

AWS Textract propose des fonctionnalitĂ©s d’entrainement, mais nous ne les avons pas du tout explorĂ©es pour le moment.
IdĂ©alement il faudrait pouvoir sĂ©lectionner les zones du PDF - ce qui demande pas mal de dĂ©veloppements pour faire quelque chose de bien - et les associer avec les clĂ©s attendues puis remonter ça Ă  Textract pour l’entrainer (Customizing your Queries Responses - Amazon Textract)

On est ouvert sur les plateformes Ă  utiliser, donc n’hĂ©sites pas Ă  ouvrir un ticket sur Gitlab (Dokos / OCR · GitLab) pour qu’on collabore sur des amĂ©liorations.