Smart OCR : Pourquoi nous avons créé notre propre solution d'OCR fiable et rentable

Smart OCR : Pourquoi nous avons créé notre propre solution d'OCR fiable et rentable

Comment nous avons développé un OCR intelligent pour débloquer les données piégées dans les documents numérisés et établir une nouvelle norme pour l'automatisation.

Comment nous avons développé un OCR intelligent pour débloquer les données piégées dans les documents numérisés et établir une nouvelle norme pour l'automatisation.

Comment nous avons développé un OCR intelligent pour débloquer les données piégées dans les documents numérisés et établir une nouvelle norme pour l'automatisation.

Pourquoi nous avons développé notre propre solution d'OCR fiable et rentable chez Agilytic?

Agilytic aide les entreprises à transformer les données brutes en informations exploitables. Au fil des ans, nous avons remarqué un défi permanent dans tous les secteurs : débloquer les données piégées dans les documents papier, les PDF scannés et les fichiers images. Un nouveau client peut nous apporter des reçus, des factures ou des dossiers RH qui n'existent que sous forme de pages numérisées, ce qui rend l'automatisation difficile.

Nous avons décidé d'élaborer notre propre solution interne pour extraire des informations structurées de ces documents. Notre objectif était simple : traiter presque n'importe quel fichier de manière fiable, rentable et avec un minimum de supervision humaine. Ce billet explique pourquoi nous avons développé un outil interne de reconnaissance optique de caractères (OCR) (Smart OCR), comment il fonctionne et pourquoi nous pensons qu'il représente une nouvelle norme dans le traitement des documents.

Combler le fossé entre le papier et les données

Les entreprises traitent souvent des centaines, voire des milliers de documents par jour. Ces documents vont des factures aux formulaires des employés, en passant par les reçus et les contrats. La saisie manuelle des informations de chaque fichier prend du temps et est sujette à des erreurs. Pire encore, de nombreuses solutions tierces existantes ne disposent pas de certaines fonctionnalités, telles que la création de modèles personnalisés, la prise en charge multilingue ou une fiabilité constante à grande échelle.

Chez Agilytic, nous voulions donner le contrôle aux utilisateurs. Nous avons imaginé un outil capable de lire rapidement du texte à partir de n'importe quel fichier (PDF, PNG ou image scannée), puis de structurer le contenu selon une mise en page personnalisée ou un "modèle". Ce faisant, les clients peuvent facilement exporter les données traitées dans les systèmes qu'ils utilisent déjà pour la finance, les ressources humaines ou l'analyse.

Comment fonctionne l'OCR intelligente

L'OCR intelligente commence par l'extraction du texte d'un document. Nous nous appuyons sur de puissantes bibliothèques open-source telles que PaddleOCR, qui s'est révélée très performante pour les données numériques et les textes multilingues. Notre solution enrichit ensuite le texte brut avec des indices structurels (par exemple, en détectant les tableaux ou les titres). Enfin, nous utilisons un grand modèle linguistique (LLM) pour remplir un modèle prédéfini. Nous pouvons adapter ce modèle aux besoins exacts d'un client ou les utilisateurs peuvent facilement créer leur propre modèle.

L'un des membres de notre équipe l'a parfaitement décrit lors d'une démonstration interne : "Il n'est pas nécessaire d'avoir des compétences spécifiques pour l'utiliser - c'est dans le nuage, sécurisé et fiable grâce à la version Azure d'OpenAI". Cette approche simple signifie que l'utilisateur peut glisser et déposer des fichiers, choisir un modèle (ou en générer un nouveau) et laisser le système s'occuper du reste.

Un aperçu de la technologie

  1. Extraction OCR

    Nous commençons avec PaddleOCR pour reconnaître le texte dans les images. PaddleOCR se distingue lorsqu'il s'agit d'éléments manuscrits ou de mises en page complexes. De par sa conception, il est plus robuste avec les données numériques que les méthodes plus anciennes.

  2. Structurer le contenu

    Après avoir extrait le texte, nous l'enrichissons de marqueurs structurels : titres, tableaux et paragraphes. Pour ce faire, nous utilisons un "modèle de structuration" qui convertit le texte reconnu en une représentation légère de type HTML. Historiquement, le langage HTML est utilisé par les sites web pour organiser et structurer l'affichage de leur contenu. Si le document original contient un tableau, nous voulons le conserver intact dans le résultat structuré.

  3. la demande d'un grand modèle linguistique

    Le contenu de type HTML, associé à un modèle défini par l'utilisateur, est ensuite transmis à un modèle de langage étendu (LLM). Le LLM utilise uniquement le texte extrait pour remplir les champs demandés (par exemple, "nom du client" ou "total de la facture"). Il ignore tout ce qui n'est pas pertinent. Si l'information demandée ne figure pas dans le document, l'outil laisse simplement le champ vide.

  4. personnalisation de la sortie

    Grâce à notre interface web, il est facile de modifier les modèles ou d'en créer de nouveaux. Ainsi, chaque utilisateur peut définir les champs les plus importants. Par exemple, un client du secteur de la fabrication peut saisir les numéros de pièces et les quantités, tandis qu'une équipe des ressources humaines peut se concentrer sur les numéros d'identification et les salaires.

Pourquoi nous l'avons construit en interne

Il existe de nombreuses solutions prêtes à l'emploi pour le traitement des documents, alors pourquoi Agilytic a-t-elle décidé de créer la sienne ? Nous avons constaté que les outils tiers présentaient souvent des lacunes dans un ou plusieurs de ces domaines :

  • la fiabilité: Certains outils utilisent des moteurs d'OCR plus anciens qui ont du mal à traiter les chiffres ou les mises en page complexes.

  • le rapport coût-efficacité: Certaines solutions s'appuient sur des LLM multimodaux de grande taille, ce qui augmente les coûts. Les clients peuvent payer plusieurs centimes d'euros pour traiter une seule page, ce qui s'accumule rapidement.

  • un support multilingue: En Belgique et dans toute l'Europe, les documents peuvent être rédigés en français, en néerlandais, en anglais ou dans d'autres langues. De nombreux outils standard ne traitent correctement qu'un petit sous-ensemble de langues.

  • le contrôle des données: Nous voulions sécuriser les données et éviter d'envoyer des contenus sensibles à des services externes dont les mesures de protection de la vie privée sont incertaines.

En créant notre propre plate-forme, nous avons pu adapter chaque élément aux exigences de fiabilité et de coût que nous nous imposons. Nous utilisons des modèles de langage plus efficaces pour la structuration des textes, ce qui permet de limiter le coût à une fraction de centime par document dans de nombreux cas. Nous veillons également à ce que tout fonctionne en toute sécurité dans l'environnement Microsoft Azure, où la confidentialité et la résidence des données sont claires et bien définies.

Principaux avantages pour les entreprises

Nous avons conçu Smart OCR pour permettre aux organisations de faire plus avec moins. Voici quelques-uns des avantages signalés par nos clients :

  • Fiabilité élevée. En combinant de solides bibliothèques d'OCR avec une structuration de texte basée sur le LLM, nous fournissons constamment des résultats fiables. Si l'information demandée est manquante, notre outil n'essaiera pas de l'inventer.

  • Le rapport coût-efficacité. Nous utilisons des modèles linguistiques relativement petits, optimisés pour cette tâche spécifique. L'envoi de données à un modèle multimodal complet comme GPT-4 Vision peut être dix à cent fois plus coûteux.

  • Facilité d'utilisation. Il suffit aux utilisateurs de télécharger un fichier et de sélectionner un modèle. Aucun codage ni logiciel spécialisé n'est nécessaire. Un onglet de débogage est disponible pour les utilisateurs avancés qui souhaitent voir comment se déroule le processus.

  • Personnalisation. Notre solution prend en charge de nouveaux modèles à la volée. Si vous avez besoin de capturer des détails propres à un secteur spécifique ou à un type de formulaire, vous pouvez créer un nouveau modèle en quelques minutes.

Au-delà de l'OCR : la valeur des outils internes

Construire Smart OCR en interne fait partie d'une approche plus large chez Agilytic. Nous pensons que certaines technologies, en particulier celles qui sont fondamentales pour un traitement sûr et précis des données, doivent être développées en interne. Cela nous permet d'innover à notre propre rythme et de nous adapter rapidement aux demandes de nos clients.

Plus important encore, nos équipes peuvent collaborer étroitement avec les clients pour affiner ces solutions. Nous ne sommes pas limités par les feuilles de route rigides des fournisseurs ou les modèles de licence. Si un projet nécessite des analyses de texte avancées, nous pouvons intégrer ces capacités dans le pipeline sans attendre que des fournisseurs externes leur donnent la priorité.

Un aperçu de l'impact dans le monde réel

Au cours des premiers essais, nous avons utilisé Smart OCR sur plusieurs factures numérisées. Les outils d'OCR traditionnels se sont heurtés à des polices manquantes, à des pages inclinées ou à des textes peu clairs. Notre approche a permis d'identifier avec précision les noms des articles, les montants et les taxes en quelques secondes. Un client ayant un lourd flux de travail sur papier a constaté une baisse notable de la saisie manuelle des données et moins d'erreurs humaines.

Nous avons également testé le système sur des fiches de paie provenant de différents pays. En passant au bon modèle, nous avons extrait les champs pertinents, quelle que soit la mise en page ou la langue du document. Grâce à la flexibilité de l'outil, notre client a gagné du temps et de l'argent, tout en ayant la certitude que les données extraites étaient exactes.

Perspectives d'avenir

Nous perfectionnons constamment Smart OCR. Les prochaines mises à jour pourraient inclure un traitement plus rapide des documents comportant des dizaines de pages, une analyse avancée de la mise en page ou une intégration plus poussée avec nos pipelines d'analyse. Nous visons également à maintenir un coût proche de zéro pour chaque document traité, ce qui permet aux organisations d'augmenter l'automatisation des documents sans s'inquiéter de l'explosion des frais.

Bien que nous ayons commencé à développer cet outil il y a plus d'un an, nous l'avons conçu pour qu'il soit toujours d'actualité. Sa conception modulaire et son déploiement en nuage permettent des améliorations continues, quelle que soit l'évolution des technologies sous-jacentes d'OCR ou de modélisation linguistique.

Parlons des possibilités

Smart OCR vous semble pouvoir aider votre organisation à rationaliser le traitement des documents ? Nous serions ravis d'en savoir plus sur votre flux de travail et de vous montrer comment notre solution peut être adaptée à vos besoins.

Vous pensez que cet outil pourrait vous aider ? Discutons des possibilités. Planifiez un appel téléphonique.

Pourquoi nous avons développé notre propre solution d'OCR fiable et rentable chez Agilytic?

Agilytic aide les entreprises à transformer les données brutes en informations exploitables. Au fil des ans, nous avons remarqué un défi permanent dans tous les secteurs : débloquer les données piégées dans les documents papier, les PDF scannés et les fichiers images. Un nouveau client peut nous apporter des reçus, des factures ou des dossiers RH qui n'existent que sous forme de pages numérisées, ce qui rend l'automatisation difficile.

Nous avons décidé d'élaborer notre propre solution interne pour extraire des informations structurées de ces documents. Notre objectif était simple : traiter presque n'importe quel fichier de manière fiable, rentable et avec un minimum de supervision humaine. Ce billet explique pourquoi nous avons développé un outil interne de reconnaissance optique de caractères (OCR) (Smart OCR), comment il fonctionne et pourquoi nous pensons qu'il représente une nouvelle norme dans le traitement des documents.

Combler le fossé entre le papier et les données

Les entreprises traitent souvent des centaines, voire des milliers de documents par jour. Ces documents vont des factures aux formulaires des employés, en passant par les reçus et les contrats. La saisie manuelle des informations de chaque fichier prend du temps et est sujette à des erreurs. Pire encore, de nombreuses solutions tierces existantes ne disposent pas de certaines fonctionnalités, telles que la création de modèles personnalisés, la prise en charge multilingue ou une fiabilité constante à grande échelle.

Chez Agilytic, nous voulions donner le contrôle aux utilisateurs. Nous avons imaginé un outil capable de lire rapidement du texte à partir de n'importe quel fichier (PDF, PNG ou image scannée), puis de structurer le contenu selon une mise en page personnalisée ou un "modèle". Ce faisant, les clients peuvent facilement exporter les données traitées dans les systèmes qu'ils utilisent déjà pour la finance, les ressources humaines ou l'analyse.

Comment fonctionne l'OCR intelligente

L'OCR intelligente commence par l'extraction du texte d'un document. Nous nous appuyons sur de puissantes bibliothèques open-source telles que PaddleOCR, qui s'est révélée très performante pour les données numériques et les textes multilingues. Notre solution enrichit ensuite le texte brut avec des indices structurels (par exemple, en détectant les tableaux ou les titres). Enfin, nous utilisons un grand modèle linguistique (LLM) pour remplir un modèle prédéfini. Nous pouvons adapter ce modèle aux besoins exacts d'un client ou les utilisateurs peuvent facilement créer leur propre modèle.

L'un des membres de notre équipe l'a parfaitement décrit lors d'une démonstration interne : "Il n'est pas nécessaire d'avoir des compétences spécifiques pour l'utiliser - c'est dans le nuage, sécurisé et fiable grâce à la version Azure d'OpenAI". Cette approche simple signifie que l'utilisateur peut glisser et déposer des fichiers, choisir un modèle (ou en générer un nouveau) et laisser le système s'occuper du reste.

Un aperçu de la technologie

  1. Extraction OCR

    Nous commençons avec PaddleOCR pour reconnaître le texte dans les images. PaddleOCR se distingue lorsqu'il s'agit d'éléments manuscrits ou de mises en page complexes. De par sa conception, il est plus robuste avec les données numériques que les méthodes plus anciennes.

  2. Structurer le contenu

    Après avoir extrait le texte, nous l'enrichissons de marqueurs structurels : titres, tableaux et paragraphes. Pour ce faire, nous utilisons un "modèle de structuration" qui convertit le texte reconnu en une représentation légère de type HTML. Historiquement, le langage HTML est utilisé par les sites web pour organiser et structurer l'affichage de leur contenu. Si le document original contient un tableau, nous voulons le conserver intact dans le résultat structuré.

  3. la demande d'un grand modèle linguistique

    Le contenu de type HTML, associé à un modèle défini par l'utilisateur, est ensuite transmis à un modèle de langage étendu (LLM). Le LLM utilise uniquement le texte extrait pour remplir les champs demandés (par exemple, "nom du client" ou "total de la facture"). Il ignore tout ce qui n'est pas pertinent. Si l'information demandée ne figure pas dans le document, l'outil laisse simplement le champ vide.

  4. personnalisation de la sortie

    Grâce à notre interface web, il est facile de modifier les modèles ou d'en créer de nouveaux. Ainsi, chaque utilisateur peut définir les champs les plus importants. Par exemple, un client du secteur de la fabrication peut saisir les numéros de pièces et les quantités, tandis qu'une équipe des ressources humaines peut se concentrer sur les numéros d'identification et les salaires.

Pourquoi nous l'avons construit en interne

Il existe de nombreuses solutions prêtes à l'emploi pour le traitement des documents, alors pourquoi Agilytic a-t-elle décidé de créer la sienne ? Nous avons constaté que les outils tiers présentaient souvent des lacunes dans un ou plusieurs de ces domaines :

  • la fiabilité: Certains outils utilisent des moteurs d'OCR plus anciens qui ont du mal à traiter les chiffres ou les mises en page complexes.

  • le rapport coût-efficacité: Certaines solutions s'appuient sur des LLM multimodaux de grande taille, ce qui augmente les coûts. Les clients peuvent payer plusieurs centimes d'euros pour traiter une seule page, ce qui s'accumule rapidement.

  • un support multilingue: En Belgique et dans toute l'Europe, les documents peuvent être rédigés en français, en néerlandais, en anglais ou dans d'autres langues. De nombreux outils standard ne traitent correctement qu'un petit sous-ensemble de langues.

  • le contrôle des données: Nous voulions sécuriser les données et éviter d'envoyer des contenus sensibles à des services externes dont les mesures de protection de la vie privée sont incertaines.

En créant notre propre plate-forme, nous avons pu adapter chaque élément aux exigences de fiabilité et de coût que nous nous imposons. Nous utilisons des modèles de langage plus efficaces pour la structuration des textes, ce qui permet de limiter le coût à une fraction de centime par document dans de nombreux cas. Nous veillons également à ce que tout fonctionne en toute sécurité dans l'environnement Microsoft Azure, où la confidentialité et la résidence des données sont claires et bien définies.

Principaux avantages pour les entreprises

Nous avons conçu Smart OCR pour permettre aux organisations de faire plus avec moins. Voici quelques-uns des avantages signalés par nos clients :

  • Fiabilité élevée. En combinant de solides bibliothèques d'OCR avec une structuration de texte basée sur le LLM, nous fournissons constamment des résultats fiables. Si l'information demandée est manquante, notre outil n'essaiera pas de l'inventer.

  • Le rapport coût-efficacité. Nous utilisons des modèles linguistiques relativement petits, optimisés pour cette tâche spécifique. L'envoi de données à un modèle multimodal complet comme GPT-4 Vision peut être dix à cent fois plus coûteux.

  • Facilité d'utilisation. Il suffit aux utilisateurs de télécharger un fichier et de sélectionner un modèle. Aucun codage ni logiciel spécialisé n'est nécessaire. Un onglet de débogage est disponible pour les utilisateurs avancés qui souhaitent voir comment se déroule le processus.

  • Personnalisation. Notre solution prend en charge de nouveaux modèles à la volée. Si vous avez besoin de capturer des détails propres à un secteur spécifique ou à un type de formulaire, vous pouvez créer un nouveau modèle en quelques minutes.

Au-delà de l'OCR : la valeur des outils internes

Construire Smart OCR en interne fait partie d'une approche plus large chez Agilytic. Nous pensons que certaines technologies, en particulier celles qui sont fondamentales pour un traitement sûr et précis des données, doivent être développées en interne. Cela nous permet d'innover à notre propre rythme et de nous adapter rapidement aux demandes de nos clients.

Plus important encore, nos équipes peuvent collaborer étroitement avec les clients pour affiner ces solutions. Nous ne sommes pas limités par les feuilles de route rigides des fournisseurs ou les modèles de licence. Si un projet nécessite des analyses de texte avancées, nous pouvons intégrer ces capacités dans le pipeline sans attendre que des fournisseurs externes leur donnent la priorité.

Un aperçu de l'impact dans le monde réel

Au cours des premiers essais, nous avons utilisé Smart OCR sur plusieurs factures numérisées. Les outils d'OCR traditionnels se sont heurtés à des polices manquantes, à des pages inclinées ou à des textes peu clairs. Notre approche a permis d'identifier avec précision les noms des articles, les montants et les taxes en quelques secondes. Un client ayant un lourd flux de travail sur papier a constaté une baisse notable de la saisie manuelle des données et moins d'erreurs humaines.

Nous avons également testé le système sur des fiches de paie provenant de différents pays. En passant au bon modèle, nous avons extrait les champs pertinents, quelle que soit la mise en page ou la langue du document. Grâce à la flexibilité de l'outil, notre client a gagné du temps et de l'argent, tout en ayant la certitude que les données extraites étaient exactes.

Perspectives d'avenir

Nous perfectionnons constamment Smart OCR. Les prochaines mises à jour pourraient inclure un traitement plus rapide des documents comportant des dizaines de pages, une analyse avancée de la mise en page ou une intégration plus poussée avec nos pipelines d'analyse. Nous visons également à maintenir un coût proche de zéro pour chaque document traité, ce qui permet aux organisations d'augmenter l'automatisation des documents sans s'inquiéter de l'explosion des frais.

Bien que nous ayons commencé à développer cet outil il y a plus d'un an, nous l'avons conçu pour qu'il soit toujours d'actualité. Sa conception modulaire et son déploiement en nuage permettent des améliorations continues, quelle que soit l'évolution des technologies sous-jacentes d'OCR ou de modélisation linguistique.

Parlons des possibilités

Smart OCR vous semble pouvoir aider votre organisation à rationaliser le traitement des documents ? Nous serions ravis d'en savoir plus sur votre flux de travail et de vous montrer comment notre solution peut être adaptée à vos besoins.

Vous pensez que cet outil pourrait vous aider ? Discutons des possibilités. Planifiez un appel téléphonique.

Pourquoi nous avons développé notre propre solution d'OCR fiable et rentable chez Agilytic?

Agilytic aide les entreprises à transformer les données brutes en informations exploitables. Au fil des ans, nous avons remarqué un défi permanent dans tous les secteurs : débloquer les données piégées dans les documents papier, les PDF scannés et les fichiers images. Un nouveau client peut nous apporter des reçus, des factures ou des dossiers RH qui n'existent que sous forme de pages numérisées, ce qui rend l'automatisation difficile.

Nous avons décidé d'élaborer notre propre solution interne pour extraire des informations structurées de ces documents. Notre objectif était simple : traiter presque n'importe quel fichier de manière fiable, rentable et avec un minimum de supervision humaine. Ce billet explique pourquoi nous avons développé un outil interne de reconnaissance optique de caractères (OCR) (Smart OCR), comment il fonctionne et pourquoi nous pensons qu'il représente une nouvelle norme dans le traitement des documents.

Combler le fossé entre le papier et les données

Les entreprises traitent souvent des centaines, voire des milliers de documents par jour. Ces documents vont des factures aux formulaires des employés, en passant par les reçus et les contrats. La saisie manuelle des informations de chaque fichier prend du temps et est sujette à des erreurs. Pire encore, de nombreuses solutions tierces existantes ne disposent pas de certaines fonctionnalités, telles que la création de modèles personnalisés, la prise en charge multilingue ou une fiabilité constante à grande échelle.

Chez Agilytic, nous voulions donner le contrôle aux utilisateurs. Nous avons imaginé un outil capable de lire rapidement du texte à partir de n'importe quel fichier (PDF, PNG ou image scannée), puis de structurer le contenu selon une mise en page personnalisée ou un "modèle". Ce faisant, les clients peuvent facilement exporter les données traitées dans les systèmes qu'ils utilisent déjà pour la finance, les ressources humaines ou l'analyse.

Comment fonctionne l'OCR intelligente

L'OCR intelligente commence par l'extraction du texte d'un document. Nous nous appuyons sur de puissantes bibliothèques open-source telles que PaddleOCR, qui s'est révélée très performante pour les données numériques et les textes multilingues. Notre solution enrichit ensuite le texte brut avec des indices structurels (par exemple, en détectant les tableaux ou les titres). Enfin, nous utilisons un grand modèle linguistique (LLM) pour remplir un modèle prédéfini. Nous pouvons adapter ce modèle aux besoins exacts d'un client ou les utilisateurs peuvent facilement créer leur propre modèle.

L'un des membres de notre équipe l'a parfaitement décrit lors d'une démonstration interne : "Il n'est pas nécessaire d'avoir des compétences spécifiques pour l'utiliser - c'est dans le nuage, sécurisé et fiable grâce à la version Azure d'OpenAI". Cette approche simple signifie que l'utilisateur peut glisser et déposer des fichiers, choisir un modèle (ou en générer un nouveau) et laisser le système s'occuper du reste.

Un aperçu de la technologie

  1. Extraction OCR

    Nous commençons avec PaddleOCR pour reconnaître le texte dans les images. PaddleOCR se distingue lorsqu'il s'agit d'éléments manuscrits ou de mises en page complexes. De par sa conception, il est plus robuste avec les données numériques que les méthodes plus anciennes.

  2. Structurer le contenu

    Après avoir extrait le texte, nous l'enrichissons de marqueurs structurels : titres, tableaux et paragraphes. Pour ce faire, nous utilisons un "modèle de structuration" qui convertit le texte reconnu en une représentation légère de type HTML. Historiquement, le langage HTML est utilisé par les sites web pour organiser et structurer l'affichage de leur contenu. Si le document original contient un tableau, nous voulons le conserver intact dans le résultat structuré.

  3. la demande d'un grand modèle linguistique

    Le contenu de type HTML, associé à un modèle défini par l'utilisateur, est ensuite transmis à un modèle de langage étendu (LLM). Le LLM utilise uniquement le texte extrait pour remplir les champs demandés (par exemple, "nom du client" ou "total de la facture"). Il ignore tout ce qui n'est pas pertinent. Si l'information demandée ne figure pas dans le document, l'outil laisse simplement le champ vide.

  4. personnalisation de la sortie

    Grâce à notre interface web, il est facile de modifier les modèles ou d'en créer de nouveaux. Ainsi, chaque utilisateur peut définir les champs les plus importants. Par exemple, un client du secteur de la fabrication peut saisir les numéros de pièces et les quantités, tandis qu'une équipe des ressources humaines peut se concentrer sur les numéros d'identification et les salaires.

Pourquoi nous l'avons construit en interne

Il existe de nombreuses solutions prêtes à l'emploi pour le traitement des documents, alors pourquoi Agilytic a-t-elle décidé de créer la sienne ? Nous avons constaté que les outils tiers présentaient souvent des lacunes dans un ou plusieurs de ces domaines :

  • la fiabilité: Certains outils utilisent des moteurs d'OCR plus anciens qui ont du mal à traiter les chiffres ou les mises en page complexes.

  • le rapport coût-efficacité: Certaines solutions s'appuient sur des LLM multimodaux de grande taille, ce qui augmente les coûts. Les clients peuvent payer plusieurs centimes d'euros pour traiter une seule page, ce qui s'accumule rapidement.

  • un support multilingue: En Belgique et dans toute l'Europe, les documents peuvent être rédigés en français, en néerlandais, en anglais ou dans d'autres langues. De nombreux outils standard ne traitent correctement qu'un petit sous-ensemble de langues.

  • le contrôle des données: Nous voulions sécuriser les données et éviter d'envoyer des contenus sensibles à des services externes dont les mesures de protection de la vie privée sont incertaines.

En créant notre propre plate-forme, nous avons pu adapter chaque élément aux exigences de fiabilité et de coût que nous nous imposons. Nous utilisons des modèles de langage plus efficaces pour la structuration des textes, ce qui permet de limiter le coût à une fraction de centime par document dans de nombreux cas. Nous veillons également à ce que tout fonctionne en toute sécurité dans l'environnement Microsoft Azure, où la confidentialité et la résidence des données sont claires et bien définies.

Principaux avantages pour les entreprises

Nous avons conçu Smart OCR pour permettre aux organisations de faire plus avec moins. Voici quelques-uns des avantages signalés par nos clients :

  • Fiabilité élevée. En combinant de solides bibliothèques d'OCR avec une structuration de texte basée sur le LLM, nous fournissons constamment des résultats fiables. Si l'information demandée est manquante, notre outil n'essaiera pas de l'inventer.

  • Le rapport coût-efficacité. Nous utilisons des modèles linguistiques relativement petits, optimisés pour cette tâche spécifique. L'envoi de données à un modèle multimodal complet comme GPT-4 Vision peut être dix à cent fois plus coûteux.

  • Facilité d'utilisation. Il suffit aux utilisateurs de télécharger un fichier et de sélectionner un modèle. Aucun codage ni logiciel spécialisé n'est nécessaire. Un onglet de débogage est disponible pour les utilisateurs avancés qui souhaitent voir comment se déroule le processus.

  • Personnalisation. Notre solution prend en charge de nouveaux modèles à la volée. Si vous avez besoin de capturer des détails propres à un secteur spécifique ou à un type de formulaire, vous pouvez créer un nouveau modèle en quelques minutes.

Au-delà de l'OCR : la valeur des outils internes

Construire Smart OCR en interne fait partie d'une approche plus large chez Agilytic. Nous pensons que certaines technologies, en particulier celles qui sont fondamentales pour un traitement sûr et précis des données, doivent être développées en interne. Cela nous permet d'innover à notre propre rythme et de nous adapter rapidement aux demandes de nos clients.

Plus important encore, nos équipes peuvent collaborer étroitement avec les clients pour affiner ces solutions. Nous ne sommes pas limités par les feuilles de route rigides des fournisseurs ou les modèles de licence. Si un projet nécessite des analyses de texte avancées, nous pouvons intégrer ces capacités dans le pipeline sans attendre que des fournisseurs externes leur donnent la priorité.

Un aperçu de l'impact dans le monde réel

Au cours des premiers essais, nous avons utilisé Smart OCR sur plusieurs factures numérisées. Les outils d'OCR traditionnels se sont heurtés à des polices manquantes, à des pages inclinées ou à des textes peu clairs. Notre approche a permis d'identifier avec précision les noms des articles, les montants et les taxes en quelques secondes. Un client ayant un lourd flux de travail sur papier a constaté une baisse notable de la saisie manuelle des données et moins d'erreurs humaines.

Nous avons également testé le système sur des fiches de paie provenant de différents pays. En passant au bon modèle, nous avons extrait les champs pertinents, quelle que soit la mise en page ou la langue du document. Grâce à la flexibilité de l'outil, notre client a gagné du temps et de l'argent, tout en ayant la certitude que les données extraites étaient exactes.

Perspectives d'avenir

Nous perfectionnons constamment Smart OCR. Les prochaines mises à jour pourraient inclure un traitement plus rapide des documents comportant des dizaines de pages, une analyse avancée de la mise en page ou une intégration plus poussée avec nos pipelines d'analyse. Nous visons également à maintenir un coût proche de zéro pour chaque document traité, ce qui permet aux organisations d'augmenter l'automatisation des documents sans s'inquiéter de l'explosion des frais.

Bien que nous ayons commencé à développer cet outil il y a plus d'un an, nous l'avons conçu pour qu'il soit toujours d'actualité. Sa conception modulaire et son déploiement en nuage permettent des améliorations continues, quelle que soit l'évolution des technologies sous-jacentes d'OCR ou de modélisation linguistique.

Parlons des possibilités

Smart OCR vous semble pouvoir aider votre organisation à rationaliser le traitement des documents ? Nous serions ravis d'en savoir plus sur votre flux de travail et de vous montrer comment notre solution peut être adaptée à vos besoins.

Vous pensez que cet outil pourrait vous aider ? Discutons des possibilités. Planifiez un appel téléphonique.

Prêt à atteindre vos objectifs grâce aux données ?

Si vous souhaitez atteindre vos objectifs grâce à une utilisation plus intelligente des données et de l'intelligence artificielle, vous êtes au bon endroit.

Prêt à atteindre vos objectifs grâce aux données?

Si vous souhaitez atteindre vos objectifs grâce à une utilisation plus intelligente des données et de l'intelligence artificielle, vous êtes au bon endroit.

Prêt à atteindre vos objectifs grâce aux données?

Si vous souhaitez atteindre vos objectifs grâce à une utilisation plus intelligente des données et de l'intelligence artificielle, vous êtes au bon endroit.

Prêt à atteindre vos objectifs grâce aux données?

Si vous souhaitez atteindre vos objectifs grâce à une utilisation plus intelligente des données et de l'intelligence artificielle, vous êtes au bon endroit.

© 2025 Agilytic

© 2025 Agilytic

© 2025 Agilytic