À propos de BIQE AI HTR SaaS

Une solution pratique à un problème tenace : rendre les manuscrits historiques lisibles à grande échelle.

Le problème

Les archives européennes contiennent des millions de pages d'écriture manuscrite antérieures à 1950. Elles ont été numérisées, mais ne sont pas consultables. Quiconque cherche quelque chose dans un registre de 1894 doit le parcourir à la main.

La transcription manuelle coûte cher — environ 5–15 € par page, selon la qualité et la longueur. Pour de grandes collections, cela signifie des budgets qui atteignent rapidement les millions. Résultat : beaucoup de matériel reste non catalogué.

La HTR automatisée (Handwritten Text Recognition) peut le faire à moindre coût, mais la précision des meilleurs modèles open-source se situe autour de 8–15 % de taux d'erreur au niveau de la ligne. Pour la publication ou la recherche sérieuse, ce n'est pas suffisant.

Notre approche

Nous ajoutons une étape à la pipeline HTR standard : une couche de correction basée sur un grand modèle de langue qui place la sortie brute dans son contexte.

1Mise en page

Un modèle de détection trouve les lignes de texte sur la page et détermine l'ordre de lecture.

2Reconnaissance

Un modèle HTR lit chaque ligne de texte caractère par caractère. La sortie est brute — souvent avec des erreurs typographiques manifestement erronées pour un lecteur humain.

3Correction

Notre couche envoie l'image et la transcription brute à un LLM doté de connaissances contextuelles sur la langue, l'époque et le type de document. Le résultat est nettement plus précis.

Exemple : un document administratif du XIXe siècle qui sort à l'état brut comme "Straff ge van genis te Goes voor het" devient après correction "Strafgevangenis te Goes voor het" (un mot néerlandais signifiant prison). L'erreur est corrigée parce que le LLM sait que "strafgevangenis" est un mot valide et que la version fragmentée ne l'est pas.

Principes techniques

Correction, pas recréation

Le LLM reçoit à la fois l'image et la transcription brute. Il agit comme un relecteur, pas comme un retranscripteur. Cela minimise les hallucinations.

Coordonnées préservées

Nous corrigeons le texte dans la structure PageXML existante. Les bounding boxes, l'ordre de lecture et les identifiants de ligne restent inchangés — vous pouvez exporter directement des PDF consultables ou des fichiers ALTO.

Presets de prompt par type de document

Le prompt qui dirige le LLM est spécialisé par type de document. Un registre du XVIIe siècle reçoit des instructions différentes d'un tapuscrit du XXe siècle. Nous ajoutons rapidement de nouveaux presets pour des projets clients spécifiques.

Indépendant du modèle

Nous routons chaque niveau vers le modèle le mieux adapté (Gemini, Claude, GPT-4o, DeepSeek et autres). Si un fournisseur tombe en panne ou qu'un nouveau modèle meilleur devient disponible, rien ne change pour nos clients.

Résultats mesurés

Sur un corpus de test de documents administratifs néerlandais du XIXe siècle, nous obtenons les taux d'erreur suivants (Character Error Rate, au niveau de la ligne) :

Étape Taux d'erreur (CER) Remarque
HTR seul (sans correction) ~8–12 % Sortie HTR standard avec modèle republic
Avec couche de correction BIQE — Balanced ~2–3 % Gemini 3 Flash
Avec couche de correction BIQE — Best ~1–2 % Claude Sonnet 4.6. Note : pas toujours meilleur que Balanced sur texte néerlandais — voir pilote.

Les résultats varient selon le matériel. Pendant le pilote, nous testons sur une petite sélection de vos propres documents — nous voyons alors directement quel niveau convient le mieux.

À propos du développeur

BIQE AI HTR SaaS a été développé par Jannes Hoekman, actif dans la numérisation de matériel historique. Le logiciel est basé sur des composants open-source (nous utilisons des modèles accessibles au public pour l'analyse de mise en page et la HTR) ; la couche de correction et l'orchestration sont notre propre travail.

Pour toute question, demande de pilote ou collaboration : [email protected].

Prendre contact Voir les tarifs