Les petits modèles OCR battent les LLM de pointe

Un petit modèle vient de prendre la tête du palmarès

Pendant l'essentiel de 2024 et 2025, on tenait pour acquis qu'en matière de documents, le plus gros gagne toujours. Un modèle multimodal de pointe capable de réussir l'examen du barreau allait forcément mieux lire du papier qu'un tout petit modèle conçu pour transcrire. Le palmarès OmniDocBench 2026 dit le contraire.

En tête trône GLM-OCR, un modèle spécialisé de 0,9 milliard de paramètres, avec un score de 94,62 au palmarès 2026, devant PaddleOCR-VL à code ouvert à 94,50. Les généralistes de pointe se classent en dessous : Gemini 3.1 Pro autour de 90,3, GPT-5.4 autour de 85,8. GLM-OCR devance Gemini 3.1 Pro de plus de quatre points tout en tournant sur une fraction de la puissance de calcul.

Un modèle assez petit pour être hébergé sur un seul GPU lit aujourd'hui les documents avec plus de précision que les plus gros systèmes commerciaux du marché, résultat prévisible d'un entraînement consacré à une seule tâche plutôt qu'à quarante.

Les chiffres derrière le renversement

Les chiffres de précision affichés sont plus serrés que ne le laisse croire le classement. Sur des documents imprimés propres et bien structurés, les plateformes d'entreprise ont convergé autour de 95 à 99 % de précision. Microsoft Azure Document Intelligence mène à environ 96 %, avec GPT-5, Gemini 2.5 Pro, Google Vision et Amazon Textract autour de 95 % sur les bancs d'essai de texte imprimé.

Quand tout le monde se tient à quelques points près sur les pages faciles, les facteurs décisifs se déplacent ailleurs : les pages difficiles, le débit et la facture. Sur les documents à mise en page mixte qu'OmniDocBench éprouve, le spécialiste prend le large, et les analyses indépendantes montrent la même tendance : les modèles OCR et documentaires spécialisés surpassent de plus en plus les LLM généralistes de pointe sur les bancs d'essai OCR bruts, tout en coûtant moins cher à exploiter.

La raison est structurelle. Un modèle de pointe consacre l'essentiel de sa capacité au raisonnement et aux connaissances générales, que la transcription ne sollicite jamais. Un modèle OCR de 0,9 milliard de paramètres consacre toute la sienne aux caractères, aux tableaux et à la mise en page.

Pourquoi l'écart de coût est la vraie histoire

Dès qu'on traite un volume réel, le coût décide de l'architecture plus souvent que la précision, et l'écart économique n'est pas serré. Les pipelines OCR fondés sur un LLM de vision et hébergés à l'interne reviennent environ 167 fois moins cher par page que les appels à une API commerciale en grand volume.

Une page numérisée typique consomme de 700 à 1 500 jetons en entrée d'image. Envoyez-la à une API commerciale et vous payez au jeton, chaque fois. Faites-la passer par un spécialiste hébergé à l'interne et le coût marginal par page se résume à l'électricité, ce qui, à quelques millions de pages par année, fait la différence entre un produit viable et un produit à marge négative.

Le traitement par lots creuse encore l'écart. Les modèles dotés d'une fenêtre de contexte d'un million de jetons peuvent empaqueter 50 pages ou plus dans un seul appel, amortissant les frais fixes sur un dossier entier plutôt que de les payer à la page. L'équipe qui maîtrise sa propre couche OCR maîtrise ses coûts unitaires ; celle qui loue chaque page subit les décisions tarifaires d'un tiers.

Où le modèle de pointe justifie encore ses honoraires

Rien de tout cela ne chasse le modèle de pointe du décor ; sa description de poste change. La transcription brute est devenue une denrée qu'un petit spécialiste exécute mieux et moins cher, si bien que le modèle de pointe gagne ses honoraires sur la part du travail qui relève du raisonnement.

Lire les caractères d'une hypothèque, c'est de la transcription ; décider s'ils décrivent une charge radiée ou une charge vivante, c'est du jugement. La transcription réclame un spécialiste peu coûteux et déterministe ; le jugement réclame un modèle capable de soupeser un libellé ambigu au regard du dossier.

Les équipes qui font tout passer par un unique appel de vision de pointe surpaient la transcription et sous-utilisent le modèle sur le raisonnement qui justifie son prix.

Scinder le pipeline Cleardeal en deux

Cleardeal est un SaaS multilocataire d'examen de titres pour les équipes juridiques en immobilier, en service à cleardeal.ca. L'application récupère les demandes d'examen depuis la boîte Microsoft 365 d'un cabinet, exécute l'OCR et l'extraction des charges par IA sur les PDF de titres, génère l'opinion en DOCX et la renvoie par l'API Microsoft Graph. La pile repose sur Vite, React, TypeScript, Supabase et des fonctions edge Deno, avec OpenAI Vision sur la couche documentaire.

Un produit d'examen de titres fait passer des milliers de PDF par l'OCR. C'est exactement à ce volume que l'écart de 167x cesse d'être une note de bas de page et devient une ligne au compte de résultat, et l'architecture se scinde en deux.

L'étape de transcription va à un spécialiste peu coûteux : un petit modèle OCR qui construit une couche de texte interrogeable et déterministe pour chaque page à un coût marginal quasi nul, en traitant des dizaines de pages par appel. L'étape de raisonnement, l'extraction des charges qui tranche si une inscription est une hypothèque vivante ou radiée, est la seule à appeler un modèle de pointe, et seulement sur les pages qui exigent ce jugement. Ces pages arrivent déjà transcrites, si bien que le modèle de pointe dépense ses jetons à raisonner plutôt qu'à relire des caractères, et le coût par dossier baisse parce que la transcription n'est plus facturée au tarif fort.

Ce qu'il faut surveiller d'ici la fin de 2026

La première chose à surveiller : l'avance du spécialiste sur OmniDocBench tiendra-t-elle quand les modèles de pointe ajouteront de l'entraînement propre à l'OCR, ou les généralistes refermeront-ils l'écart de quatre points au prochain palmarès? Le pari ici est que l'écart de coût survivra à l'écart de précision, car un modèle de 0,9 milliard de paramètres reste toujours moins cher à faire tourner.

La seconde : la maturité de l'hébergement à l'interne. Le chiffre de 167x suppose qu'on sache déployer et exploiter un pipeline OCR à LLM de vision, ce qui demande une réelle ingénierie et procure un avantage de coût durable à qui la bâtit. C'est la question d'architecture, et non celle du choix du modèle, qui décide quels produits survivront au contact du volume.

Dans cet article