Les LLM de vision dévorent l'OCR classique

Le pipeline en deux étapes vient de s'effondrer

Pendant deux décennies, l'automatisation documentaire en immobilier reposait sur la même recette : passer le numérisé à la reconnaissance optique de caractères (OCR), puis pointer des expressions régulières et des extracteurs entraînés sur le texte obtenu. La précision se perdait surtout dans le passage entre les deux étapes.

À la première moitié de 2026, cette recette s'efface. Les modèles de vision de pointe lisent une page de bout en bout. Claude 4.5 Sonnet, GPT-5 et Gemini 2.5 Pro acceptent un PDF numérisé et retournent du JSON structuré directement, sans étape OCR. GPT-5 atteint environ 98 % de précision sur les factures à forte teneur textuelle, Claude 4.5 Sonnet autour de 97 %, Gemini 2.5 Pro à 96 %. Les modèles spécialisés à code ouvert comme GLM-OCR dominent encore OmniDocBench v1.5 avec un score de 94,6, mais sur les documents juridiques d'entreprise, l'écart se referme.

Le virage le plus profond est le coût d'ingénierie. Chaque nouveau format de registre exigeait autrefois un nouvel extracteur ou une nouvelle banque d'expressions régulières. Avec un modèle de vision, un nouveau type de document signifie un nouveau prompt.

Pourquoi les dossiers de titres cassaient l'OCR classique

Un dossier de titres québécois provenant du Registre foncier compte de quarante à cent pages : des inscriptions de 1880 à 2026, des renvois cadastraux manuscrits, des sceaux notariaux par-dessus du texte dactylographié, des pages à colonnes multiples où la mise en page porte le sens, et des avis de radiation agrafés derrière l'hypothèque d'origine. Numérisé à des jours différents, à des résolutions différentes, par des commis différents.

L'OCR classique transforme tout cela en une seule colonne de caractères et laisse à l'analyseur en aval le soin de deviner ce qui appartient à quoi. L'analyseur ne peut pas savoir qu'une date à côté de « radiation » signifie que l'hypothèque a été éteinte, alors que la même date à côté de « inscription » signifie qu'elle a été créée. Il n'a aucune idée que le sceau pivoté en page huit est celui du registraire qui valide l'inscription de la page sept.

Les modèles de vision lisent la page comme le ferait un stagiaire en droit. Ils lient le sceau à la date à côté. Ils suivent un tableau d'une colonne à l'autre sans règle explicite. Ils remarquent qu'une entrée a été biffée par des traits diagonaux et la traitent en conséquence. Le modèle retourne des fiches structurées directement.

Où l'OCR classique garde encore sa place

Le récit du tout-vision est réel, mais l'éloge funèbre de l'OCR classique est prématuré. Trois facteurs le gardent en production.

Le coût. À fort volume, l'OCR classique est quasi gratuit. Gemini Flash 2.0 traite dix mille pages pour moins de deux dollars. GPT-4 Vision et Claude Opus à l'échelle reviennent plutôt à cinquante à cent dollars pour dix mille pages. À un million de pages par année, n'appeler le modèle de pointe que lorsque c'est nécessaire est un poste budgétaire réel.

La latence. Un appel à un LLM de vision prend des secondes. Un appel OCR classique prend des millisecondes. Pour une recherche en temps réel dans un dossier de titres, cet écart est l'expérience utilisateur.

La sortie déterministe. Un LLM de vision auquel on soumet deux fois la même image retourne sensiblement le même JSON, mais pas octet pour octet. Le pire mode de défaillance est la fabrication silencieuse : une date inventée parce que le champ semblait taché. L'avocat qui signe doit défendre chaque chiffre, et une couche de texte déterministe sous la sortie du modèle donne au réviseur une source stable.

La bonne architecture en 2026 aiguille chaque page vers le modèle qui convient.

Le pipeline Cleardeal en mai 2026

Cleardeal est un SaaS multilocataire d'examen de titres pour les équipes juridiques québécoises, en service à cleardeal.ca. L'application récupère les demandes d'examen depuis la boîte Microsoft 365 d'un cabinet, exécute la compréhension documentaire sur le dossier et renvoie une lettre d'opinion préliminaire en DOCX par Microsoft Graph. La pile repose sur Vite, React, TypeScript, Supabase et des fonctions edge Deno, avec OpenAI Vision sur la couche documentaire.

Le pipeline est hybride par conception. Un premier passage d'OCR classique construit une couche de texte interrogeable et déterministe pour l'interface de révision. Les mêmes pages passent ensuite par OpenAI Vision, qui lit chaque inscription comme une unité et retourne des fiches structurées : numéro, date, droit inscrit, parties, immeuble visé, score de confiance. Le réviseur voit la sortie du modèle et l'extrait source côte à côte, et ne signe qu'après avoir réconcilié les deux.

La vague des LLM de vision de pointe change la logique d'aiguillage. L'appel unique à Vision qui passe sur chaque page aujourd'hui peut être scindé. Les pages de registre modernes et propres passent par un modèle rapide et peu coûteux. Les inscriptions manuscrites anciennes, les sceaux ambigus et les pages à faible confiance passent par un modèle de pointe avec exigences d'ancrage. Un second modèle vérifie toute extraction que le premier a retournée avec un score bas. Le coût par dossier baisse parce que la plupart des pages n'ont pas besoin du modèle de pointe, et la précision sur les pages difficiles monte parce que ce modèle ne dilue plus son attention sur quarante pages de boilerplate.

Les enquêtes sectorielles situent l'adoption de l'IA pour l'examen des engagements de titre autour de 47 % en 2026, avec une précision de 85 % à 92 % sur la catégorisation des exceptions. Le modèle fait le triage et la rédaction; l'opinion reste sous la responsabilité du notaire ou de l'avocat qui signe.

Ce qu'il faut tester avant d'arracher l'ancienne pile

Tout cabinet qui migre son pipeline hors de l'OCR classique vers un LLM de vision devrait lancer quatre tests sur ses propres dossiers d'abord.

Précision sur des inscriptions réelles. Échantillonner cinquante à cent dossiers de titres récents. Scorer chaque champ contre la page source, pas contre une extraction précédente. Les démos fournisseurs tournent sur des fichiers propres. Vos fichiers ne sont pas des fichiers de test.
Garde-fous contre l'hallucination. Un champ vide se rattrape; une date fabriquée est une plainte en responsabilité professionnelle. Le modèle doit pouvoir dire « non visible » quand la source ne l'est pas, et le prompt doit imposer ce comportement.
Un score de confiance qui veut dire quelque chose. Un score décorrélé de la précision est pire que pas de score. Valider que les scores bas prédisent réellement une précision basse sur vos données.
Piste de vérification. Les règles professionnelles québécoises exigent qu'un notaire ou un avocat puisse défendre chaque sortie. Le pipeline doit conserver l'extrait source, la version du modèle, le prompt, l'horodatage et l'approbation du réviseur.

Le coût, la latence et la traçabilité décident plus souvent de l'architecture que le chiffre de précision en gros titre. Le produit gagnant en 2026 sait quand appeler le modèle coûteux.

Dans cet article