Les VLMs révolutionnent la Computer Vision | Eleven

Les VLMs révolutionnent la Computer Vision17 novembre 2025

Generative AI

Les VLMs révolutionnent discrètement l’IA…

Avez-vous déjà essayé de poser une question à ChatGPT à partir d’une image ?

Le résultat est souvent bluffant, révélant des capacités bien au-delà de la simple reconnaissance visuelle. Pourtant, ChatGPT n’est que la partie émergée de l’iceberg.
Les Visual Language Models (VLMs) révolutionnent notre façon d’interagir avec l’information, en combinant vision par ordinateur et compréhension du langage naturel.

Les VLMs sont nés de l’évolution fulgurante de la vision par ordinateur : du traitement du signal aux réseaux de neurones convolutifs (CNN), puis aux transformers et à l’exploitation de gigantesques ensembles de données image-texte collectées sur le web. OpenAI a accéléré le domaine en 2021 avec la publication des poids de CLIP, démontrant que l’apprentissage contrastif sur des centaines de millions de paires image/texte permettait d’obtenir des capacités de reconnaissance et de recherche zero-shot très robustes.
En d’autres termes, il devenait possible pour un data scientist de comparer une image et un texte sans entraîner de modèle. Depuis, les VLMs ont rapidement évolué vers des systèmes toujours plus vastes et généralistes.

Ces modèles de fondation permettent aujourd’hui de valider rapidement des cas d’usage sans construire une pipeline complète.

Par exemple, eleven a développé en quelques jours un POC de détection d’erreurs de recyclage pour une entreprise du BTP, sans devoir collecter des milliers d’images.
>Ces approches se révèlent également utiles dans la compréhension documentaire pour les banques et les assurances, afin de repérer certains schémas de fraude,  ou encore dans l’interprétation automatisée de tableaux de bord, pour fournir une synthèse quotidienne aux dirigeants d’un fonds de Private Equity.

Du POC à l’industrialisation : deux voies possibles

Une fois la valeur démontrée par le POC, deux scénarios se présentent :

  • soit le cas d’usage est ciblé et restreint,
  • soit il requiert au contraire une compréhension plus large.

Dans le premier cas, les méthodes classiques de vision par ordinateur peuvent renforcer la précision et la robustesse.

L’usage de modèles CNN légers suffit souvent, mais on peut aussi exploiter des modèles transformers préentraînés comme DINOv3 pour gagner rapidement en performance.

Ce type d’approche a permis à eleven d’atteindre un haut niveau de précision pour identifier des Regions of Interest sur des images satellites.

Dans le second cas, l’approche VLM peut être nettement optimisée.

Cela peut passer par une amélioration du modèle lui-même, en optant pour un modèle plus performant ou, s’il est hébergé en interne, en procédant à un léger finetuning,  mais aussi par un travail d’itération sur les prompts avec les utilisateurs métiers, afin d’affiner les paramètres les plus efficaces.

Ainsi, eleven a pu finetuner des modèles de génération d’images pour un grand acteur du luxe afin qu’ils reflètent mieux la tone of voice visuelle de la marque, à un coût d’entraînement très faible.

Grâce à l’évolution rapide des techniques de vision par ordinateur, et plus particulièrement des VLMs, exploiter les images et les vidéos n’a jamais été aussi simple.

Chaque industrie devrait envisager ces approches pour libérer la valeur encore sous-estimée de ses actifs visuels.

Chez eleven, nous accompagnons les entreprises de la preuve de concept jusqu’à l’industrialisation de leurs cas d’usage, qu’il s’agisse de reconnaissance visuelle, d’analyse documentaire ou de génération d’images sur mesure.

📩 Contactez nos équipes pour identifier les cas d’usage à fort impact et construire une feuille de route IA adaptée à vos enjeux métiers.

Sur le même sujet

En cliquant sur « s’inscrire », vous acceptez de recevoir nos communications marketing

En cliquant ci-dessous, vous acceptez d’être redirigé vers le réseau social choisi

nous suivre

Tous droits réservés eleven ©2025