Bientôt des "modèles du monde" avec V-JEPA ?

L'affreux · 13 juin 2025

Le modèle V-JEPA 2 vient de sortir : https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

Citation

Meta Video Joint Embedding Predictive Architecture 2 (V-JEPA 2) is a world model that achieves state-of-the-art performance on visual understanding and prediction in the physical world. Our model can also be used for zero-shot robot planning to interact with unfamiliar objects in new environments.

Ce n'est pas un LLM mais un "world model" (modèle du monde), c'est-à-dire un modèle qui serait capable de comprendre le monde. Le principe est de raisonner sur une représentation abstraite (c'est-à-dire, je suppose, sur le sens des choses) au lieu de raisonner sur les données brutes (des pixels et autres signaux sans traitements). Il me semble avoir entendu Yann Le Cun dire quelque part que ces modèles auront un jour des sentiments, comme le stress, un sentiment d'accomplissement ou de déception, cela sera un effet de leur capacité d'anticipation.

Mégille · 24 mars

A propos des modèles de mondes, et de Yan LeCun. Impossible de prévoir à l'avance ce qui marchera ou pas, mais que pensez vous de l'idée ?

Intuitivement, il me semble évident que notre intelligence n'est pas que, voire pas d'abord, langagière.

Mais à la fois :

- Peut-être bien que notre intelligence est redondante, que ce que l'un fait avec avec son intelligence visuelle, un autre le fait avec son intelligence verbale, etc, et partant de là, peut-être bien que les LLM peuvent bien réussir à faire avec une intelligence purement verbale tout ce que nous faisons, ne serait-ce que grâce à leur quantité de donnés et leur consommation d'énergie supérieures.

- En lien avec le point précédent, sans doute que le langage suppose un certain modèle du monde (le système des temps verbaux par exemple est une certaine modélisation, rudimentaire, de la réalité extra-linguistique qu'est le passage du temps). Sans ceci, notre intelligence verbale n'aurait sans doute aucune emprise sur nos autres façons d'appréhender le monde. Et partant de là, peut-être que les LLM ont déjà de très bons "world models".

- Les world models qu'essaie de construire le Cun, de ce que j'en comprends, sont essentiellement entrainés sur des données audio-visuelles. Ca suppose une conception de l'intelligence humaine comme très passive, un peu comme Condillac qui imaginait qu'une statue à laquelle ont donnerait des sens finirait par comprendre le monde, sans avoir à bouger. Mais à partir de la façon dont apprennent les enfants, et à partir de l'évolution de l'intelligence, il me semble plus pertinent de juger que le modèle du monde vient d'abord de sa manipulation, au sein de laquelle la perception joue un rôle important, mais seulement en tant que rétro-action (et souvent déjà orienté vers l'action : on perçoit les choses en fonction de nos interactions possibles avec elles).

De tout ceci, je conclus que ce que bricolera le Cun sera de "larges modèles audiovisuels", pas plus proches de l'intelligence humaine que les LLM. Peut-être qu'ils contiendront eux aussi des modèles du monde, ceci dit.

fm06 · 24 mars

Les psys distinguent trois niveaux: sensoriel, émotionnel, intellectuel. Pour un “world model” complet il faudra maîtriser les trois niveaux.

Les IA ont déjà de bonnes capacités sensorielles. Les LLMs ont de bonnes capacités intellectuelles. Le niveau émotionnel reste à mon avis très mal compris.

Sloonz · 24 mars

Très bearish sur l’idée, personnellement.

Déjà, je pense que tu as mal compris l’idée. La distinction n’est pas texte vs audio/image (s’il parle tant d’images, c’est que JEPA est bien plus compliqué à formuler dans le domaine linguistique, mais probablement pas impossible). De 1, la plupart des modèles actuels sont déjà multimodaux au moins en entrée, et l’idée de "image-only, pour le texte on met l’image d’un texte", ce n’est pas JEPA, c’est DeepSeek OCR (qui comme son nom ne l’indique pas n’est pas un OCR, suivez un peu au fond de la salle !). De 2, sa notion de "world model" est abstraite, il s’agit d’avoir une représentations abstraite (de bien plus faible dimension) des données d’entrées. Il est très très fortement conjecturé (essentiellement admis) que tout réseau de neurone développe "automatiquement"/"implicitement" un "world model"/représentation latente.

JEPA veut simplement rendre cette étape explicite et contrôlable, au lieu d’être laissée à la merci du processus d’entraînement.

Si je suis bearish, c’est que l’expérience montre qu’entraîner un modèle de bout en bout marche généralement mieux que de "découper" en "composants" de manière subtile (et la seule raison valable de ne pas le faire est que c’est trop cher/trop demandant en puissance de calcul). Il y a quelques exceptions à cette règle, mais elles se font rares. On est déjà certains/quasi-certains que les modèles ont déjà un world model. Le pari de LeCun c’est qu’il peut coder une version quasiment explicite (dans le sens où il définit explicitement l’objectif de cette étape de représentation), et en tirer un énorme gain. Je suis dubitatif sur les deux points.

Connexion

Bientôt des "modèles du monde" avec V-JEPA ?

Messages recommandés

L'affreux

Mégille

fm06

Sloonz

Créer un compte ou se connecter pour commenter

Créer un compte

Se connecter

Naviguer

Activité