Genie 3 : Le créateur de mondes
Avec l’arrivée du modèle très anticipé GPT-5, cette semaine s’annonce déjà comme l’une des plus mouvementée dans l’écosystème IA et il est facile de passer à côté de ce que Google vient de dévoiler. Avec Genie 3, ils viennent de franchir un cap qui va révolutionner des industries entières.
Temps de lecture: 4 minutes
Contexte
Depuis 2 ans, Google, qui était laissé pour mort, a pris petit à petit le dessus dans la course de l’IA face à OpenAI. La rivalité semble atteindre un pic et chacun cherche à se démarquer alors que leurs modèles internes ont tous deux obtenu la médaille d’or aux olympiades de mathématiques 2025.
Tandis que le modèle GPT-5 va définir le futur de la startup et espère détrôner les modèles du géant tech, Google DeepMind a fait, peut-être, l’annonce la plus importante : Genie 3. C’est selon moi une claque monumentale qui mélange un sentiment d’euphorie et de choc.
Qu’est-ce que Genie 3 ?
Un créateur de monde interactif, en temps réel. Tout simplement
Sur papier, c’est :
- Un monde entièrement généré avec un prompt
- Une résolution de 720p, 24 images par secondes
- Plusieurs minutes d’interactivité
A partir d’une description ou d’une image, le modèle créer un monde avec lequel vous pouvez interagir, comme dans un jeu vidéo. Par interagir, je veux dire se déplacer, et effectuer des actions qui ont des répercussions.
Il faut comprendre que les actions sont gardées en mémoire et que le monde virtuel reste consistant. Genie 3 permet également de créer des événements par requête. Un prompt et ce qui est décrit apparait.
Pourquoi c’est important
Le but est de proposer des environnements et scénarios virtuellement illimités. Dans l’objectif d’une robotisation générale, cela permet aux agents AI de s’entraîner sans répercussions. Pensez à Tesla qui peut améliorer son autopilotage à travers des simulations ou un chirurgien IA qui peut perfectionner des millions de fois une procédure critique.
Pour l’industrie du jeu vidéo : Genie 3 pose des questions existentielles. Pourquoi passer des années à coder un monde quand on peut le générer en temps réel – Et combien de portes cela ouvre au possible ? GTA VI, qui est le jeu le plus anticipé de sa décennie, promet un monde ouvert et un réalisme à couper le souffle. Mais il sera, selon moi, le dernier jeu de son genre. Car ces modèles ouvrent des perspectives inégalables dans l’industrie du divertissement ; que ce soit à travers les jeux ou le cinéma, à des coûts dérisoires.
Pour l’instant le modèle n’est pas disponible au grand public et a évidemment beaucoup de limitations. Mais il faut garder en tête que c’était également le cas du premier modèle Imagen 1 de Google. Et aujourd’hui, deux ans après, Imagen 4 est disponible.
Une compréhension du monde
Ayant étudié à l’EPFL en génie mécanique, je sais à quel point il est difficile de modéliser des interactions dynamiques. Par exemple, si l’on veut modéliser des fluides, les équations de Navier-Stokes demandent énormément de ressources de calculs et sont considérées très complexes pour des machines classiques.
Mais les modèles comme Veo 3 et Genie 3 ont une capacité étonnante à modéliser avec précision des interactions de ce genre. Ils sont notamment très bon pour simuler des éclats d’eau, etc. Ces capacités surgissent sans avoir implémenté des formules théoriques dans les modèles ni en essayant d’atteindre cet objectif. A la place, ces derniers arrivent à extraire les structures sous-jacentes des interactions entre les différents matériaux par rétro-ingénierie des vidéos Youtube qui forment leur data d’entraînement.
Les perspectives futures
Il est impossible pour moi de quantifier le nombre de jobs qui vont être impactés par ces évolutions. Evidemment cela pose beaucoup de questions.
D’un point de vue technique, il ne serait pas étonnant qu’en suivant cette courbe de progression, dans quelques années, des modèles spécialisés surpassent les modèles classiques de modélisation couramment utilisés. On pourrait même peut-être approcher une résolution à la question P vs NP.
Philosophiquement, il est important de se demander dans quelle mesure ces modèles sont intelligents ? Il me semble évident qu’ils comprennent très bien leurs environnements ; dans le sens qu’ils arrivent à prédire de manière réaliste (et mieux que n’importe quel humain) les prochaines trajectoires à partir d’événements passés et d’une situation initiale. Et qu’en est-il de nous, de notre environnement ? Si nous arrivons à créer des simulations aussi complexes et élaborés, rien ne nous assure que nous n’en faisons pas partie d’une.
Voilà, je tenais à écrire sur ce sujet qui, selon moi, n’a pas eu assez d’attention médiatique. Ce matin je pensais finir d’écrire un article sur un projet personnel mais ça attendra.