Quand les robots se mettent à réfléchir avant de bouger (enfin)
Quand les robots se mettent à réfléchir avant de bouger (enfin)
Une nouvelle génération de modèles apprend aux machines à imaginer ce qui va se passer avant de lever le bras. Et accessoirement, à se former en regardant YouTube comme nous tous un dimanche pluvieux.
Pendant des années, l'apprentissage robotique a ressemblé à un jeu de Pavlov un peu sophistiqué : on montre une image au robot, il sort un geste. Voir, agir, recommencer. Le tout sans la moindre idée de ce qui va effectivement se produire quand la pince se referme sur le verre en cristal de mamie. C'est efficace pour empiler des cubes dans un laboratoire bien éclairé, beaucoup moins quand le monde réel s'invite avec ses ombres, ses surfaces glissantes et ses chats qui passent au mauvais moment. Les World Action Models, dont une synthèse récente compile une centaine de travaux, proposent un changement de logiciel assez radical : et si, avant de bouger, le robot se faisait une petite projection mentale du résultat ?
Un simulateur dans la tête de la machine
L'idée, sur le papier, est presque triviale — ce qui ne veut évidemment pas dire qu'elle est simple à implémenter. Plutôt que d'associer directement une perception à un mouvement, le robot apprend à modéliser la dynamique du monde qui l'entoure. Il construit, en interne, une sorte de simulateur compressé. Quand on lui propose une action, il peut en imaginer la conséquence probable avant de l'exécuter. Si la projection montre le verre qui se brise, on rejoue le coup avec une autre prise. C'est, en somme, ce que fait n'importe quel humain qui s'apprête à attraper un objet inhabituel : un coup d'œil, une micro-anticipation, puis le geste.
La synthèse en question recense environ une centaine de papiers et dégage deux grandes familles techniques pour bâtir ces modèles. La première regroupe les approches dites génératives, où le système apprend à produire directement les images ou les états futurs — un robot qui « rêve » la prochaine seconde, avec toutes les imperfections que cela suppose. La seconde mise sur des représentations latentes : on ne prédit pas les pixels, on prédit des abstractions, plus compactes, plus stables, et accessoirement plus rapides à manipuler. Chaque famille a ses partisans, ses bons résultats sur certains benchmarks et ses faiblesses sur d'autres. La cartographie proposée par les chercheurs sert justement à clarifier ce paysage devenu touffu en un temps record.
YouTube, immense salle de classe gratuite
Mais le vrai changement de paradigme se joue ailleurs, et il est presque vexant pour la communauté robotique classique. Pendant des années, entraîner un robot exigeait des données soigneusement étiquetées : chaque image associée à un vecteur d'action précis, capturé par téléopération ou par capteurs. Un travail de bénédictin, coûteux, lent, et qui produisait des jeux de données rachitiques comparés à ce dont se gavent les modèles de langage.
Les World Action Models, eux, peuvent apprendre depuis des vidéos brutes. N'importe lesquelles, ou presque. Une vidéo de cuisine, un tutoriel de bricolage, un type qui plie sa lessive en accéléré : autant de séquences où le monde se déforme sous l'effet d'actions, sans qu'aucune annotation ne précise « ici, le bras applique 12 newtons selon l'axe Y ». Le modèle infère lui-même la dynamique sous-jacente. Et YouTube, dans cette histoire, devient une ressource d'une valeur quasi indécente : des centaines de milliers d'heures de gestes humains, gratuites, déjà disponibles, qui dormaient jusqu'ici parce qu'on ne savait pas vraiment quoi en faire au-delà du divertissement et de la procrastination.
L'enjeu économique est colossal. Là où une démonstration téléopérée coûte du temps humain, une heure de vidéo récupérée en ligne coûte la bande passante pour la télécharger. Si la méthode tient ses promesses, c'est tout le rapport coût/échelle de l'apprentissage robotique qui bascule.
Reste évidemment à voir si la magie opère hors des papiers. Apprendre à prédire le futur dans une vidéo, c'est une chose. Transférer cette prédiction à un robot physique qui doit composer avec son propre corps, ses propres limites mécaniques et un monde qui ne ressemble jamais tout à fait à celui de YouTube, c'est une autre paire de manches. La littérature regorge déjà de démos impressionnantes qui s'effondrent dès qu'on change la couleur d'un mur. Mais la direction est intéressante : plutôt que de gaver les machines de plus en plus de données spécialisées, on leur donne un cadre pour modéliser le monde et anticiper. Soit, ni plus ni moins, ce qu'on appelle commencer à comprendre.
Et vous, vous feriez confiance à un robot qui a appris la cuisine en regardant des vidéos YouTube ?