Le corps à l'ère de l'IA : comment le percevoir ?

Le week-end dernier, Open AI a dévoilé son nouveau service, Sora. Sora permet de créer des vidéos d'IA à partir d'une entrée textuelle, ce qui lui a valu les éloges des critiques dès sa sortie. Les vidéos de démonstration publiées, réalisées à partir de quelques lignes de texte simples, montrent un homme d'âge mûr mangeant un hamburger en slow motion, une vue plongeante d'une rue japonaise où deux personnes se promènent, etc. Ces vidéos atteignent un niveau de réalisme comparable à celui de scènes conçues, réalisées et filmées pour des publicités ou des films.

Dans le rapport technique publié le même jour, Open AI a qualifié Sora de « simulateur mondial ». Si une telle abstraction réaliste est possible grâce à l'abstraction textuelle et à sa connexion avec l'espace des paramètres, cela aura un impact énorme sur les capacités de raisonnement des futurs modèles GPT. L'importance de ce développement est immense en termes d'influence de l'IA sur la société humaine.

https://play-tv.kakao.com/embed/player/cliplink/rv4bqfvi1rq49f96sh1gmfm02@my?service=daum_brunch&section=article&showcover=1&showinfo=0&extensions=0&rel=0

Invite : Scène d'une personne courant en impression par étapes, prise de vue cinématographique en 35 mm.

Cependant, Sora présente encore de nombreuses limites. Par exemple, une personne mord dans un biscuit, mais la marque de la morsure disparaît ensuite ; un individu court sur un tapis roulant, mais il regarde vers l'arrière au lieu de la console de commande, et ses mouvements de bras et de jambes sont maladroits. Ces exemples montrent que Sora a encore des difficultés à comprendre et à représenter avec précision les détails spatiaux et les changements temporels inclus dans les invites des utilisateurs. Ces difficultés à relier cause et effet, et à reproduire la physique dans des scènes complexes, démontrent que l'IA ne comprend pas encore parfaitement le monde. Toutefois, compte tenu de l'annonce faite en 2023 concernant un contrat avec Shutter Stock, qui détient 35 millions de photos et de vidéos haute résolution, et qui permettra à l'IA d'apprendre pendant six ans, il n'est pas difficile d'imaginer que les images et les vidéos générées par l'IA se rapprocheront davantage du niveau de qualité des productions humaines dans un avenir proche.

Dans son ouvrage « L'origine des monstres » (The Origins of Monsters), publié en 2013, l'archéologue britannique David Wengrow soutient que, depuis l'Égypte primitive en passant par la civilisation mésopotamienne et l'âge du fer méditerranéen, à une époque où les villes se formaient, les civilisations prospéraient et les réseaux politiques et commerciaux s'étendaient, on ne trouvait nulle part une région où des images visuelles de créatures fantastiques et complexes, irréalistes, n'étaient pas créées et diffusées.

Le corps à l'ère de l'IA : comment le percevoir ?

Images de créatures fantastiques provenant des kourganes de Pazyryk et de Tuekta, dans le sud de la Russie

La représentation graphique de chimères comme la griffon, avec son corps de lion, sa tête et ses ailes d'aigle, ou le minotaure, avec son corps humain et sa tête de taureau, était gravée par les habitants de cette époque sur des fresques et des documents, et diffusée le long des routes commerciales élargies pour justifier le statut de l'élite de l'époque. Le fait de dissocier les membres ou d'autres caractéristiques de différentes espèces et de les recombiner pour créer l'image d'une entité qui reflète un monde étendu invisible peut être interprété comme une conséquence de la transformation sociale qui a conduit à une augmentation de la division du travail avec des personnes jamais rencontrées auparavant, ce qui a fait passer la perspective des groupes familiaux qui se considéraient comme le « tout » à une conscience d'eux-mêmes en tant que « partie » dans une société élargie, et qui a généré peur et incertitude. En d'autres termes, la découverte de la relation entre la création d'objets composites et la conscience de soi, révélée par les progrès technologiques, est l'un des messages que l'auteur souhaite faire passer.

Depuis l'année dernière, nous avons déjà pu voir une multitude d'images intéressantes, mais étranges, générées par des programmes d'IA comme Midjourney et DALL-E, comme une statue de Spider-Man à l'époque romaine, un astronaute chevauchant un cheval sur la surface lunaire ou un robot à trois bras en train de peindre. Et avec Sora, qui vient d'être dévoilé, la diffusion de vidéos générées par l'IA va s'accélérer. L'important, c'est que la représentation de monstres, c'est-à-dire d'objets composites, et leur diffusion sociale, qui se répète à travers l'histoire de l'humanité depuis ses premiers écrits, se reproduisent à notre époque, à l'ère de l'IA générative. Ce courant est ce qu'on pourrait appeler la « vibe » (ambiance) qui enveloppe le monde d'aujourd'hui, une expression qui ne se résume pas simplement à une tendance. Cette expression n'est pas nouvelle, mais nous semblons nous trouver à un tournant important de notre transition vers l'ère de l'IA, il est donc nécessaire de prendre ce courant plus au sérieux.

Les vidéos courtes de YouTube et TikTok, qui se caractérisent par l'absence de longs arguments ou d'explications, et qui sont très consommées et addictives, témoignent de la consommation sociale d'images décontextualisées. Les images poétiques, instantanées et associatives sont de plus en plus importantes, ce qui signifie que les perspectives traditionnelles liées à l'interprétation, qui indiquaient ce qui était considéré comme de l'information, ont été renversées.

En résumé, il ne s'agit plus de savoir quoi regarder, mais comment regarder.

Il est nécessaire d'adopter une approche différente, plus sémantique et analytique, pour aborder les tendances et les phénomènes liés au corps humain. À une époque où la philosophie de marques de lingerie qui mettent en avant la beauté de tous les corps est reconnue, et où l'image d'une lèvre rose sur une bouche dont on ne sait pas si elle appartient à un homme ou à une femme est devenue un symbole d'une stratégie efficace pour toucher les adolescents, plutôt que de s'attarder sur l'esthétique des mannequins des campagnes marketing de Guess ou de Calvin Klein. Lorsqu'on imagine le futur des technologies et qu'on débat de leurs avancées, le corps humain est toujours présent. La question de la façon dont nous percevons le corps humain deviendra de plus en plus complexe et importante à l'avenir.

Références

Créer une vidéo à partir de texte

Les modèles de génération de vidéo en tant que simulateurs mondiaux

Le DALL-E d'OpenAI sera formé sur la bibliothèque de Shutterstock pendant six années supplémentaires

Les origines des monstres

Commentaires0