AI時代の『身体』：どのように捉えるべきか

先週の週末、Open AIは新しいサービスSoraを公開しました。Soraはテキストを入力してAI動画を作成できるため、公開直後からレビューアーたちの称賛を集めています。公開されたデモ動画は、ハンバーガーを食べる中年男性のスローモーション映像、2人が歩く日本の街を捉えた俯瞰ショットなど、CFや映画で企画・演出・撮影されたシーンに匹敵する高いレベルのリアリティを示しています。

Open AIは同日に公開した技術レポートで、Soraをワールドシミュレーターと表現しました。テキストによる抽象化とパラメータ空間の接続によって、これほどまでに現実的な抽象化が可能であれば、今後のGPTモデルの推論能力に計り知れない影響を与えるでしょう。その意味は、人間社会に登場したAIの影響力という観点から見て、実に計り知れないものと言えるでしょう。

https://play-tv.kakao.com/embed/player/cliplink/rv4bqfvi1rq49f96sh1gmfm02@my?service=daum_brunch&section=article&showcover=1&showinfo=0&extensions=0&rel=0

プロンプト：人物が走っているステッププリントシーン、35mmフィルムで撮影されたシネマティックな映画ショット。

しかし、Soraにはまだ多くの課題も存在します。人がクッキーを一口かじったのに、その後クッキーにかじった跡が消えてしまったり、ランニングマシンで走っている人が、操作盤のある前ではなく後ろを向いたまま、不自然な手足の動きで走っているシーンなど、ユーザーが提示したプロンプト内の空間的な詳細や、時間経過に伴う変化などを正確に理解し、表現することに不足が見られます。このような原因と結果のつながった事例、複雑なシーンにおける物理学の実装に苦労しているということは、AIはまだ世界を正しく理解できていないことの証明でもあります。しかし、Open AIが3,500万枚の高解像度写真および動画を保有するShutter Stockとの契約を通じて、今後6年間AIをさらに学習させる計画であるという23年度の発表を考慮すると、今後のAI生成画像と動画は、人間の制作したレベルにますます近づいていくと予想するのは容易です。

イギリスの考古学者デイビッド・ウェングロウは、2013年に発表した著書『モンスターの起源』の中で、原始エジプトからメソポタミア文明、地中海鉄器時代に至るまで、都市が形成され、文明が活発に花開き、政治および商業ネットワークが拡大した時期には、幻想的で複合的な非現実的な生物の視覚的イメージが作られ、広まらなかった地域はなかったと主張しています。

ロシア南部のパジリクとツェクタの古墳からの幻想的な生き物の画像

ライオンの胴体に、鷲の頭と翼が加わったグリフィン、人間の身体と牛の頭が合体したミノタウロスなどの合成怪物（かいごうかいぶつ）のグラフィック描写が、当時の住民によって様々な壁画や文献に記録され、当時のエリート層の正当化のために拡大された交易路に沿って伝えられたとされています。このように、様々な種の四肢やその他の特徴を分離し、それを再構成して、目に見えない拡張された世界に対応する存在のイメージを作り出す現象は、生産活動において、親族関係を中心とした自分たちが『全体』だと考えていた視点が、拡大された社会の変化に伴い、これまで出会ったことのない人々との分業の増加により、自らが実感した『部分』としての自覚とそのことによる恐怖と関連して発生したと解釈できます。言い換えれば、合成物の創作と技術の発展によって確認された自己認識と関係性の発見が、彼が共有したいメッセージの一つであるということです。

私たちは、昨年からMidjourney、DALL-EなどのAI画像生成プログラムを通じて、ローマ時代のスパイダーマンの像、馬に乗って月面を移動する宇宙飛行士、3本の腕で絵を描いているロボットなど、人間の身体の限界を超えた興味深くも奇妙な画像を無数に確認しています。そして、今回発表されたSoraによって、さらに多くのAI生成動画の普及が加速するでしょう。重要なのは、初期人類史の記録とともに繰り返されている怪物、つまり合成物の描写と社会的伝達（でんたつ）が、今の生成AIの時代で再現されている点です。この流れは、単なるトレンドという表現では収まりきらない、今の時代の世界を包み込んでいる『バイブ』と表現できるでしょう。この表現は目新しくはありませんが、私たちが今、AI時代へと向かう注目すべき転換点に立っているように思えるため、この流れをもう少し真剣に受け止める必要があるでしょう。

長文の論証、説明が存在し得ないX、最も多く消費され、中毒性が高いYouTube、TikTok内のShorts動画は文脈化されていない画像の社会的消費現象を証明します。ますます瞬間的で連想的な詩的なイメージが重要になり、それは곧何を情報とみなすかを示す従来の解釈に関する視点が覆されたことを意味します。

要するに、何を観るかではなく、どのように観るかという変化が必要だということです。

身体と関連するトレンドや現象について、もう少し意味論的に、分析的に、異なる初期のアプローチを選択する必要があります。Guess、カルバン・クラインのマーケティングキャンペーンにおけるモデル軍団の美学ではなく、様々な身体そのままを堂々と表現するランジェリーブランドの哲学が認められ、男なのか女なのか分からない唇の上のピンク色の口紅のイメージが10代の若者に訴求する効果的な戦略の象徴となった時代です。技術の未来を想像し、技術の発展について議論する際に必ず共存するのは人間の身体です。人間の身体をどのように観るかという問いは、今後ますます複雑化し、重要になっていくでしょう。

参考文献

テキストから動画を作成する

動画生成モデルをワールドシミュレーターとして

OpenAIのDALL-Eは、今後6年間、Shutterstockのライブラリでトレーニングを受ける

モンスターの起源

コメント0