На прошлых выходных Open AI представила новый сервис Sora. Sora позволяет создавать AI-видео на основе текстового запроса, и с момента своего появления он уже получил восторженные отзывы от рецензентов. Демонстрационные ролики, созданные с помощью нескольких простых текстовых строк, демонстрируют невероятно реалистичные сцены, сравнимые с кадрами из рекламных роликов или фильмов, например, замедленное видео с мужчиной средних лет, кушающим гамбургер, или панорамный снимок с высоты птичьего полета на японскую улицу, где идут двое людей.
В опубликованном в тот же день техническом отчете Open AI назвала Sora «мировым симулятором».Если абстракция на основе текста и связь с пространством параметров позволяют достичь такого уровня реалистичной абстракции, то это окажет огромное влияние на будущие возможности вывода моделей GPT. Значение этого события с точки зрения влияния ИИ на общество поистине огромно.
Запрос: Сцена печати шагов бегущего человека, кинематографический кадр, снятый на 35-мм пленку.
Однако у Sora все еще есть множество ограничений. Например, человек откусывает печенье, но затем отметка от укуса исчезает, или человек бежит на беговой дорожке, но смотрит не вперед на панель управления, а назад, при этом его движения рук и ног выглядят неестественно. Эти примеры показывают, что Sora испытывает трудности с точным пониманием и отображением пространственных деталей, заданных пользователем, а также изменений, происходящих с течением времени. Неспособность отразить связанные события, например, причину и следствие, и трудности с реалистичной моделью физики в сложных сценах являются свидетельством того, что ИИ все еще не полностью понимает мир. Однако, учитывая заявление Open AI 2023 года о заключении контракта с Shutter Stock, владеющим 35 миллионами высококачественных фотографий и видео, на 6 лет для дальнейшего обучения ИИ, нетрудно предположить, что в будущем AI-изображения и -видео будут еще больше приближаться к качеству контента, созданного людьми.
В своей книге «Происхождение чудовищ», опубликованной в 2013 году, британский археолог Дэвид Уэнгроу утверждает, что с момента формирования городов и расцвета цивилизаций, от древнего Египта и Месопотамии до железного века в Средиземноморье, когда политические и торговые сети расширялись, ни один регион не избежал распространения фантастических и сложных нереалистичных образов живых существ.
Изображения фантастических существ из пазырыкских и туэктинских курганов, Южная Россия
Графические изображения химер, таких как грифон с телом льва, головой и крыльями орла, или минотавр с телом человека и головой быка, создавались людьми того времени и запечатлены на различных фресках и в письменных источниках. Согласно утверждению Уэнгроу, эти изображения распространялись по расширяющимся торговым путям для легитимации положения элиты. Разделение различных частей тела или других характеристик различных видов и их перекомпоновка с целью создания образа существа, соответствующего невидимому расширенному миру, — это явление, которое можно интерпретировать как следствие изменения общества. В результате роста разделения труда, вызванного расширением общества, люди, привыкшие рассматривать свою группу как «целое» в рамках родственных связей, осознали себя «частью» этого расширенного общества, столкнувшись с никогда прежде не встречавшимися людьми, что вызвало страх и тревогу. Другими словами, обнаружение связи между созданием композитных образов, технологическим прогрессом и самосознанием является одним из посланий, которое автор стремится донести.
Еще с прошлого года мы наблюдаем бесчисленное множество интересных, но причудливых изображений, созданных с помощью программ генерации изображений на основе ИИ, таких как Midjourney и DALL-E: статуя Человека-паука времен Римской империи, астронавт, едущий верхом на лошади по поверхности Луны, робот с тремя руками, рисующий картину. А с представленной недавно Sora распространение AI-видео только ускорится. Важно отметить, что описания чудовищ, то есть композитных образов, и их социальное распространение, которые повторяются на протяжении всей ранней истории человечества, повторяются и в нынешнюю эпоху генеративного ИИ.Этот тренд трудно назвать просто трендом, это скорее «вибрация», которая пронизывает весь мир в эту эпоху. Этот термин не нов, но мы, похоже, находимся на значительной точке перегиба в нашем движении в эру ИИ, поэтому нам необходимо более серьезно отнестись к этому тренду.
Длинные аргументированные или объяснительные тексты не имеют места в формате X (TikTok, YouTube Shorts), который является наиболее востребованным и обладает высокой степенью зависимости. Это свидетельствует о феномене социального потребления деконтекстуализированных изображений. Изображения, основанные на ассоциациях и имеющие поэтическую природу, становятся все более важными. Это означает, чтотрадиционная точка зрения на интерпретацию, определяющая, что считается информацией, опровергнута.
Короче говоря,необходимо перейти от вопроса «что смотреть» к вопросу «как смотреть».
Необходимо выбрать другой, более семантический и аналитический подход к изучению трендов и явлений, связанных с телом. В эпоху, когда философия бренда нижнего белья, который отстаивает естественную красоту различных тел, получает признание, а не эстетика армии моделей в рекламных кампаниях Guess или Calvin Klein, и когда образ губ с розовой помадой, пол неизвестен, становится эффективной стратегией для привлечения внимания подростков, необходим иной подход. При воображении будущего технологий и обсуждении технологического прогресса нельзя забывать о человеческом теле. Вопрос о том, как мы смотрим на человеческое тело, станет еще более сложным и важным в будущем.
Ссылки
Комментарии0