Era AI a ciało: Jak je postrzegać?

W miniony weekend Open AI zaprezentowało nową usługę Sora. Sora umożliwia tworzenie filmów AI na podstawie wprowadzonego tekstu, co od razu po premierze spotkało się z uznaniem recenzentów. Prezentowane filmy demonstracyjne, stworzone za pomocą kilku prostych linijek tekstu, prezentują wysoki poziom realizmu, dorównujący scenom planowanym, reżyserowanym i filmowanym na potrzeby reklam lub filmów. Przykłady to film w zwolnionym tempie przedstawiający dojrzałego mężczyznę jedzącego hamburgera oraz ujęcie lotnicze japońskiej ulicy z dwoma idącymi osobami.

Open AI w opublikowanym tego samego dnia raporcie technicznym określiło Sorę jako symulator świata.Jeśli tego rodzaju realistyczna abstrakcja jest możliwa dzięki abstrakcji tekstowej i połączeniu z przestrzenią parametrów, to w przyszłości będzie to miało ogromny wpływ na zdolności wnioskowania modeli GPT. Znaczenie tego jest wręcz ogromne z punktu widzenia wpływu AI na społeczeństwo.

https://play-tv.kakao.com/embed/player/cliplink/rv4bqfvi1rq49f96sh1gmfm02@my?service=daum_brunch&section=article&showcover=1&showinfo=0&extensions=0&rel=0

Prompt: Scena osoby biegnącej w technice step-printing, ujęcie filmowe w stylu 35mm.

Sora nadal boryka się jednak z wieloma ograniczeniami. Na przykład, osoba gryzie ciasteczko, ale później ślad ugryzienia znika, a człowiek biegający na bieżni porusza się w niezręczny sposób, patrząc w przeciwną stronę niż panel sterowania, zamiast przed siebie. To pokazuje, że Sora ma problemy z dokładnym rozumieniem i przedstawianiem szczegółów przestrzennych zawartych w podanych przez użytkownika instrukcjach, a także zmian zachodzących w czasie. Nieumiejętność przedstawienia powiązanych ze sobą przykładów przyczyny i skutku, a także trudności z implementacją fizyki w złożonych scenach świadczą o tym, że AI wciąż nie rozumie świata w pełni. Jednak biorąc pod uwagę ogłoszoną w 2023 roku umowę Open AI z Shutter Stock, która posiada 35 milionów zdjęć i filmów w wysokiej rozdzielczości, oraz plany dalszego szkolenia AI przez kolejne 6 lat, można bez trudu założyć, że w przyszłości generowane przez AI obrazy i filmy będą coraz bardziej zbliżone do poziomu tworzonych przez ludzi.

Brytyjski archeolog David Wengrow w swojej książce „Pochodzenie potworów” (The Origins of Monsters) opublikowanej w 2013 roku twierdzi, że w okresie od starożytnego Egiptu przez cywilizację mezopotamską po epokę żelaza w basenie Morza Śródziemnego, w czasach, gdy powstawały miasta i rozkwitały cywilizacje, a wraz z nimi rozwijały się sieci polityczne i handlowe, nie było regionu, w którym nie rozpowszechniano się wizualnych obrazów fantastycznych i złożonych, nierealnych stworzeń.

Obrazy fantastycznych stworzeń z kurhanów Pazyryk i Tuekta, południowa Rosja

Grafiki przedstawiające stworzenia hybrydowe, takie jak gryf z ciałem lwa, głową i skrzydłami orła, czy minotaur z ludzkim ciałem i głową byka, były utrwalane na malowidłach ściennych i w pismach przez ówczesnych ludzi i rozprzestrzeniane wzdłuż rozbudowanych szlaków handlowych, aby uzasadniać pozycję elit. Zjawisko to, polegające na rozdzielaniu i ponownym łączeniu różnych części ciała i cech różnych gatunków w celu stworzenia obrazu istoty odpowiadającej niewidzialnemu, rozszerzonemu światu, można interpretować jako wynik zmiany społecznej, która sprawiła, że dotychczasowe spojrzenie na własną grupę jako „całość” zostało zastąpione świadomością „części” w wyniku zwiększonej specjalizacji pracy z ludźmi, których nigdy wcześniej nie spotkano. Jest to związane z lękiem wynikającym z tej świadomości. Innymi słowy, odkrycie związku między tworzeniem kompozycji i postępem technologicznym a samowiedzą to jeden z przekazów, które autor chce przekazać.

Od zeszłego roku dzięki programom do generowania obrazów AI, takim jak Midjourney czy DALL-E, widzimy niezliczone interesujące, aczkolwiek dziwaczne obrazy, np. posąg Spider-Mana z czasów rzymskich, astronautę na Księżycu jadącego na koniu czy robota z trzema ramionami malującego obraz. Teraz, wraz z pojawieniem się Sory, możemy spodziewać się jeszcze szybszego rozpowszechnienia generowanych przez AI filmów. Kluczowe jest to, że opis potworów, czyli kompozycji, i ich społeczne rozpowszechnianie, które powtarza się w zapiskach z początków historii ludzkości, odradza się w dzisiejszej erze AI. Ten trend można określić mianem „wibracji” (vibe) otaczającej świat w obecnych czasach – określenie to wykracza poza prostą etykietkę „trendu”. Ponieważ wydaje się, że znajdujemy się w punkcie zwrotnym w drodze do ery AI, warto traktować ten trend poważnie.

Długie formy argumentacji i wyjaśnień nie mają miejsca w serwisach typu X, a najbardziej konsumowane i uzależniające filmy z YouTube i TikToka (shorts) świadczą o społecznym konsumowaniu zdekontekstualizowanych obrazów. Coraz większe znaczenie mają ulotne, skojarzeniowe obrazy poetyckie, co z kolei oznacza zmianę tradycyjnych perspektyw interpretacyjnych określających to, co jest uważane za informację.

Krótko mówiąc, nie chodzi już o to, co oglądamy, ale o to, jak oglądamy.

Należy dokonać innego, bardziej znaczeniowego i analitycznego podejścia do trendów i zjawisk związanych z ciałem. To czas, gdy filozofia marki bielizny, która odważnie promuje różnorodność ciał, zyskuje uznanie zamiast estetyki prezentowanej w kampaniach marketingowych Guess czy Calvin Klein. To czas, gdy obraz różowej szminki na ustach, niezależnie od płci, staje się symbolem skutecznej strategii dotarcia do nastolatków. Przyszłość technologii i dyskusje na jej temat zawsze obejmują ciało człowieka. Pytanie o to, jak postrzegamy ludzkie ciało, będzie coraz bardziej złożone i istotne.

Bibliografia

Tworzenie wideo na podstawie tekstu

Modele generowania wideo jako symulatory świata

DALL-E od OpenAI będzie trenowany na bibliotece Shutterstock przez kolejne sześć lat

Pochodzenie potworów

Komentarze0