A múlt hétvégén az Open AI bemutatta új szolgáltatását, a Sorát. A Sora szövegbevitel alapján képes mesterséges intelligencia által generált videók készítésére, és a megjelenése óta a szakértők elismerését vívta ki. A néhány soros szövegből létrehozott bemutató videók – például egy középkorú férfi lassított felvétele hamburger evés közben, vagy egy japán utca madártávlatból készített felvétele, ahol két ember sétál – olyan valósághűséget mutatnak, ami vetekszik a reklámokban vagy filmekben tervezett, rendezett és forgatott jelenetekkel.
Az Open AI a szolgáltatással egyidejűleg közzétett műszaki jelentésében a Sorát „világ szimulátornak” nevezi.Ha a szövegen keresztüli absztrakció és a paramétertér közötti kapcsolat révén ilyen valósághű absztrakció lehetséges, akkor ez óriási hatással lesz a jövőbeli GPT modellek következtetési képességére, és jelentősége az emberi társadalomban megjelenő mesterséges intelligencia hatásának szempontjából felbecsülhetetlen.
Prompt: Futó ember lépteinek nyomtatása, 35 mm-es filmfelvétel, moziszerű felvétel.
A Sorának azonban még mindig számos korlátja van. Például amikor egy ember harap egy kekszből, a harapás nyoma eltűnik, vagy amikor egy ember fut egy futópadon, furcsa mozdulatokkal a futópad hátsó része felé néz, nem pedig a vezérlőpult felé. Ezek a példák azt mutatják, hogy a rendszernek problémái vannak a felhasználó által megadott utasításokban szereplő térbeli részletek, valamint az idő múlásával bekövetkező változások pontos megértésével és megjelenítésével. Az ok-okozati összefüggések és a bonyolult jelenetekben a fizika megjelenítésének nehézségei azt is bizonyítják, hogy a mesterséges intelligencia még mindig nem képes megfelelően megérteni a világot. Azonban figyelembe véve az Open AI 2023-as bejelentését, amely szerint 35 millió nagy felbontású fényképet és videót tartalmazó megállapodást kötöttek a Shutter Stockkal, és a következő 6 évben tovább fogják képezni a mesterséges intelligenciát, nem nehéz elképzelni, hogy a mesterséges intelligencia által generált képek és videók a jövőben még közelebb kerülnek az emberek által készített tartalmakhoz.
David Wengrow brit régész 2013-ban megjelent „A szörnyek eredete” című könyvében azt állítja, hogy az ősi Egyiptomtól Mezopotámián át a mediterrán vaskorig, a városok kialakulása és a civilizációk virágzása, valamint a politikai és kereskedelmi hálózatok terjeszkedése idején mindenhol megjelentek a fantasztikus és összetett, irracionális lények vizuális ábrázolásai.
Fantasztikus lények képei a Pazyryk és Tuekta kurganokból, Dél-Oroszország
A griffmadár (egy oroszlán testével, sas fejével és szárnyaival), vagy a minotaurusz (emberi testtel és bikafejjel) képi ábrázolásai, amelyeket a kor emberei falfestményekre és írásos dokumentumokra rögzítettek, a korabeli elit pozíciójának igazolására szolgáltak, és a kibővített kereskedelmi útvonalak mentén terjedtek. A különböző fajok végtagjainak vagy egyéb jellemzőinek elkülönítése és újraegyesítése a láthatatlanul kiterjedt világnak megfelelő lények képének létrehozása céljából a termelési tevékenységekben a rokoni kapcsolatokon alapuló, „teljesnek” tartott nézőpontból a kibővített társadalmi változásokhoz kapcsolódóan, az addig ismeretlen emberekkel való együttműködés növekedésével, és az ebből fakadó „rész”ként való tudatossághoz, valamint a félelemhez kapcsolódik. Más szavakkal, a kompozitok létrehozása és a technológiai fejlődés által igazolt önismeret közötti kapcsolat felfedezése az egyik üzenet, amelyet közvetíteni szeretne.
Már a tavalyi év óta számos olyan érdekes, de furcsa képet láthattunk a Midjourney, a DALL-E és más mesterséges intelligencia alapú képgeneráló programok segítségével, amelyek az emberi test korlátait feszegetik, például egy római kori Pókember szobrot, egy űrhajóst, aki lóháton halad a Hold felszínén, vagy egy háromkarú robotot, amely fest. És a most bemutatott Sora révén a mesterséges intelligencia által generált videók elterjedése fel fog gyorsulni. A lényeg az, hogy a szörnyek, vagyis a kompozitok ábrázolása és társadalmi terjesztése, ami az emberiség történelmének kezdeti feljegyzéseiben is megfigyelhető, most újra megjelenik a generatív mesterséges intelligencia korában.Ez a tendencia túlmutat a „trend” kifejezésen, és a mai világot körülvevő „hangulatnak” (vibe) nevezhető.Ez a kifejezés nem új, de úgy tűnik, hogy egy figyelemre méltó fordulóponthoz érkeztünk az AI korszakba való átmenetben, ezért ezt a tendenciát komolyabban kell vennünk.
A hosszú, érvelő vagy magyarázó tartalmak hiánya az X-en, valamint a YouTube és a TikTok rövid videóinak széles körű fogyasztása és addiktív jellegea kontextusból kiragadott képek társadalmi fogyasztásának jelenségétbizonyítja. Egyre fontosabbá válnak a pillanatnyi és asszociatív, költői képek, ami azt jelenti, hogymegfordult az a szemlélet, ami meghatározta, hogy mi számít információnak.
Röviden:Nem az a kérdés, hogy mit nézünk, hanem hogy hogyan nézünk.
A testtel kapcsolatos trendekkel és jelenségekkel szemben más, szemantikai és analitikus megközelítést kell választanunk. Olyan korban élünk, ahol a Guess és a Calvin Klein kampányokban szereplő modell seregek esztétikája helyett a különböző testformák büszke megjelenítése kap elismerést a fehérnemű márkák filozófiájában, és a kamaszok körében a hatékony stratégia szimbóluma lett egy olyan kép, amelyen nem derül ki, hogy a modellen férfi vagy női ajkak vannak rózsaszín rúzzsal. Amikor a technológia jövőjéről és a technológiai fejlődésről beszélünk, mindig jelen van az emberi test. Az a kérdés, hogy hogyan tekintünk az emberi testre, egyre összetettebbé és fontosabbá válik.
Hivatkozások
Hozzászólások0