पिछले सप्ताहांत ओपन एआई ने अपनी नई सेवा सोरा (Sora) लॉन्च की। सोरा एक ऐसी सेवा है जिसके ज़रिए टेक्स्ट इनपुट देकर एआई वीडियो बनाया जा सकता है, और लॉन्च होते ही इसे समीक्षकों की तारीफ़ मिल रही है। कुछ ही साधारण टेक्स्ट लाइनों से बनाए गए डेमो वीडियो में एक मध्यम आयु वर्ग के व्यक्ति द्वारा हैम्बर्गर खाते हुए स्लो-मोशन वीडियो, जापान की सड़क पर दो लोगों के चलने का ऊपर से लिया गया शॉट (बर्ड्स आई व्यू) जैसे दृश्य दिखाए गए हैं, जो कि किसी सीएफ़ या फ़िल्म के प्लान, डायरेक्शन और शूटिंग से मिलते-जुलते हैं और बहुत ही ज़्यादा यथार्थवादी हैं।
ओपन एआई ने उसी दिन जारी की गई तकनीकी रिपोर्ट में सोरा को वर्ल्ड सिमुलेटर (World Simulator) बताया है।अगर टेक्स्ट के ज़रिए एब्स्ट्रैक्शन (Abstraction) और पैरामीटर स्पेस (Parameter Space) के बीच इस तरह के कनेक्शन से इतना यथार्थवादी एब्स्ट्रैक्शन (Abstraction) संभव है, तो इससे आगे आने वाले जीपीटी (GPT) मॉडल की रीज़निंग क्षमता पर बहुत ज़्यादा असर पड़ेगा और इसका मतलब है कि मानव समाज में एआई के प्रभाव के लिहाज़ से इसका असर बहुत ही ज़्यादा होगा।
प्रॉम्प्ट: किसी व्यक्ति के दौड़ने का स्टेप-प्रिंटिंग दृश्य, 35 मिमी में सिनेमाई फिल्म शॉट।
लेकिन सोरा में अभी भी कई सीमाएँ हैं। जैसे, किसी व्यक्ति द्वारा कुकी का एक टुकड़ा काटने के बाद उस पर काटे जाने का निशान गायब हो जाता है या फिर ट्रेडमिल पर दौड़ रहे व्यक्ति के पैर और हाथ अजीब तरह से हिलते हैं और वह ट्रेडमिल के सामने की तरफ़ नहीं बल्कि पीछे की तरफ़ देख रहा है। ये कुछ उदाहरण हैं जिनसे पता चलता है कि सोरा यूज़र द्वारा दिए गए प्रॉम्प्ट में स्पेशल डिटेल्स और समय के साथ होने वाले बदलावों को सही तरीके से समझने और दिखाने में नाकाम रहता है। इस तरह के कारण और परिणाम के उदाहरण और जटिल दृश्यों में भौतिकी को लागू करने में आने वाली मुश्किलें इस बात का सबूत हैं कि एआई अभी भी दुनिया को सही तरीके से नहीं समझ पा रहा है। हालाँकि, 2023 में ओपन एआई ने शटरस्टॉक (Shutterstock) के साथ 35 मिलियन हाई-रेज़ोल्यूशन फ़ोटो और वीडियो के लिए एक समझौता किया था, जिसके ज़रिए अगले 6 सालों तक एआई को और ट्रेन किया जाएगा। इस बात को ध्यान में रखते हुए यह उम्मीद करना मुश्किल नहीं है कि आगे आने वाले एआई द्वारा बनाई गई इमेज और वीडियो और भी यथार्थवादी होंगे और जल्द ही इंसानों द्वारा बनाए गए वीडियो के स्तर तक पहुँच जाएँगे।
ब्रिटेन के पुरातत्वविद् डेविड वेंगरो (David Wengrow) ने 2013 में अपनी किताब ‘मॉन्स्टर्स ओरिजिन्स’ (The Origins of Monsters) में दावा किया है कि प्राचीन मिस्र से मेसोपोटामिया सभ्यता और भूमध्यसागरीय लौह युग तक, जब शहर बसे और सभ्यताएँ फली-फूलीं और राजनीतिक और व्यापारिक नेटवर्क का विस्तार हुआ, उस दौरान काल्पनिक और जटिल असली न दिखने वाले जीवों की दृश्य छवियाँ बनाई गईं और इन्हें हर जगह फैलाया गया।
दक्षिण रूस के पाज़िरिक और ट्यूक्ता कुरगन्स से शानदार प्राणियों की छवियां
शेर के शरीर पर बाज़ के सिर और पंख वाले ग्रिफ़िन (Griffin), इंसान के शरीर और बैल के सिर वाले मिनोटौर (Minotaur) जैसे संकर राक्षसों का चित्रण उस समय के लोगों द्वारा दीवारों पर और किताबों में दर्ज किया गया था। कहा जाता है कि व्यापार मार्गों के विस्तार के साथ-साथ यह इन राक्षसों के चित्रण उस समय के ख़ास लोगों द्वारा अपनी शक्ति को दर्शाने के लिए फ़ैलाए गए थे। विभिन्न प्रकार के अंगों और अन्य विशेषताओं को अलग करके उन्हें फिर से जोड़कर उस दुनिया का प्रतिनिधित्व करने वाले जीवों की छवियाँ बनाना जो आँखों से दिखाई नहीं देती हैं, यह एक ऐसी घटना है जिसे उत्पादन गतिविधियों में रिश्तेदारी पर आधारित अपनेपन की भावना से जुड़े ‘पूरे’ होने की धारणा के विस्तृत सामाजिक परिवर्तन और पहले कभी नहीं मिले लोगों के साथ काम बंटवारे के बढ़ने के चलते खुद को ‘टुकड़ा’ समझने की भावना और उससे जुड़ी डर के कारण से समझा जा सकता है। दूसरे शब्दों में, संकर रचनाओं के निर्माण और तकनीकी विकास के ज़रिए स्वयं को पहचानने और उसके रिश्तों की खोज उसके द्वारा साझा किए जाने वाले संदेशों में से एक है।
हम पिछले साल से मिडजर्नी (Midjourney), डेल-ई (DALL-E) जैसे एआई इमेज जेनरेटिंग प्रोग्राम के ज़रिए रोमन काल के स्पाइडरमैन की मूर्ति, चाँद पर घोड़े पर सवार अंतरिक्ष यात्री और तीन हाथों वाले रोबोट द्वारा चित्र बनाते हुए जैसे कई दिलचस्प और अजीबोगरीब इमेज देख रहे हैं जो इंसान के शरीर की सीमाओं से परे हैं। और अब सोरा (Sora) के लॉन्च होने के साथ ही एआई द्वारा बनाए गए वीडियो का तेज़ी से प्रसार होने वाला है। ज़रूरी बात यह है कि शुरुआती मानव इतिहास के रिकॉर्ड के साथ-साथ राक्षसों (यानी संकर रचनाओं) का चित्रण और सामाजिक प्रसार आज के एआई जेनरेटिव युग में दोहराया जा रहा है।यह प्रवृत्ति केवल एक ट्रेंड (Trend) कहकर नहीं बताई जा सकती, बल्कि इसे इस युग की दुनिया को घेरे हुए ‘वाइब’ (vibe) के रूप में बताया जा सकता है।यह कोई नया शब्द नहीं है, लेकिन चूँकि हमें लगता है कि हम एआई युग में एक ख़ास मोड़ पर पहुँच गए हैं, इसलिए हमें इस प्रवृत्ति को और गंभीरता से लेने की ज़रूरत है।
लंबे आर्ग्यूमेंट या एक्सप्लेनेशन के लिए जगह नहीं होने वाले एक्स (X), सबसे ज़्यादा देखे जाने वाले और ज़्यादा लत लगाने वाले यूट्यूब (YouTube), टिकटॉक (TikTok) पर शॉर्ट्स वीडियोडिकॉन्टेक्स्टुअलाइज़्ड इमेज (Decontextualized image) के सामाजिक इस्तेमाल को दर्शाते हैं।धीरे-धीरे, क्षणिक और संबद्ध काव्यात्मक इमेज ज़्यादा महत्वपूर्ण होती जा रही हैं और इसका सीधा मतलब है किजानकारी क्या है, यह बताने वाले पारंपरिक दृष्टिकोण में बदलाव आ गया है।यह बात समझ में आती है।
संक्षेप में,यह ज़रूरी है कि हम यह न देखें कि हमें क्या देखना है, बल्कि यह देखें कि हम कैसे देखते हैं।
शरीर से जुड़े ट्रेंड या घटनाओं के बारे में और ज़्यादा अर्थपूर्ण और विश्लेषणात्मक तरीके से शुरुआती नज़रिए को चुनना होगा। ऐसे समय में जब गेस (Guess) और केल्विन क्लाइन (Calvin Klein) के मार्केटिंग अभियानों में मॉडल के समूह की सुंदरता को दिखाया जाता है, वहीं दूसरी तरफ़ कई तरह के शरीरों को बिना किसी झिझक के दिखाने वाले अंडरगारमेंट ब्रांड के सिद्धांतों को मान्यता मिल रही है और 10 साल के बच्चों तक पहुँचने के लिए एक प्रभावी रणनीति के रूप में होंठों पर गुलाबी लिपस्टिक वाली एक ऐसी इमेज इस्तेमाल की जा रही है जिसमें यह नहीं बताया गया है कि वह लड़का है या लड़की। जब हम तकनीक के भविष्य की कल्पना करते हैं और तकनीकी प्रगति पर चर्चा करते हैं, तो इंसान का शरीर हमेशा साथ ही रहता है। इंसान के शरीर को कैसे देखें, यह सवाल आगे चलकर और भी जटिल और ज़्यादा महत्वपूर्ण होता जाएगा।
संदर्भ
टिप्पणियाँ0