"AI सिंथेटिक उपभोक्ताओं के साथ विचारों या उत्पादों का परीक्षण करें और आत्मविश्वास से निर्णय लें।"
सिंथेटिक यूजर जो यूजर रिसर्च सर्विस प्रदान करते हैं जिसमें यूजर नहीं होते हैं
पिछले फ़रवरी में शुरू की गई सिंथेटिक यूज़र्स सेवा, अपने नाम के अनुसार, उत्पाद विकास से संबंधित उपयोगकर्ता अनुसंधान के लिए वास्तविक मनुष्यों के बजाय निर्मित आभासी उपभोक्ताओं को प्रदान करती है। आभासी मनुष्यों पर साक्षात्कार और सर्वेक्षण संचालित करना संभव है, और उत्पाद उपयोग अनुभव से संबंधित प्रतिक्रिया भी प्राप्त की जा सकती है। इसमें लम्बे समय से रिलेशनशिप में रह रहे यूरोपीय जोड़ों जैसे लक्षित ग्राहकों की विशिष्ट स्थिति सेट करने की सुविधा और संबंधित साक्षात्कार डेटा 100 के लिए 380 डॉलर जैसी अभूतपूर्व लागत बचत प्रभाव भी शामिल है। इस सेवा के सामने आने पर, नृवंशविज्ञान, समाजशास्त्र और मानव विज्ञान के छात्रों के समुदाय ने नाराज़गी, संकट की भावना या मज़ेदार जैसी विविध प्रतिक्रियाएँ दी हैं।
इसमें 'सिंथेटिक' कृतियों को नहीं, बल्कि मानव को समझने के कार्य को शामिल किया गया है। गुणात्मक अनुसंधान में, मानव की मूल पहचान, उद्देश्य, आनंद और मूल्य के मानदंड को अपेक्षाकृत आसानी से कॉपी और समझा जा सकता है या नहीं, इस संबंध में चिंता है। साथ ही, वास्तविक लोगों द्वारा सामना की जाने वाली वास्तविक दुनिया की समस्याओं को शामिल करने वाले जटिल सामाजिक-राजनीतिक परिदृश्य और पारस्परिक संबंधों को पर्याप्त रूप से लागू नहीं किया जा सकता है, ऐसा भी संदेहात्मक दृष्टिकोण है।
वास्तव में, यह सिंथेटिक डेटा कोई नई अवधारणा नहीं है। डेटासेट प्राप्त करना कठिन होने पर सिंथेटिक डेटा विशेष रूप से उपयोगी होता है। उदाहरण के लिए, ऑटोमोबाइल निर्माता वाहन चालक व्यवहार की नकल करके वर्चुअल कार सिमुलेशन में इसका उपयोग करते हैं ताकि मॉडल को विशाल और विविध परिस्थितियों में प्रशिक्षित किया जा सके। इसके अलावा, 27 मिलियन से अधिक COVID-19 रोगी रिकॉर्ड डेटा की नकल करके, एक डेटासेट बनाया गया था जिसमें सांख्यिकीय विशेषताएँ समान थीं, लेकिन पहचान संबंधी जानकारी नहीं थी, ताकि दुनिया भर के शोधकर्ता इसे तेजी से साझा कर सकें और शोध कर सकें।
लेकिन, चैटजीपीटी लगभग हर क्षेत्र की सेवाओं में लागू हो रहा है और तेजी से फैल रहा है। वर्तमान स्थिति ने पहले से ही बढ़ रहे सिंथेटिक डेटा की मांग को और अधिक विस्फोटक रूप से बढ़ा दिया है, और इस दायरे ने अब ऐसी सेवाओं को जन्म दिया है जो दावा करती हैं कि मानव द्वारा अंतर्दृष्टि प्राप्त करने का दैनिक जीवन भी सिंथेटिक डेटा से बदला जा सकता है।
विशेष रूप से, सिंथेटिक यूज़र्स सेवा स्पष्ट रूप से सिंथेटिक डेटा के उपयोग से संबंधित चिंताओं को उजागर करती है।'वास्तविकता से अंतर' अर्थात् 'डेटा' और 'सच्चाई' की परिभाषा को फिर से परिभाषित करने की आवश्यकता को स्पष्ट करती है।
हम पहले से ही गलत जानकारी के युग में जी रहे हैं, और हमारे द्वारा देखे जाने वाले सभी डेटा के स्रोत और पूर्वाग्रहों को समझना अधिक कठिन होता जा रहा है। भविष्य में आने वाले सिंथेटिक डेटा की बाढ़ 'वास्तविक' और 'कृत्रिम' के बीच की रेखा को और धुंधला कर देगी। साथ ही, सामान्य डेटा उपभोक्ताओं के लिए डेटा के मूल स्रोत, संग्रह और हेरफेर के तरीके और अंततः किस हद तक भरोसा किया जा सकता है, इस पर आलोचनात्मक मूल्यांकन करना अधिक कठिन बना देगी।
इसलिए, यह सुनिश्चित करने के लिए कि सिंथेटिक डेटा क्रांति हमारे द्वारा अनपेक्षित दुनिया का निर्माण न करे, सबसे महत्वपूर्ण शुरुआत बड़े डेटा पर नहीं, बल्कि छोटे डेटा पर ध्यान केंद्रित करना है। आजकल, कई कंपनियां 'डेटा-संचालित निर्णय लेने' पर ध्यान केंद्रित करती हैं, जो स्पष्ट रूप से पक्षपाती या अपूर्ण डेटासेट का उपयोग करती हैं, भले ही उपलब्ध सभी डेटा के आधार पर निर्णय लिया जाता है। इसलिए, सिंथेटिक डेटा को हमारे द्वारा प्राप्त किए जा सकने वाले सर्वोत्तम वास्तविक दुनिया के डेटा से प्राप्त किया जाना चाहिए। साथ ही, इस समय डेटा में सबसे महत्वपूर्ण क्या है और क्यों महत्वपूर्ण है, इस गहरी प्रासंगिक समझ के साथ-साथ उच्चतम संभव गुणवत्ता वाले प्रारंभिक डेटासेट प्रदान करना चाहिए।
यदि यह हालिया बुनियादी मानव घटनाओं की गहन समझ पर आधारित नहीं है, जैसे कि लोगों के कहने और करने में अंतर या हमारे द्वारा किए जाने वाले कार्यों के जीवन पर अप्रत्याशित प्रभाव, तो कंपनियों और आम जनता दोनों को नुकसान पहुंचाने के तरीके से वास्तविकता को खतरा पैदा करने वाले सामाजिक संसार का अनुकरण करने का जोखिम है।
भविष्य में, सिंथेटिक डेटा हमारे दैनिक जीवन का एक बहुत बड़ा हिस्सा बन जाएगा। इसमें डेटा और वास्तविकता की हमारी समझ से लेकर दुनिया के हमारे अनुभव को आकार देने वाले एल्गोरिदम तक सब कुछ फिर से तैयार करने की क्षमता है। ऐसे महत्वपूर्ण निर्णय, चाहे कितने भी अच्छे इरादे से लिए गए हों, कुछ डेटा वैज्ञानिकों पर छोड़ देना बहुत जोखिम भरा है। इसके लिए सामाजिक विज्ञान और मानविकी के विशेषज्ञों के साथ सहयोग की आवश्यकता होगी। यह केवल इसलिए नहीं है क्योंकि सिंथेटिक डेटा कुछ वर्तमान डेटासेट की तुलना में कम मददगार या बदतर है, बल्कि इसलिए कि यह बहुत अधिक संभावनाएं प्रदान करता है, और इसी कारण यह डरावना भी है।
*यह लेख 11 अप्रैल, 2023 को इलेक्ट्रॉनिक न्यूज़पेपर का एक कॉलममें प्रकाशित सामग्री का मूल स्रोत है।
संदर्भ
टिप्पणियाँ0