这是AI翻译的帖子。
选择语言
durumis AI 总结的文章
- 於今年 2 月推出的 Synthetic Users 服務,是一款利用虛擬消費者進行使用者研究的服務,與以真人為對象的研究相比,其成本效益顯著,但卻也引發了無法充分反映人類本質和價值的擔憂。
- 合成數據在汽車模擬、COVID-19 病患記錄數據等多個領域中得到廣泛應用,特別是 ChatGPT 的出現,更是引發了合成數據的需求爆炸式增長。
- 為了避免合成數據革命給我們社會帶來負面影響,我們必須基於真實數據,以深入的語境理解為基礎生成合成數據,並與社會科學和人文科學領域的專家進行合作。
"與 AI 合成的消費者一起測試您的想法或產品,並自信地做出決策。"
提供沒有使用者的使用者研究服務的 Synthetic users
Synthetic Users 服務於今年 2 月推出,顧名思義,它將產品開發相關的使用者研究的目標受眾從實際人類轉變為 生成的虛擬消費者。您可以對虛擬人進行訪談和調查,並獲得有關產品使用體驗的回饋,還可以設定目標客戶的特定情況,例如正在進行長期戀愛的歐洲 情侶,以及相關的訪談數據,每 100 筆數據僅需 380 美元,具有革命性的成本節省效果。該服務推出後,民族志學、社會學和人類學專業人士的社區 對此做出了各種反應,包括感到不適、感到危機感或感到有趣。
這包括對“合成”作品的不安,而不是對人本身的理解,即質性研究中,對人固有身份、目的、樂趣和價值的標準可能比 預期的更容易複製和理解,以及人們在現實生活中遇到的麻煩所構成的複雜的社會政治情況和相互理解關係無法充分實現的 冷嘲熱諷的觀點。
事實上,合成數據並不是一個新概念。當難以獲得數據集時,合成數據特別有用,例如在汽車製造商的虛擬汽車模擬中,通過模擬駕駛員 的行為,在廣泛多樣的情況下訓練模型,或者複製超過 270 萬名 COVID-19 病患的記錄數據,創建具有相同統計特性的但沒有識別信息的數據集,以便全球 研究人員能夠快速共享和研究。
然而,ChatGPT 幾乎應用於所有領域的服務,並迅速普及的現狀,已經成為合成數據需求急劇增長的催化劑,其範圍現已擴展到 主張可以用合成數據取代人類獲取洞察力的日常生活的服務。
特別是 Synthetic Users 服務最明顯地揭示了與合成數據使用相關的擔憂,即“現實差距”,即需要重新定義“數據”和“真相”。
我們已經生活在錯誤信息的時代,我們越來越難以理解我們所看到的所有數據的來源和偏差。未來湧現的合成數據洪流將不僅 僅模糊“真實”和“人造”之間的界限,而且還會讓普通數據消費者更難批判性地評估原始數據的來源、收集和操縱方式,以及最終應 該信任的程度。
因此,為了防止合成數據革命創造出我們意想不到的世界,最重要的開端是要關注不是大數據,而是小數據。如今,許多企業 傾向於基於所有可用的數據做出決策,即所謂的“數據驅動型決策”,即使這些數據集存在明顯的偏差或不完整。因此,合成數據 應該來自我們可以找到的最佳真實數據。此外,還應提供可能獲得的最高質量的初始數據集,以及對數據中最重要的內容及其重要 性的深入的語境理解。
如果不基於對最基本的人類現象的嚴格理解,例如人們說和做之間的差異,或者我們行為對生活產生的意想不到的影響,那麼 我們就有可能模擬出以對公司和個人造成傷害的方式威脅現實的社會世界。
合成數據將在我們的生活中佔據越來越大的比例。它有潛力重塑從塑造我們對世界的體驗的算法到我們對數據和現實的理解的 一切。將如此重要的決定委託給少數數據科學家,即使他們的動機再好,也是風險太高了。這需要與社會科學和人文學科專家的合作 。這不僅僅是因為合成數據可能不如現有的一些數據集有用或更糟,而是因為它可能實現太多可能性而令人感到害怕。
*本文為 2023 年 4 月 11 日電子新聞署名專欄刊登內容的原文。
References