合成數據：機器成為消費者

與 AI 合成消費者一同測試您的想法或產品，並自信地做出決策。

提供無用戶參與的用戶研究服務的 Synthetic users

於今年 2 月推出的 Synthetic Users 服務，顧名思義，將產品開發相關的使用者研究對象從真實的人類轉變為生成的虛擬消費者。此服務允許您對虛擬人物進行訪談和調查，並獲得關於產品使用體驗的反饋，還提供目標客戶的具體情境設定功能（例如：正在熱戀中的歐洲情侶），以及相應的訪談數據，100 個訪談數據僅需 380 美元，大幅降低了成本。此外，接觸到該服務的人類學、社會學和民族學專業人士社群，也紛紛表達了不同的看法，有人感到不適、有人感到危機意識，也有人認為很有趣。

這反映出，在質性研究中，研究的對象並非『合成』的創作物，而是要理解人類本身。人們開始感到不安，認為人類本質、目的、快樂和價值的標準，可能比我們想像的更容易被複製和理解。此外，也存在著一種冷嘲熱諷的觀點，認為該服務可能無法充分模擬現實生活中人們所面臨的複雜社會政治狀況和人際關係，以及由此產生的各種問題。

事實上，合成數據並非新概念。當數據集難以獲取時，合成數據尤其有用。例如，汽車製造商可以在模擬駕駛過程中模擬駕駛員的行為，以便在各種情況下訓練模型；又例如，複製超過 270 萬名新冠肺炎患者的記錄數據，並創建一個保留統計特徵但去除識別信息的數據集，方便全球研究人員快速共享和研究。

然而，在 ChatGPT 幾乎被應用於各個領域並迅速普及的當下，合成數據的需求也隨之爆發式增長，其應用範圍甚至擴展到聲稱可以將人們獲得洞察力的日常活動也用合成數據取代的服務。

特別是 Synthetic Users 服務，最明確地揭示了合成數據應用相關的擔憂，也就是『現實差距』，亦即需要重新定義『數據』和『真相』。

我們已經身處錯誤信息的時代，而我們所看到的每一個數據的來源和偏見都越來越難以理解。未來大量湧現的合成數據，不僅會進一步模糊『真實』和『人工』之間的界限，而且會讓普通數據消費者更難以批判性地評估原始數據的來源、收集和處理方式，以及最終應信賴到何種程度。

因此，為了防止合成數據革命創造出我們不希望看到的景象，最重要的第一步是關注『小數據』而非『大數據』。如今，許多企業都傾向於基於所有可用數據做出決策，也就是所謂的『數據驅動決策』，即使這些數據集存在明顯的偏差或不完整性。因此，合成數據必須基於我們所能找到的最佳現實數據。此外，在這個過程中，需要深入理解數據中最重要的事情以及其重要性，並提供最高質量的初始數據集。

如果沒有基於對最基本的人類現象（例如，人們所言與所行的差異，或我們所採取的行動對生活帶來的意想不到的影響）的嚴格理解，那麼我們就有可能以損害企業和個人利益的方式，模擬出威脅現實的社會世界。

未來，合成數據將在我們的生活中佔據更大的比重。它具有重塑一切的潛力，從塑造我們對世界的體驗的演算法，到我們對數據和現實的理解。無論數據科學家們抱有多麼美好的初衷，將如此重要的決策完全交給他們都存在著巨大的風險，因此需要與社會科學和人文科學領域的專家合作。這並非僅僅因為合成數據在某些情況下可能不如現有的一些數據集，甚至更糟，而是因為它蘊含著太多可能實現的可能性，讓人感到恐懼。

*本文為 2023 年 4 月 11 日電子新聞專欄文章的原始內容。

參考文獻

免除實際人員之苦的研究

AI 概況

無需合成的使用者研究

合成研究與矽採樣 // BrXnd 快訊第 010 期
 我們需要談談合成數據⁠⁠⁠⁠⁠⁠⁠

评论0