合成データ：機械が消費者になる

AI合成消費者と共に、アイデアや製品をテストし、自信を持って意思決定を行いましょう。

ユーザーがいないユーザーリサーチサービスを提供するSynthetic users

2月に登場したSynthetic Usersサービスは、その名のとおり、製品開発に関連するユーザーリサーチの対象を、実際の人間ではなく、生成された仮想消費者とするサービスです。仮想の人々を対象に、インタビューやアンケート調査を実施することができ、製品使用経験に関するフィードバックを得ることも可能です。また、長期恋愛中のヨーロッパのカップルなど、ターゲット顧客の具体的な状況設定機能や、関連するインタビューデータ100件あたり380ドルという画期的なコスト削減効果も提供します。そして、このサービスに触れた民族誌学、社会学、人類学専攻者のコミュニティでは、不快だ、危機感を覚える、あるいは面白いなど、様々な反応が寄せられています。

これは、'合成された'創作物ではなく、人そのものを理解する作業である質的リサーチにおいて、人間の本来のアイデンティティ、目的、喜び、価値に関する基準が、思ったよりも簡単に複製・理解されてしまうのではないかと不安に感じたり、現実の人々が現実で経験する厄介な問題が形成される複雑な社会政治状況や相互の関係性を十分に表現できないという冷めた視点を孕んでいます。

実際、このような合成データは新しい概念ではありません。データセットを入手するのが難しい場合に特に有用であり、自動車メーカーの仮想自動車シミュレーションにおいて、運転者の行動を模倣して、膨大で多様な状況下でモデルをトレーニングしたり、270万人以上のCOVID-19患者の記録データを複製して、統計的特性は同じで識別情報は含まないデータセットを作成し、世界中の研究者が迅速に共有して研究できるように利用されたりしてきました。

しかし、ChatGPTがほぼすべての分野のサービスに適用され、急速に普及している現状は、既に増加していた合成データの需要をさらに爆発的に増加させる契機となり、その範囲は、インサイトを得る人間の日常生活でさえ合成データで代替可能だと主張するサービスを生み出すに至っています。

特に、Synthetic Usersサービスが最も明確に示している合成データ活用に関する懸念は、『現実とのギャップ』、つまり『データ』と『真実』に対する定義を新たに考える必要があることを明らかにしています。

私たちは既に誤った情報にあふれた時代を生きており、私たちが目にするすべてのデータの出所と偏見を理解することがますます困難になっています。今後、押し寄せる合成データの洪水は、'現実'と'人工'の境界をより曖昧にするだけでなく、一般のデータ消費者が元のデータの出所、収集および操作方法、そして結果としてどの程度信頼すべきかを批判的に評価することをより難しくするでしょう。

そのため、合成データ革命が私たちが意図しない世界を生み出さないようにするために、最も重要なスタートは、ビッグデータではなくスモールデータに着目することです。今日、多くの企業は、偏っているか不完全なデータセットであることは明らかなのに、利用可能なすべてのデータに基づいて意思決定を行う、いわゆる『データに基づく意思決定』に集中する傾向が見られます。したがって、合成データは、私たちが見つけることができる最高の現実のデータから生まれていなければなりません。また、その際、データの中で最も重要なものは何か、なぜ重要なのかという深い文脈的な理解と共に、可能な限り最高の品質の初期データセットを提供する必要があります。

人々が話すことと行動することの違い、あるいは私たちが取る行動に対する人生における予期せぬ影響など、最も最近の根本的な人間の現象に関する厳密な理解に基づいていない場合、企業と一般の人々の両方に害を及ぼす方法で現実を脅かす社会世界をシミュレートする危険性があるからです。

今後、合成データは私たちの日常生活においてはるかに大きな部分を占めるようになるでしょう。世界に対する私たちの経験を形作るアルゴリズムから、データと現実に対する理解に至るまで、すべてを再構築する可能性を秘めています。このような重要な決定を、たとえどれだけ良い意図を持っていても、一部のデータ科学者に任せるにはリスクが大きすぎます。社会科学や人文科学分野の専門家との連携が必要となります。これは、合成データが現在のいくつかのデータセットよりも役に立たない、あるいはより悪いという単純な理由ではなく、むしろあまりにも多くの可能性を実現できるという恐怖から来ています。

*この記事は、23年4月11日付けの電子新聞の署名コラムに掲載された内容の原文です。

参考文献

実際の人々を巻き込むことなく行う調査

AIの現状

合成することなく行うユーザー調査

合成調査とシリコンサンプリング // BrXnd Dispatch vol. 010
合成データについて話し合う必要がある⁠⁠⁠⁠⁠⁠⁠

コメント0