Données synthétiques : quand les machines deviennent consommatrices

"Testez vos idées et vos produits en toute confiance avec des consommateurs synthétiques (AI)."

Synthetic users, un service de user research sans utilisateurs réels

Lancé en février dernier, le service Synthetic Users propose, comme son nom l'indique, des consommateurs virtuels générés pour les études de marché liées au développement de produits, plutôt que de vrais humains. Il est possible de mener des entretiens et des sondages auprès de ces humains virtuels, d'obtenir des commentaires sur l'expérience d'utilisation des produits, de définir des situations spécifiques pour les clients cibles (par exemple, un couple européen en couple depuis longtemps), et de bénéficier d'une réduction de coûts significative avec 100 interviews et données associées pour 380 dollars. Les communautés d'anthropologues, de sociologues et d'ethnologues ayant accès à ce service ont exprimé des réactions variées, allant de l'inconfort et de l'inquiétude à l'amusement.

Ces réactions reflètent une inquiétude quant à la facilité avec laquelle l'identité, les objectifs, les plaisirs et les valeurs intrinsèques de l'être humain pourraient être dupliqués et compris dans le cadre d'une recherche qualitative, qui ne se contente pas de créer des œuvres « synthétiques » mais qui cherche à comprendre l'être humain lui-même. Ces réactions incluent également un certain scepticisme quant à la capacité de ce service à reproduire fidèlement la complexité des situations sociopolitiques et des relations interpersonnelles qui sous-tendent les problèmes auxquels les gens sont confrontés dans la vie réelle.

En réalité, ces données synthétiques ne sont pas un concept nouveau. Elles se révèlent particulièrement utiles lorsque la collecte de données est difficile, par exemple pour simuler le comportement des conducteurs dans des simulations de véhicules automobiles afin de former des modèles dans un large éventail de situations, ou pour créer un ensemble de données sans informations d'identification mais avec les mêmes caractéristiques statistiques que plus de 2,7 millions de dossiers de patients atteints de COVID-19, permettant ainsi aux chercheurs du monde entier de partager et d'étudier rapidement ces données.

Cependant, la prolifération de ChatGPT dans presque tous les domaines de service a provoqué une augmentation exponentielle de la demande de données synthétiques déjà croissante, allant jusqu'à proposer des services qui prétendent que les données synthétiques peuvent remplacer le quotidien des personnes à la recherche d'informations.

En particulier, le service Synthetic Users met clairement en évidence les inquiétudes concernant l'utilisation des données synthétiques, à savoir l'« écart avec la réalité », ce qui implique qu'il est nécessaire de redéfinir la notion de « données » et de « vérité ».

Nous vivons déjà à l'ère de la désinformation, et il devient de plus en plus difficile de comprendre l'origine et les biais de toutes les données que nous consultons. Le flot croissant de données synthétiques qui va suivre ne fera que brouiller davantage les frontières entre le « réel » et l'« artificiel », et rendra plus difficile pour les consommateurs de données lambda d'évaluer de manière critique l'origine des données brutes, la manière dont elles sont collectées et manipulées, et, par conséquent, le degré de confiance qu'il convient d'y accorder.

Par conséquent, pour éviter que la révolution des données synthétiques ne crée un monde que nous n'avions pas souhaité, il est essentiel de commencer par prêter attention aux petites données plutôt qu'aux grandes données. Aujourd'hui, de nombreuses entreprises ont tendance à privilégier ce que l'on appelle la « prise de décision basée sur les données », qui consiste à prendre des décisions en se basant sur toutes les données disponibles, même si celles-ci sont manifestement biaisées ou incomplètes. Les données synthétiques doivent donc découler des meilleures données réelles que nous pouvons trouver. Il faut également fournir un ensemble de données initiales de la meilleure qualité possible, ainsi qu'une compréhension contextuelle approfondie de ce qui est le plus important dans ces données et pourquoi.

En effet, si cette démarche n'est pas basée sur une compréhension approfondie des phénomènes humains fondamentaux les plus récents, tels que la différence entre ce que les gens disent et ce qu'ils font, ou l'impact imprévu de nos actions sur nos vies, nous risquons de simuler un monde social qui menace la réalité et nuit aux entreprises et aux particuliers.

À l'avenir, les données synthétiques occuperont une place encore plus importante dans notre quotidien. Elles ont le potentiel de remodeler tout, des algorithmes qui façonnent notre expérience du monde à notre compréhension des données et de la réalité. Il est trop risqué de confier de telles décisions cruciales, aussi bien intentionnées soient-elles, à quelques scientifiques des données seulement. Une collaboration avec des experts en sciences sociales et en sciences humaines est indispensable. Cette nécessité ne découle pas simplement du fait que les données synthétiques ne sont pas plus utiles, voire moins utiles, que certains ensembles de données actuels, mais plutôt de la peur qu'elles ne soient trop prometteuses.

*Cet article est la version originale de l'article publié le 11 avril 2023 dans la chronique signée du journal électronique.

Références

Recherche sans le casse-tête des personnes réelles

L'état de l'union de l'IA

Recherche utilisateur sans synthèse

Recherche synthétique et échantillonnage silicium // BrXnd Dispatch vol. 010
Nous devons parler des données synthétiques⁠⁠⁠⁠⁠⁠⁠

Commentaires0