Synthetische data: machines worden consumenten

"Test ideeën en producten met synthetische consumenten en neem met vertrouwen beslissingen."

Synthetic users die user research services zonder echte gebruikers aanbieden

De Synthetic Users-service, die in februari werd gelanceerd, biedt zoals de naam al aangeeft, in plaats van echte mensen, gegenereerde virtuele consumenten als doelgroep voor productontwikkelingsgericht gebruikersonderzoek. Het is mogelijk om interviews en enquêtes af te nemen bij deze virtuele personen, feedback te krijgen over producteerervaringen en zelfs specifieke scenario's in te stellen voor doelgroepen, zoals Europese koppels die al langere tijd een relatie hebben. De dienst biedt ook een aanzienlijke kostenbesparing: 100 gerelateerde interviewgegevens kosten slechts $380. In de community van antropologen, sociologen en etnologen die deze dienst hebben gezien, zijn er uiteenlopende reacties te zien, variërend van onwelvoeglijkheid en een gevoel van dreiging tot enthousiasme.

Dit omvat de angst dat de essentie van de mens, de doelen, het plezier en de waarden in kwalitatief onderzoek, dat niet draait om het creëren van 'synthetische' kunstwerken, maar om het begrijpen van mensen zelf, gemakkelijker te kopiëren en te begrijpen zijn dan gedacht. Daarnaast zijn er cynische visies die stellen dat de service de complexe sociaal-politieke situaties en wederzijdse relaties die tot de problemen leiden die echte mensen in de praktijk tegenkomen, onvoldoende kan nabootsen.

Eigenlijk is deze synthetische data niet nieuw. Vooral wanneer het moeilijk is om datasets te verkrijgen, is synthetische data handig. Bijvoorbeeld, in de auto-industrie wordt het gebruikt om modellen te trainen in een breed scala aan situaties door het gedrag van bestuurders na te bootsen in virtuele autosimulaties. Ook werden er meer dan 2,7 miljoen coronapatiëntendossiers gerepliceerd om een dataset te maken zonder identificeerbare informatie, maar met dezelfde statistische kenmerken, zodat onderzoekers wereldwijd deze snel konden delen en gebruiken voor onderzoek.

De huidige situatie, waarin ChatGPT wordt toegepast op bijna alle diensten en zich razendsnel verspreidt, heeft echter geleid tot een explosieve toename van de vraag naar synthetische data, die al aan het stijgen was. Dit heeft geleid tot diensten die beweren dat zelfs de dagelijkse routine van mensen die inzichten verkrijgen kan worden vervangen door synthetische gegevens.

Met name de Synthetic Users-service illustreert de zorgen rondom het gebruik van synthetische data helder:de 'kloof met de werkelijkheid', met andere woorden, de noodzaak om de definitie van 'gegevens' en 'waarheid' opnieuw te definiëren.

We leven al in een tijdperk van verkeerde informatie, en het wordt steeds moeilijker om de herkomst en vooroordelen van alle gegevens die we zien te begrijpen. De komende vloedgolf aan synthetische gegevens zal de grens tussen 'echt' en 'kunstmatig' verder doen vervagen, en het voor gewone gegevensgebruikers nog moeilijker maken om kritisch te beoordelen waar de oorspronkelijke gegevens vandaan komen, hoe ze zijn verzameld en gemanipuleerd, en in hoeverre ze betrouwbaar zijn.

Om te voorkomen dat de synthetische datarevolutie een wereld creëert die we niet beoogden, moeten we allereerst aandacht besteden aan het feit dat 'kleine data' belangrijker is dan 'grote data'. Tegenwoordig zien we dat veel bedrijven zich richten op zogenaamde 'data-gedreven besluitvorming', waarbij ze beslissingen nemen op basis van alle beschikbare gegevens, zelfs als het duidelijk is dat de datasets bevooroordeeld of onvolledig zijn. Daarom moeten synthetische gegevens voortkomen uit de beste real-world data die we kunnen vinden. Daarnaast is een diepgaand contextueel begrip van wat de belangrijkste elementen in de gegevens zijn en waarom ze belangrijk zijn nodig, samen met de levering van een initiële dataset van de hoogst mogelijke kwaliteit.

Als we geen stevige basis hebben in de meest recente, fundamentele menselijke verschijnselen, zoals het verschil tussen wat mensen zeggen en doen, of de onvoorziene gevolgen van ons handelen voor het leven, dan riskeren we een sociaal-maatschappelijke wereld te simuleren die de realiteit bedreigt op een manier die schadelijk is voor zowel bedrijven als particulieren.

Synthetische gegevens zullen in de toekomst een veel grotere rol spelen in ons dagelijks leven. Ze hebben het potentieel om alles opnieuw vorm te geven, van de algoritmen die onze ervaringen van de wereld bepalen tot ons begrip van gegevens en de realiteit. Het is te riskant om dergelijke cruciale beslissingen, hoe goed de intenties ook zijn, over te laten aan een paar datawetenschappers. Samenwerking met experts uit de sociale wetenschappen en geesteswetenschappen is essentieel. Dit komt niet alleen omdat synthetische data in sommige gevallen niet beter of zelfs slechter zijn dan bestaande datasets, maar ook vanwege de angst voor de vele mogelijkheden die het biedt.

*Dit artikel is een originele versie van een artikel dat op 11 april 2023 werd gepubliceerd in de getekende kolom van de Electronic Times.

Referenties

Onderzoek zonder de hoofdpijn van echte mensen

De AI-stand van zaken

Gebruikersonderzoek zonder synthetisering

Synthetisch onderzoek & Silicon Sampling // BrXnd Dispatch vol. 010
We moeten het hebben over synthetische gegevens⁠⁠⁠⁠⁠⁠⁠

Reacties0