Dati sintetici: le macchine diventano consumatori

"Metti alla prova idee e prodotti con consumatori sintetici e prendi decisioni con sicurezza."

Synthetic users che forniscono un servizio di ricerca utenti senza utenti reali

Il servizio Synthetic Users, lanciato lo scorso febbraio, come suggerisce il nome, offre come soggetti per la ricerca sugli utenti legati allo sviluppo di prodotti, non esseri umani reali, ma consumatori virtuali generati. È possibile condurre interviste e sondaggi su questi esseri umani virtuali, ottenere feedback sull'esperienza di utilizzo dei prodotti, e persino sfruttare funzionalità come l'impostazione di scenari specifici per i clienti target, ad esempio coppie europee in una relazione a lungo termine, con un'offerta di 100 set di dati di interviste per 380 dollari, un'innovazione in termini di risparmio sui costi. E all'interno delle comunità di antropologi, sociologi e studiosi di etnografia che hanno avuto accesso a questo servizio, sono emerse una varietà di reazioni: da quelle di disagio e senso di crisi a quelle divertite.

Queste reazioni includono una sensazione di disagio e un senso di minaccia che scaturiscono dal timore che, in ricerche qualitative che non si limitano a comprendere prodotti ‘sintetici’ ma che si concentrano sulla comprensione della persona in sé, standard relativi all'identità, agli obiettivi, al piacere e ai valori umani possano essere replicati e compresi con troppa facilità. E ancora, un atteggiamento scettico verso la capacità di questi strumenti di replicare adeguatamente le complesse situazioni socio-politiche e le interrelazioni che determinano le problematiche che gli esseri umani si trovano ad affrontare nella vita reale.

In realtà, i dati sintetici non sono un concetto nuovo. Si dimostrano particolarmente utili quando è complesso raccogliere set di dati, come nel caso di simulazioni virtuali di autovetture che riproducono il comportamento degli automobilisti per addestrare i modelli in un'ampia gamma di contesti, o nella replica di oltre 2,7 milioni di cartelle cliniche di pazienti con COVID-19, ottenendo set di dati privi di informazioni identificative ma con le stesse caratteristiche statistiche, consentendo così una condivisione e una ricerca più rapida a livello globale.

Tuttavia, l'attuale diffusione di ChatGPT in quasi tutti i settori sta portando ad un'impennata della domanda di dati sintetici, che sta diventando esponenziale, tanto da generare servizi che sostengono di poter sostituire con dati sintetici persino il lavoro quotidiano di chi cerca di ottenere informazioni.

In particolare, il servizio Synthetic Users evidenzia in modo chiaro le preoccupazioni legate all'utilizzo dei dati sintetici,richiamando l'attenzione sulla necessità di ridefinire il concetto di ‘differenza tra realtà e finzione’, ovvero la definizione di ‘dati’ e ‘verità’.

Viviamo già in un'epoca di disinformazione, dove diventa sempre più complesso comprendere l'origine e i pregiudizi di tutti i dati che ci vengono presentati. La futura ondata di dati sintetici non farà che rendere ancora più sfumato il confine tra ‘reale’ e ‘artificiale’, e renderà più difficile per i consumatori di dati valutare in modo critico l'origine dei dati originali, le modalità di raccolta e manipolazione e, di conseguenza, il grado di attendibilità da attribuire ad essi.

Pertanto, per evitare che la rivoluzione dei dati sintetici generi un mondo non desiderato, è fondamentale partire dal presupposto che i dati di piccole dimensioni siano più importanti di quelli di grandi dimensioni. Oggi molte aziende tendono a privilegiare il cosiddetto ‘decision making basato sui dati’, ossia il processo decisionale basato su tutti i dati disponibili, anche se chiaramente affetti da bias o incompleti. I dati sintetici, quindi, dovrebbero derivare dai dati reali di migliore qualità a nostra disposizione. Inoltre, è necessario fornire un set di dati iniziale di qualità eccellente, corredato da una profonda comprensione del contesto, ovvero di cosa è importante nei dati e del perché lo è.

Se non si basa su una rigorosa comprensione dei fenomeni umani più attuali, come la differenza tra ciò che le persone dicono e ciò che fanno o l'impatto imprevedibile delle nostre azioni sulla vita, si corre il rischio di simulare un mondo sociale che minaccia la realtà in modo dannoso per le aziende e per i singoli individui.

I dati sintetici avranno un ruolo sempre più importante nella nostra vita quotidiana. Hanno il potenziale per rimodellare ogni aspetto, dagli algoritmi che plasmano le nostre esperienze del mondo alla nostra comprensione dei dati e della realtà. Affidare decisioni così importanti, per quanto bene intenzionate, a pochi esperti di data science è eccessivamente rischioso, e richiede la collaborazione di esperti di scienze sociali e discipline umanistiche. Ciò non è dovuto al fatto che i dati sintetici siano meno utili o peggiore di alcuni set di dati attuali, ma piuttosto al timore che possano realizzare troppe potenzialità.

*Questo articolo è la versione originale dell'articolo pubblicato l'11 aprile 2023 su colonna firmata sul quotidiano elettronico.

Riferimenti

Ricerca senza il problema delle persone reali

Lo stato dell'AI

Ricerca sugli utenti senza la sintesi

Ricerca sintetica e campionamento al silicio // BrXnd Dispatch vol. 010
Dobbiamo parlare dei dati sintetici⁠⁠⁠⁠⁠⁠⁠

Commenti0