Synthetische Daten: Maschinen werden zu Konsumenten

"Testen Sie Ideen oder Produkte mit synthetischen Verbrauchern und treffen Sie Entscheidungen mit Selbstvertrauen."

Synthetic users, die User Research Services ohne reale User anbieten

Der im Februar eingeführte Dienst Synthetic Users bietet, wie der Name schon sagt, synthetische, virtuelle Verbraucher als Zielgruppe für produktbezogene Benutzerrecherchen an, anstatt reale Menschen. Es ist möglich, Interviews und Umfragen mit virtuellen Personen durchzuführen, Feedback zu Produkterfahrungen zu erhalten und sogar spezifische Szenarien für Zielkunden zu erstellen, wie z. B. ein Paar aus Europa, das eine langjährige Beziehung führt. Der Dienst bietet auch eine bemerkenswerte Kostensenkung, da 100 Interviewdaten für 380 US-Dollar verfügbar sind. Die Community von Anthropologen, Soziologen und Ethnologen, die diesen Dienst nutzen, hat jedoch unterschiedliche Reaktionen gezeigt, darunter Unbehagen, Bedrohungsgefühl oder Amüsement.

Dies umfasst Ängste, dass die Kriterien für menschliche Identität, Ziele, Vergnügen und Werte in qualitativen Recherchen, die sich nicht mit "synthetischen" Kreationen, sondern mit Menschen selbst befassen, möglicherweise einfacher kopiert und verstanden werden können, als wir denken. Es gibt auch eine zynische Perspektive, dass die komplexen soziopolitischen Situationen und wechselseitigen Beziehungen, die zu den Problemen führen, mit denen Menschen in der Realität konfrontiert sind, nicht vollständig nachgebildet werden können.

Tatsächlich sind diese synthetischen Daten kein neues Konzept. Synthetische Daten sind besonders nützlich, wenn es schwierig ist, Datensätze zu erhalten. Sie werden beispielsweise verwendet, um das Verhalten von Fahrern in virtuellen Fahrzeugsimulationen von Automobilherstellern nachzubilden, um Modelle in einer Vielzahl von Situationen zu trainieren. Synthetische Daten wurden auch verwendet, um statistisch ähnliche, aber nicht identifizierbare Datensätze aus Datensätzen von über 2,7 Millionen COVID-19-Patienten zu erstellen, sodass Forscher weltweit diese Daten schnell austauschen und nutzen konnten.

Die rasante Verbreitung von ChatGPT in fast allen Bereichen hat jedoch zu einem sprunghaften Anstieg der Nachfrage nach synthetischen Daten geführt, die bereits in einem stetigen Wachstum begriffen war. Der Umfang reicht nun so weit, dass Dienste auftauchen, die behaupten, dass selbst der Alltag von Menschen, die nach Erkenntnissen suchen, durch synthetische Daten ersetzt werden kann.

Besonders deutlich wird die Besorgnis über die Verwendung synthetischer Daten im Zusammenhang mit dem Dienst Synthetic Users, die Notwendigkeit, die Definition von „Realität“ und „Wahrheit“ im Kontext von „Daten“ neu zu definieren.

Wir leben bereits in einem Zeitalter der Desinformation, und es wird immer schwieriger, die Quelle und die Vorurteile aller Daten, die wir sehen, zu verstehen. Die Flut synthetischer Daten, die uns in Zukunft erwarten, wird die Grenze zwischen „Realität“ und „Künstlichkeit“ weiter verschwimmen lassen. Außerdem wird es für gewöhnliche Datenkonsumenten schwieriger, die Quelle der Originaldaten, die Methoden der Erfassung und Manipulation und letztendlich, wie viel Vertrauen sie diesen Daten entgegenbringen sollten, kritisch zu beurteilen.

Um sicherzustellen, dass die Synthetikdatenrevolution nicht zu einer Welt führt, die wir nicht beabsichtigen, müssen wir uns zuerst auf kleine Daten konzentrieren, nicht auf große Daten. Heutzutage ist ein Trend bei vielen Unternehmen zu beobachten, die sich auf die so genannte „datenbasierte Entscheidungsfindung“ konzentrieren, d. h. Entscheidungen auf der Grundlage aller verfügbaren Daten zu treffen, obwohl sie sich bewusst sind, dass die Datensätze verzerrt oder unvollständig sind. Deshalb sollten synthetische Daten auf den besten verfügbaren Realitätsdaten basieren. Darüber hinaus sollten diese Datensätze mit einem tiefen Verständnis des Kontexts, was in den Daten am wichtigsten ist und warum, sowie mit der Bereitstellung eines Datensatzes von höchstmöglicher Qualität am Anfang geliefert werden.

Wenn wir nicht auf einem strengen Verständnis der grundlegendsten menschlichen Phänomene basieren, wie z. B. der Diskrepanz zwischen dem, was Menschen sagen und tun, oder dem unerwarteten Einfluss des Lebens auf unser Handeln, laufen wir Gefahr, eine soziale Welt zu simulieren, die die Realität auf eine Weise bedroht, die sowohl Unternehmen als auch Einzelpersonen schadet.

Synthetische Daten werden in Zukunft einen viel größeren Teil unseres Lebens einnehmen. Sie haben das Potenzial, alles von den Algorithmen, die unsere Erfahrungen der Welt formen, bis hin zu unserem Verständnis von Daten und Realität neu zu gestalten. Es ist zu riskant, diese wichtigen Entscheidungen, selbst mit den besten Absichten, nur einigen Datenwissenschaftlern zu überlassen. Die Zusammenarbeit mit Experten aus den Bereichen Sozialwissenschaften und Geisteswissenschaften ist unerlässlich. Dies liegt nicht daran, dass synthetische Daten weniger hilfreich oder sogar schlechter sind als einige aktuelle Datensätze, sondern weil sie zu vielen Möglichkeiten führen können.

*Dieser Artikel basiert auf dem Originaltext vom 11. April 2023 inDie elektronische Zeitung mit benannten Kolumnenveröffentlicht.

Referenzen

Forschung ohne den Stress mit echten Menschen

Der AI-Stand der Dinge

Benutzerforschung ohne Synthese

Synthetische Forschung & Silicon-Sampling // BrXnd Dispatch vol. 010
Wir müssen über synthetische Daten sprechen⁠⁠⁠⁠⁠⁠⁠

Kommentare0