Синтетические данные: когда машины становятся потребителями

Язык написания: Корейский
•
Страна: Все страны
•
ИТ

Создано: 2024-05-10

Создано: 2024-05-10 14:06

Тестируйте идеи и продукты вместе с синтетическими потребителями и принимайте решения с уверенностью.

Синтетические данные: когда машины становятся потребителями

Synthetic users, предоставляющие услуги пользовательских исследований без реальных пользователей

Появившийся в феврале сервис Synthetic Users, как следует из его названия, предлагает в качестве объектов пользовательских исследований, связанных с разработкой продуктов, не реальных людей, а сгенерированных виртуальных потребителей. Можно проводить интервью и опросы с виртуальными людьми, получать обратную связь об опыте использования продукта, а также использовать функции настройки конкретных ситуаций целевых клиентов, например, пары из Европы, находящейся в длительных отношениях, и получать соответствующие данные интервью (100 интервью — 380 долларов), что обеспечивает значительную экономию средств. Сообщество специалистов в области этнографии, социологии и антропологии, которые познакомились с этим сервисом, высказало различные реакции — от недовольства и чувства тревоги до развлечения.

Это включает в себя беспокойство о том, что критерии, определяющие сущность человека, его цели, удовольствия и ценности, которые являются не «синтезированными» произведениями, а предметом исследований, направленных на понимание человека как такового, могут быть неожиданно легко скопированы и поняты, а также циничный взгляд на то, что сложные социально-политические обстоятельства и взаимосвязи, в которых формируются реальные проблемы, с которыми сталкиваются люди в реальной жизни, могут быть недостаточно адекватно смоделированы.

На самом деле, такие синтетические данные не являются чем-то новым. Синтетические данные особенно полезны, когда сложно получить набор данных. Например, при виртуальном моделировании автомобилей производители автомобилей могут имитировать поведение водителей, чтобы обучить модель в широком диапазоне ситуаций, или для создания набора данных, в котором сохраняются статистические характеристики, но удаляются идентифицирующие данные, с целью ускорить доступность для исследователей и совместное использование данных более чем 2,7 миллионов записей пациентов с COVID-19 по всему миру.

Однако нынешняя ситуация, когда ChatGPT быстро распространяется и применяется практически во всех сферах услуг, привела к тому, что и без того стремительно растущий спрос на синтетические данные резко возрос, и область его применения расширилась до сервисов, которые заявляют о возможности замены человеческой повседневной жизни, связанной с получением информации, синтетическими данными.

В частности, сервис Synthetic Users наиболее наглядно демонстрирует опасения, связанные с использованием синтетических данных, то есть необходимость переосмысления определения «данных» и «правды» в свете «разрыва с реальностью».

Мы уже живем в эпоху дезинформации, и все труднее становится понимать источник и предубеждения всех данных, которые мы видим. Нашествие синтетических данных, которое ожидает нас в будущем, не только размоет грань между «реальным» и «искусственным», но и усложнит задачу для обычных потребителей данных критически оценивать источник исходных данных, методы сбора и обработки, а также уровень доверия к полученным результатам.

Поэтому, чтобы синтетическая революция данных не привела к созданию мира, которого мы не хотели, нужно начать с понимания того, что важнее больших данных — небольшие данные. Сегодня многие компании склонны концентрироваться на так называемом «принятии решений на основе данных», принимая решения на основе всех доступных данных, даже если они явно предвзяты или неполны. Поэтому синтетические данные должны основываться на лучших доступных реальных данных. Кроме того, при этом необходимо обеспечить доступ к набору исходных данных наивысшего качества с глубоким контекстуальным пониманием того, что важнее всего в этих данных и почему.

Если не опираться на строгое понимание самых последних фундаментальных человеческих явлений, таких как разница между тем, что говорят люди, и тем, что они делают, или непредвиденные последствия для жизни наших действий, существует риск смоделировать социальный мир, который угрожает реальности таким образом, который может навредить как компаниям, так и обычным людям.

В будущем синтетические данные будут занимать гораздо более значительную часть нашей повседневной жизни. Они обладают потенциалом для переосмысления всего — от алгоритмов, формирующих наш опыт мира, до нашего понимания данных и реальности. Поручать такие важные решения только некоторым ученым-данным, даже при самых лучших намерениях, слишком рискованно. Необходима совместная работа с экспертами в области социальных и гуманитарных наук. Это происходит не потому, что синтетические данные в настоящее время менее полезны или даже хуже, чем некоторые наборы данных, а скорее из-за страха перед слишком большим количеством возможностей, которые они могут предоставить.

*Эта статья является оригинальной версией статьи, опубликованной 11 апреля 2023 года в колонке Electronic News.

Ссылки

Исследования без головной боли от реальных людей

Состояние ИИ

Исследование пользователей без синтезирования

Синтетические исследования и кремниевое семплирование // Диспетчерская BrXnd том 010
Нам нужно поговорить о синтетических данных⁠⁠⁠⁠⁠⁠⁠

Краткое содержание от durumis

Синтетические данные позволяют использовать виртуальных потребителей для пользовательских исследований, что снижает затраты и повышает эффективность, но вызывает опасения по поводу того, что они могут не отражать истинную природу человека и социальные условия.
В частности, с появлением ChatGPT спрос на синтетические данные резко вырос, что повышает вероятность усиления разрыва с реальностью и размывания границ между данными и правдой.
Поэтому синтетические данные должны основываться на высококачественных реальных данных, а также создаваться в сотрудничестве со специалистами в области социальных и гуманитарных наук с учетом этических вопросов

Комментарии0