합성 데이터: 기계가 소비자가 되다

AI가 번역한 다른 언어 보기

Byungchae Ryan Son

합성 데이터: 기계가 소비자가 되다

작성 언어: 한국어
•
기준국가: 모든 국가
•
IT

Byungchae Ryan Son

0000-00-00 00:00:00

언어 선택

한국어
English
汉语
Español
Bahasa Indonesia
Português
Русский
日本語
Deutsch
Français
Italiano
Türkçe
Tiếng Việt
ไทย
Polski
Nederlands
हिन्दी
Magyar

durumis AI가 요약한 글

AI 합성 소비자를 이용한 제품 개발 및 사용자 리서치 서비스가 등장하며 실제 사람을 대상으로 한 리서치의 대안으로 떠올랐지만, 이는 현실과의 격차, 데이터와 진실에 대한 정의 문제를 야기할 수 있다는 우려가 제기된다.
합성 데이터는 특히 현실 데이터를 확보하기 어려운 상황에서 유용하지만, 이는 잘못된 정보 확산 및 실제와 인공의 경계 모호화를 초래할 수 있으며, 데이터의 출처 및 신뢰성에 대한 비판적 검토가 어려워질 수 있다.
따라서 합성 데이터는 현실 데이터를 기반으로 하고, 데이터의 중요성에 대한 맥락적 이해와 더불어 높은 품질의 초기 데이터 세트를 제공해야 하며, 사회과학 및 인문과학 전문가들과의 협업을 통해 합성 데이터가 사회에 미칠 영향을 최소화하고 윤리적인 사용을 위한 노력이 필요하다.

"AI 합성 소비자와 함께 아이디어나 제품을 테스트하고 자신 있게 의사 결정을 내리세요."

user가 없는 user research 서비스를 제공하는 Synthetic users

지난 2월 등장한 Synthetic Users 서비스는 이름 그대로 제품 개발과 관련한 사용자 리서치의 대상을 실제 인간이 아닌 생성된 가상 소비자로 제공한다. 가상의 인간들을 대상으로 인터뷰 및 설문조사 진행이 가능하며 제품 사용 경험 관련 피드백도 얻을 수 있고 장기 연애 중인 유럽의 커플 등과 같은 타겟 고객의 구체적 상황 설정 기능 및 관련 인터뷰 데이터 100개에 380달러라는 획기적인 비용 절감 효과까지 제공한다. 그리고 해당 서비스를 접한 민족지학, 사회학, 인류학 전공자들의 커뮤니티에서는 불쾌하다, 위기감을 느낀다 혹은 재미있다는 다양한 반응을 쏟아내고 있다.

이는 '합성된' 창작물이 아닌 사람 자체를 이해하는 작업인 질적 리서치에서 인간 본연의 정체성, 목적, 즐거움, 가치에 대한 기준이 생각보다 쉽게 복사되고 이해될 수 있는 게 아닐까라는 불안감과 실제 사람들이 현실에서 겪는 골칫거리가 구성되는 복잡한 사회 정치적 상황 및 상호 이해관계를 충분히 구현하지 못할 거라는 냉소적 시선들을 포함한다.

사실 이 같은 합성 데이터는 새로운 개념이 아니다. 합성 데이터는 데이터 집합을 구하기 어려울 때 특히 유용해 자동차 제조업체의 가상 자동차 시뮬레이션 시 운전자 행동을 모방하여 방대하고 다양한 상황에서 모델을 훈련하는데 활용되거나 270만 명 이상의 코로나 19 환자 기록 데이터를 복제해 통계적 특성은 동일하지만 식별 정보가 없는 데이터 세트를 만들어 전 세계 연구자들이 신속하게 공유하고 연구할 수 있도록 사용되기도 했다.

하지만 챗GPT가 거의 모든 분야의 서비스에 적용되어 급격히 퍼져나가고 있는 현 상황은 이미 급증하고 있던 합성 데이터의 수요가 더 폭발적으로 증가하는 계기가 되었고 그 범위가 이제는 인사이트를 얻는 인간의 일상마저 합성 데이터로 대체될 수 있다고 주장하는 서비스까지 낳게 된 것이다.

특히 Synthetic Users 서비스가 가장 명확하게 드러내는 합성 데이터 활용 관련 우려는 ‘현실과의 격차’ 즉, ‘데이터’와 ‘진실’에 대한 정의가 새로워져야 할 필요를 확인케 한다.

우리는 이미 잘못된 정보의 시대에 살고 있으며, 우리가 보는 모든 데이터의 출처와 편견을 이해하는 것이 점점 더 어려워지고 있다. 앞으로 쏟아질 합성 데이터의 홍수는 '실제'와 '인공' 사이의 경계를 더욱 모호하게 만들 뿐만 아니라 일반 데이터 소비자가 원본 데이터의 출처, 수집 및 조작 방법, 결과적으로 어느 정도까지 신뢰해야 하는지 비판적으로 평가하는 것을 더 어렵게 만들 것이다.

때문에 합성 데이터 혁명이 우리가 의도하지 않은 세상을 생성하지 않도록 하기 위해 가장 중요한 시작은 큰 데이터가 아닌 작은 데이터라는 점에 주목해야 한다. 오늘날 많은 기업이 편향되거나 불완전한 데이터 세트가 분명한데도 사용 가능한 모든 데이터에 기반해 의사 결정을 내리는 소위 '데이터 기반 의사 결정'에 집중하는 경향을 볼 수 있다. 때문에 합성 데이터는 우리가 찾을 수 있는 최고의 현실 데이터에서 비롯되어야 한다. 또한 이때 데이터에서 가장 중요한 것이 무엇이고 왜 중요한지에 대한 깊은 맥락적 이해와 함께 가능한 최고 품질의 초기 데이터 집합을 제공해야 한다.

사람들이 말하는 것과 행동하는 것의 차이 또는 우리가 취하는 행동에 대한 삶의 예상치 못한 영향과 같은 가장 최근의 근본적인 인간 현상에 대한 엄격한 이해를 기반으로 하지 않는다면, 회사와 일반인 모두에게 해를 끼치는 방식으로 현실을 위협하는 사회 세계를 시뮬레이션할 위험이 있기 때문이다.

앞으로 합성 데이터는 우리 일상에서 훨씬 더 큰 부분을 차지하게 될 것이다. 세상에 대한 우리의 경험을 형성하는 알고리즘부터 데이터와 현실에 대한 이해에 이르기까지 모든 것을 재구성할 수 있는 잠재력을 가지고 있다. 이러한 중요한 결정을 아무리 좋은 의도를 가지고 있다 하더라도 일부 데이터 과학자에게만 맡기기에는 위험 부담이 너무 크며. 사회과학 및 인문과학 분야의 전문가들과의 협업을 필요로 할 것이다. 이는 단순히 합성 데이터가 현재의 일부 데이터 세트보다 도움이 되지 않거나 더 나빠서가 아니라, 오히려 너무 많은 가능성을 이룰 수 있다는 두려움에 기인한다.

*이 글은 23년 4월 11일 자 전자신문 기명칼럼에 게재된 내용의 원본입니다.

References

Research without the headache of actual people

The AI State of the Union

User research Without the synthesising

Synthetic Research & Silicon Sampling // BrXnd Dispatch vol. 010
We Need to Talk About Synthetic Data⁠⁠⁠⁠⁠⁠⁠

durumis AI가 요약한 글

AI 합성 소비자를 이용한 제품 개발 및 사용자 리서치 서비스가 등장하며 실제 사람을 대상으로 한 리서치의 대안으로 떠올랐지만, 이는 현실과의 격차, 데이터와 진실에 대한 정의 문제를 야기할 수 있다는 우려가 제기된다.
합성 데이터는 특히 현실 데이터를 확보하기 어려운 상황에서 유용하지만, 이는 잘못된 정보 확산 및 실제와 인공의 경계 모호화를 초래할 수 있으며, 데이터의 출처 및 신뢰성에 대한 비판적 검토가 어려워질 수 있다.
따라서 합성 데이터는 현실 데이터를 기반으로 하고, 데이터의 중요성에 대한 맥락적 이해와 더불어 높은 품질의 초기 데이터 세트를 제공해야 하며, 사회과학 및 인문과학 전문가들과의 협업을 통해 합성 데이터가 사회에 미칠 영향을 최소화하고 윤리적인 사용을 위한 노력이 필요하다.

Byungchae Ryan Son: Byungchae Ryan Son; 찾아가 관찰하고 경청하는 일을 합니다.

이 작성자의 다른 글
전체 글 보기

알고리즘과의 우리의 관계 변화 최근 주목받는 ChatGPT 등 생성 AI는 인간 과학자의 역할을 수 초 만에 처리할 정도로 똑똑해지고 있습니다. 하지만 생성 AI 알고리즘은 사용자의 입력에 따라 결과물을 만들어내므로, 인간과의 관계를 새롭게 정의해야 합니다.

2024년 5월 9일

Big Data가 만드는 오해 빅 데이터는 기업에게 기대 이상의 통찰력을 제공하지 못한다는 사실이 밝혀졌습니다. 빅 데이터는 인간 행동의 '상관관계'에만 집중하며 '인과관계'는 무시하기 때문에, 사람에 대한 오해를 불러올 수 있습니다.

2024년 5월 7일

Bing 챗봇과 인간 사회 챗GPT 기반 빙 챗봇은 인간의 질문에 대한 답변을 생성하지만, 맥락과 진실성이 부족하여 잘못된 정보를 제공할 수 있습니다. 빙 챗봇의 답변은 인간의 주체적 판단 없이는 진실에 가까워질 수 없다는 것을 보여주며, AI 챗봇의 답변에 대한 분별력을 가져야 합니다.

2024년 5월 10일