Dữ liệu tổng hợp: Khi máy móc trở thành người tiêu dùng

"Hãy thử nghiệm ý tưởng hoặc sản phẩm cùng với người tiêu dùng tổng hợp (AI 합성 소비자) và đưa ra quyết định một cách tự tin."

Synthetic users cung cấp dịch vụ nghiên cứu người dùng không cần người dùng thực

Ra mắt vào tháng 2 vừa qua, dịch vụ Synthetic Users đúng như tên gọi, cung cấp đối tượng nghiên cứu người dùng liên quan đến phát triển sản phẩm không phải là con người thật mà là người tiêu dùng ảo được tạo ra. Người dùng có thể thực hiện phỏng vấn và khảo sát đối với những con người ảo này, đồng thời cũng có thể nhận được phản hồi về trải nghiệm sử dụng sản phẩm. Ngoài ra, dịch vụ còn cung cấp chức năng thiết lập tình huống cụ thể cho khách hàng mục tiêu, ví dụ như các cặp đôi châu Âu đang yêu lâu năm, cùng với dữ liệu phỏng vấn liên quan. Đặc biệt, chi phí tiết kiệm đáng kể, chỉ 380 USD cho 100 dữ liệu phỏng vấn. Và khi tiếp cận với dịch vụ này, các cộng đồng chuyên gia trong lĩnh vực dân tộc học, xã hội học, nhân chủng học đã đưa ra những phản hồi đa dạng, từ khó chịu, lo lắng cho đến thích thú.

Điều này bao gồm cả nỗi lo ngại rằng liệu bản sắc, mục đích, niềm vui và giá trị vốn có của con người có thể bị sao chép và hiểu một cách dễ dàng trong nghiên cứu định tính, vốn là công việc tập trung vào việc hiểu con người chứ không phải các tác phẩm 'được tổng hợp' hay không. Cùng với đó là cái nhìn hoài nghi rằng liệu những dịch vụ này có thể tái hiện đầy đủ các tình huống xã hội - chính trị phức tạp, các mối quan hệ tương hỗ và những vấn đề nan giải mà con người gặp phải trong đời sống thực hay không.

Thực tế, dữ liệu tổng hợp (합성 데이터) không phải là một khái niệm mới. Dữ liệu tổng hợp đặc biệt hữu ích trong những trường hợp khó thu thập dữ liệu. Ví dụ, trong mô phỏng xe hơi ảo của các nhà sản xuất ô tô, nó được sử dụng để bắt chước hành vi của người lái xe và huấn luyện mô hình trong nhiều tình huống đa dạng. Hay như việc sao chép dữ liệu hồ sơ của hơn 2,7 triệu bệnh nhân COVID-19, tạo ra một tập dữ liệu không có thông tin nhận dạng nhưng vẫn giữ nguyên đặc điểm thống kê, cho phép các nhà nghiên cứu trên toàn thế giới chia sẻ và nghiên cứu nhanh chóng.

Tuy nhiên, trong bối cảnh hiện tại, ChatGPT đang được áp dụng rộng rãi vào hầu hết các dịch vụ, khiến nhu cầu về dữ liệu tổng hợp vốn đang gia tăng bỗng nhiên bùng nổ, và phạm vi của nó đã mở rộng đến mức có cả những dịch vụ khẳng định rằng ngay cả đời sống thường nhật của con người, nơi họ có được những hiểu biết, cũng có thể được thay thế bằng dữ liệu tổng hợp.

Đặc biệt, mối lo ngại liên quan đến việc sử dụng dữ liệu tổng hợp mà dịch vụ Synthetic Users thể hiện rõ nhất làsự ‘chênh lệch với thực tế’, cụ thể là cần phải định nghĩa lại ‘dữ liệu’ và ‘sự thật’.

Chúng ta đang sống trong thời đại của thông tin sai lệch, và việc hiểu rõ nguồn gốc cũng như định kiến của mọi dữ liệu mà chúng ta tiếp cận ngày càng trở nên khó khăn. Làn sóng dữ liệu tổng hợp sắp tới sẽ không chỉ làm mờ ranh giới giữa ‘thực tế’ và ‘nhân tạo’, mà còn khiến người tiêu dùng dữ liệu thông thường khó có thể đánh giá một cách phê phán về nguồn gốc dữ liệu ban đầu, phương pháp thu thập và thao tác, và cuối cùng là mức độ tin cậy mà họ nên dành cho nó.

Do đó, để cuộc cách mạng dữ liệu tổng hợp không tạo ra một thế giới mà chúng ta không mong muốn, điều quan trọng nhất cần bắt đầu là chú ý đến dữ liệu nhỏ (작은 데이터) thay vì dữ liệu lớn. Ngày nay, nhiều doanh nghiệp có xu hướng tập trung vào cái gọi là ‘quyết định dựa trên dữ liệu’, tức là đưa ra quyết định dựa trên mọi dữ liệu có sẵn, ngay cả khi tập dữ liệu đó rõ ràng là bị lệch lạc hoặc không đầy đủ. Vì vậy, dữ liệu tổng hợp phải bắt nguồn từ những dữ liệu thực tế tốt nhất mà chúng ta có thể tìm thấy. Đồng thời, cần phải cung cấp tập hợp dữ liệu ban đầu có chất lượng tốt nhất, kèm theo đó là sự hiểu biết sâu sắc về ngữ cảnh, về những gì quan trọng nhất trong dữ liệu và lý do tại sao nó quan trọng.

Bởi vì, nếu không dựa trên sự hiểu biết nghiêm ngặt về những hiện tượng cơ bản nhất của con người gần đây, chẳng hạn như sự khác biệt giữa lời nói và hành động, hoặc những tác động không lường trước của cuộc sống đối với hành vi của chúng ta, thì chúng ta có nguy cơ mô phỏng một thế giới xã hội đe dọa đến thực tế theo cách gây hại cho cả doanh nghiệp và cá nhân.

Trong tương lai, dữ liệu tổng hợp sẽ chiếm một phần quan trọng hơn trong cuộc sống hàng ngày của chúng ta. Nó có tiềm năng tái cấu trúc mọi thứ, từ các thuật toán định hình trải nghiệm của chúng ta về thế giới đến sự hiểu biết của chúng ta về dữ liệu và thực tế. Những quyết định quan trọng này, dù với ý định tốt đến đâu, cũng không nên chỉ giao phó cho một số nhà khoa học dữ liệu. Chúng ta cần sự hợp tác của các chuyên gia trong lĩnh vực khoa học xã hội và nhân văn. Điều này không chỉ đơn giản là vì dữ liệu tổng hợp không hữu ích hoặc thậm chí còn tệ hơn so với một số tập dữ liệu hiện có, mà còn vì nó mang đến quá nhiều khả năng, khiến chúng ta cảm thấy sợ hãi.

*Bài viết này là bản gốc được đăng tải trên Cột mốc của báo điện tửvào ngày 11 tháng 4 năm 2023.

Tài liệu tham khảo

Nghiên cứu mà không cần phải đau đầu với con người thật

Tình hình trí tuệ nhân tạo

Nghiên cứu người dùng mà không cần tổng hợp

Nghiên cứu tổng hợp & Lấy mẫu Silicon // Bản tin BrXnd tập 010
Chúng ta cần phải nói về dữ liệu tổng hợp⁠⁠⁠⁠⁠⁠⁠

Bình luận0