Nghiên cứu được công bố bởi các nhà nghiên cứu tại Đại học Stanford vào ngày 18 vừa qua đã cho thấy mức độ bí mật, và tiềm ẩn nguy hiểm của GPT-4 cũng như các hệ thống AI tiên tiến khác.
Giới thiệu Chỉ số Minh bạch Mô hình Cơ sở, Đại học Stanford
Họ đã điều tra tổng cộng 10 hệ thống AI khác nhau, phần lớn là các mô hình ngôn ngữ lớn (LLM) được sử dụng trong ChatGPT và các chatbot khác. Bao gồm các mô hình thương mại phổ biến như GPT-4 của OpenAI, PaLM 2 của Google, Titan Text của Amazon, và đánh giá mức độ minh bạch của chúng dựa trên 13 tiêu chí. Các tiêu chí này bao gồm mức độ minh bạch mà các nhà phát triển công khai về dữ liệu được sử dụng để huấn luyện mô hình (bao gồm phương pháp thu thập và chú thích dữ liệu, việc sử dụng tài liệu có bản quyền, v.v.). Ngoài ra, họ cũng điều tra xem các nhà phát triển có công khai thông tin về phần cứng được sử dụng để huấn luyện và vận hành mô hình, khung phần mềm được sử dụng và lượng năng lượng tiêu thụ của dự án hay không.
Kết quả cho thấy không có mô hình AI nào đạt được trên 54% trên thang đo minh bạch trên tất cả các tiêu chí đã đề cập. Nhìn chung, Titan Text của Amazon được đánh giá là có mức độ minh bạch thấp nhất, trong khi Llama 2 của Meta được đánh giá là có mức độ minh bạch cao nhất. Điều thú vị là Llama 2, đại diện cho mô hình nguồn mở trong cuộc đối đầu giữa các mô hình nguồn mở và nguồn đóng gần đây, mặc dù là mô hình nguồn mở nhưng lại không công khai dữ liệu được sử dụng để huấn luyện, cũng như cách thu thập và quản lý dữ liệu. Điều này cho thấy rằng, mặc dù ảnh hưởng của AI đối với xã hội ngày càng tăng, nhưng sự thiếu minh bạch trong ngành vẫn là một hiện tượng phổ biến và liên tục được ghi nhận.
Điều này có nghĩa là ngành công nghiệp AI sớm muộn cũng sẽ có nguy cơ trở thành một lĩnh vực tập trung vào lợi nhuận hơn là phát triển khoa học, và có khả năng dẫn đến một tương lai độc quyền do một số doanh nghiệp nhất định chi phối.
Eric Lee/Bloomberg qua Getty Images
CEO của OpenAI, Sam Altman, đã công khai gặp gỡ các nhà hoạch định chính sách trên toàn thế giới để giải thích cho họ về trí tuệ nhân tạo mới và chưa từng có này, và bày tỏ mong muốn hỗ trợ trong việc cụ thể hóa các quy định liên quan. Tuy nhiên, mặc dù ủng hộ ý tưởng về một tổ chức quốc tế giám sát AI, ông cũng cho rằng một số quy định hạn chế, chẳng hạn như cấm tất cả các tài liệu có bản quyền khỏi tập dữ liệu, có thể trở thành rào cản không công bằng. Điều này cho thấy rõ ràng rằng 'sự cởi mở' được thể hiện trong tên công ty OpenAI đã thay đổi so với sự minh bạch cấp tiến mà họ đã đưa ra ngay từ đầu.
Tuy nhiên, kết quả của báo cáo Stanford cũng cho thấy rằng không nhất thiết phải giữ bí mật về các mô hình của mình vì mục đích cạnh tranh. Bởi vì kết quả này cũng là một chỉ số cho thấy hầu hết các công ty đều đang gặp khó khăn. Ví dụ, không có công ty nào cung cấp thống kê về số lượng người dùng dựa vào mô hình của họ, hoặc về khu vực hoặc phân khúc thị trường nơi mô hình của họ được sử dụng.
Trong các tổ chức theo nguyên tắc mã nguồn mở, có một câu tục ngữ rằng 'nhiều mắt nhìn thấy nhiều lỗi'. (Linus's law) Số lượng nguyên thủy giúp tìm ra vấn đề và phát hiện ra những vấn đề có thể được giải quyết và sửa chữa.
Tuy nhiên, việc thực hành mã nguồn mở cũng có xu hướng làm giảm dần vị thế và sự công nhận về giá trị xã hội của các công ty công khai, cả bên trong lẫn bên ngoài, vì vậy việc nhấn mạnh một cách vô điều kiện là không có ý nghĩa nhiều. Do đó, thay vì tập trung vào khuôn khổ mô hình có phải là nguồn mở hay nguồn đóng, chúng ta nên tập trung vào việc mở rộng dần dần khả năng tiếp cận bên ngoài đối với ‘dữ liệu’ làm nền tảng cho các mô hình AI sẽ là lựa chọn tốt hơn.
Đối với sự phát triển của khoa học, việc đảm bảo tính khả tái tạo (Reproducibility), tức là xác minh lại kết quả nghiên cứu cụ thể có xuất hiện trở lại hay không, là rất quan trọng. Nếu không cụ thể hóa các phương án đảm bảo tính minh bạch đối với các thành phần cấu tạo chính của từng mô hình, ngành công nghiệp này sẽ có khả năng bị mắc kẹt trong tình trạng độc quyền, khép kín và trì trệ. Và điều này cần phải được coi là một ưu tiên quan trọng trong bối cảnh công nghệ AI đang nhanh chóng len lỏi vào mọi ngành nghề hiện nay và trong tương lai.
Việc hiểu biết về dữ liệu đang trở nên quan trọng đối với các nhà báo và nhà khoa học, và tính minh bạch là điều kiện tiên quyết cho các nỗ lực về chính sách trong tương lai. Đối với công chúng, tính minh bạch cũng rất quan trọng bởi vì với tư cách là người dùng cuối cùng của các hệ thống AI, họ có thể trở thành nạn nhân hoặc thủ phạm của các vấn đề tiềm ẩn liên quan đến quyền sở hữu trí tuệ, mức tiêu thụ năng lượng và định kiến. Sam Altman lập luận rằng nguy cơ tuyệt chủng của loài người do AI nên trở thành ưu tiên toàn cầu, tương tự như các mối nguy hiểm cấp độ xã hội khác như đại dịch hoặc chiến tranh hạt nhân. Tuy nhiên, chúng ta không nên quên rằng việc duy trì sự tồn tại của xã hội chúng ta, trong mối quan hệ lành mạnh với AI đang phát triển, là điều kiện tiên quyết trước khi đối mặt với những tình huống nguy hiểm mà ông đề cập.
*Bài viết này là bản gốc của bài viết đăng trên chuyên mục bài viết có tên của báo điện tử vào ngày 23 tháng 10 năm 2023.
Tài liệu tham khảo
Bình luận0