Cuối tuần trước, Open AI đã công bố dịch vụ mới Sora. Sora cho phép tạo video AI bằng cách nhập văn bản, và ngay sau khi ra mắt đã nhận được nhiều lời khen ngợi từ các nhà đánh giá. Các video demo được tạo ra chỉ với vài dòng văn bản đơn giản đã thể hiện được độ chân thực cao, ngang tầm với các cảnh quay được lên kế hoạch, đạo diễn và quay phim trong các quảng cáo hoặc phim ảnh, chẳng hạn như video quay chậm một người đàn ông trung niên đang ăn hamburger, hoặc cảnh quay góc cao chụp một con phố ở Nhật Bản với hai người đang đi bộ.
Cùng ngày, Open AI đã công bố báo cáo kỹ thuật, trong đó mô tả Sora là một trình mô phỏng thế giới.Nếu việc trừu tượng hóa thông qua văn bản và kết nối với không gian tham số có thể tạo ra mức độ trừu tượng hóa chân thực đến vậy, thì điều này sẽ tác động rất lớn đến khả năng suy luận của các mô hình GPT trong tương lai. Ý nghĩa của nó, xét về mặt ảnh hưởng của AI đối với xã hội loài người, có thể nói là vô cùng to lớn.
Yêu cầu: Cảnh một người đang chạy được in từng bước, cảnh quay điện ảnh 35mm.
Tuy nhiên, Sora vẫn còn nhiều hạn chế. Ví dụ, một người cắn một miếng bánh quy nhưng sau đó vết cắn lại biến mất, hoặc một người đang chạy trên máy chạy bộ nhưng lại hướng về phía sau thay vì phía trước có bảng điều khiển và có những cử động tay chân vụng về, v.v. Điều này cho thấy Sora vẫn chưa thể hiểu và thể hiện chính xác các chi tiết không gian cụ thể do người dùng cung cấp, cũng như những thay đổi theo thời gian. Việc gặp khó khăn trong việc thể hiện các ví dụ về mối quan hệ giữa nguyên nhân và kết quả, và mô phỏng vật lý trong những cảnh phức tạp, cũng là bằng chứng cho thấy AI vẫn chưa thực sự hiểu được thế giới. Tuy nhiên, xét đến việc Open AI đã ký hợp đồng với Shutter Stock – nơi sở hữu 35 triệu hình ảnh và video độ phân giải cao – để huấn luyện AI trong 6 năm tới (như đã công bố vào năm 2023), thì việc các hình ảnh và video do AI tạo ra trong tương lai sẽ ngày càng gần với chất lượng của sản phẩm do con người tạo ra trong thực tế là điều không khó dự đoán.
Nhà khảo cổ học người Anh David Wengrow trong cuốn sách "Nguồn gốc của Quái vật" (The Origins of Monsters) xuất bản năm 2013 đã lập luận rằng, từ thời Ai Cập cổ đại, nền văn minh Lưỡng Hà, cho đến thời đại đồ sắt ở Địa Trung Hải, trong giai đoạn các thành phố hình thành và các nền văn minh phát triển mạnh mẽ, cùng với sự mở rộng của mạng lưới chính trị và thương mại, không có khu vực nào không xuất hiện những hình ảnh thị giác về các sinh vật phi thực tế, kỳ ảo và phức tạp.
Hình ảnh các sinh vật kỳ ảo từ các gò Pazyryk và Tuekta, miền Nam nước Nga
Hình ảnh đồ họa miêu tả những con quái vật tổng hợp như Griffin (có thân sư tử, đầu và cánh đại bàng), Minotaur (có thân người và đầu bò),... đã được những người sống trong thời đại đó ghi lại trên các bức bích họa và văn bản, và được truyền bá theo các tuyến đường thương mại mở rộng để phục vụ cho việc củng cố vị thế của tầng lớp tinh hoa. Hành động phân tách các bộ phận cơ thể hoặc các đặc điểm khác nhau của nhiều loài và kết hợp chúng lại để tạo ra hình ảnh của một thực thể tương ứng với một thế giới mở rộng vô hình có thể được giải thích là do sự thay đổi xã hội, từ quan điểm cho rằng bản thân nhóm họ hàng là "toàn bộ" trong hoạt động sản xuất sang nhận thức về bản thân như một "phần" trong một xã hội mở rộng hơn, với sự gia tăng phân công lao động giữa những người chưa từng gặp gỡ. Điều này dẫn đến sự lo sợ và cảm giác bất an. Nói cách khác, việc khám phá ra mối quan hệ giữa sự sáng tạo của những sản phẩm tổng hợp, sự phát triển của kỹ thuật và nhận thức về bản thân chính là một trong những thông điệp mà ông muốn chia sẻ.
Chúng ta đã chứng kiến vô số hình ảnh thú vị nhưng kỳ dị, vượt ra khỏi giới hạn cơ thể con người, được tạo ra từ các chương trình tạo ảnh AI như Midjourney, DALL-E từ năm ngoái, chẳng hạn như bức tượng Người Nhện thời La Mã, phi hành gia cưỡi ngựa trên bề mặt Mặt Trăng, hoặc robot có ba cánh tay đang vẽ tranh. Và với Sora vừa được công bố, việc lan truyền các video do AI tạo ra sẽ diễn ra nhanh hơn nữa. Điều quan trọng là mô tả và truyền bá về quái vật – hay nói cách khác là những sản phẩm tổng hợp – đang lặp lại trong thời đại AI hiện nay, giống như những ghi chép trong lịch sử loài người sơ khai.Dòng chảy này không đơn giản chỉ là một xu hướng, mà có thể được gọi là "không khí" (vibe) bao trùm thế giới trong thời đại này.Mặc dù cách diễn đạt này không mới, nhưng chúng ta đang ở một thời điểm chuyển giao đáng chú ý khi tiến đến kỷ nguyên AI, vì vậy cần phải tiếp nhận dòng chảy này một cách nghiêm túc hơn.
Các video ngắn trên YouTube, TikTok, nơi không có không gian cho các lập luận hoặc giải thích dài dòng, và là những nền tảng được tiêu thụ nhiều nhất và có tính gây nghiện cao, đãchứng minh cho hiện tượng tiêu thụ hình ảnh phi ngữ cảnh trong xã hội.Hình ảnh thơ mộng, mang tính tức thời và liên tưởng ngày càng trở nên quan trọng hơn, điều này đồng nghĩa với việcquan điểm liên quan đến việc giải thích, vốn chỉ ra đâu là thông tin, đã bị đảo ngược.
Nói tóm lại,không phải là chúng ta nên xem cái gì, mà là chúng ta nên xem như thế nào.
Chúng ta cần phải lựa chọn một cách tiếp cận khác, mang tính nghĩa lý và phân tích hơn đối với các xu hướng và hiện tượng liên quan đến cơ thể. Trong thời đại mà triết lý của các thương hiệu đồ lót tôn vinh vẻ đẹp tự nhiên và sự tự tin của nhiều hình thể khác nhau, thay vì vẻ đẹp lý tưởng của các người mẫu trong các chiến dịch quảng cáo của Guess hay Calvin Klein; trong thời đại mà hình ảnh son môi màu hồng trên đôi môi của một người không rõ là nam hay nữ lại trở thành biểu tượng của một chiến lược tiếp cận hiệu quả đối với giới trẻ, thì việc tưởng tượng về tương lai của công nghệ và bàn luận về sự phát triển của công nghệ luôn đi kèm với sự hiện diện của cơ thể con người. Câu hỏi về cách nhìn nhận cơ thể con người sẽ ngày càng trở nên phức tạp và quan trọng hơn trong tương lai.
Tài liệu tham khảo
Bình luận0