DeepMind tin rằng mô hình Genie 3 là bước đệm quan trọng đến AGI

DeepMind tin rằng mô hình Genie 3 là bước đệm quan trọng đến AGI

Genie 3 của DeepMind đánh dấu bước tiến khi cho phép tạo môi trường 3D sống động theo thời gian thực, mở ra tiềm năng cho AI tương tác linh hoạt hơn.

Facebook

Telegram

Khi nói đến AI thông minh như con người, giới công nghệ thường nhắc đến khái niệm “AGI” viết tắt của “Artificial General Intelligence”, tức trí tuệ nhân tạo tổng quát. Không giống các hệ thống AI hiện nay vốn chỉ giỏi một vài tác vụ cụ thể (như viết văn bản, nhận diện hình ảnh hay dịch ngôn ngữ), AGI là dạng AI có thể học, suy luận và thích nghi với bất kỳ nhiệm vụ nào giống như cách con người tiếp cận thế giới xung quanh.

Genie 3 là gì và vì sao được xem là bước đệm đến AGI

DeepMind – phòng nghiên cứu AI hàng đầu thuộc Google vừa giới thiệu Genie 3, mô hình nền tảng (foundation model) mới nhất trong nỗ lực xây dựng AI có thể hiểu và tương tác với thế giới một cách linh hoạt. Dù vẫn đang ở giai đoạn thử nghiệm nội bộ và chưa công bố rộng rãi, Genie 3 được DeepMind đánh giá là “mô hình thế giới đa năng tương tác theo thời gian thực đầu tiên”.

Theo Shlomi Fruchter, giám đốc nghiên cứu tại DeepMind, Genie 3 không còn bị giới hạn trong các môi trường cố định như những mô hình trước đó. Thay vào đó, nó có thể tạo ra cả các thế giới giả lập giống thật lẫn không tưởng, phản hồi lại các lệnh văn bản từ người dùng. Quan trọng hơn, mô hình này có khả năng “ghi nhớ” các yếu tố đã được tạo ra trước đó để đảm bảo tính nhất quán vật lý, một đặc điểm chưa từng xuất hiện rõ rệt ở các thế hệ trước.

DeepMind cho rằng các mô hình thế giới như Genie 3 sẽ đóng vai trò nền tảng cho việc huấn luyện các agent AI đa năng trong tương lai đặc biệt là các agent hiện thân (embodied agents), tức những hệ thống có thể học từ môi trường mô phỏng và đưa ra hành vi phù hợp như đang sống trong thế giới thật. Theo nhà nghiên cứu Jack Parker-Holder, đây chính là bước cần thiết trên hành trình tiến tới AGI.

Đọc thêm:  OpenAI hoãn phát hành mô hình mã nguồn mở đầu tiên

DeepMind tin rằng mô hình Genie 3 là bước đệm quan trọng đến AGI

Genie 3 được xây dựng dựa trên những công nghệ đã có trước đó như Genie 2 – vốn có thể tạo môi trường trò chơi tương tác và Veo 3, mô hình tạo video hiểu rõ quy luật vật lý. Nhưng khác biệt lớn nhất nằm ở khả năng tương tác theo thời gian thực, duy trì trạng thái mô phỏng nhất quán và tự động học được cách thế giới vận hành mà không cần mã hóa trước các quy luật vật lý.

Những khả năng nổi bật của Genie 3 giúp nâng tầm mô hình thế giới

Một trong những điểm gây ấn tượng mạnh nhất ở Genie 3 là khả năng tạo ra các môi trường 3D tương tác trong thời gian thực, chỉ từ một đoạn văn bản mô tả đơn giản. Mô hình này có thể dựng nên nhiều phút cảnh quan ảo ở độ phân giải 720p, tốc độ 24 khung hình/giây – một bước tiến đáng kể so với Genie 2 vốn chỉ tạo được các đoạn clip ngắn vài chục giây.

Không dừng lại ở việc tái tạo không gian, Genie 3 còn có thể sinh ra “các sự kiện trong thế giới” (promptable world events), tức các thay đổi như vật thể rơi, chuyển động hoặc biến đổi cảnh vật, được kích hoạt bằng lời nhắc từ người dùng. Điểm đặc biệt là các sự kiện này vẫn tuân thủ các quy luật vật lý cơ bản, không bị “ngắt mạch” như nhiều mô hình khác trước đây.

DeepMind tin rằng mô hình Genie 3 là bước đệm quan trọng đến AGI

Theo DeepMind, Genie 3 không sử dụng bất kỳ engine vật lý nào được lập trình sẵn. Thay vào đó, nó tự học cách thế giới vận hành thông qua dữ liệu và khả năng ghi nhớ những gì đã sinh ra trước đó. Đây chính là tính năng khiến mô hình có thể đưa ra các dự đoán hợp lý theo thời gian, chẳng hạn như biết rằng một ly thủy tinh đặt chênh vênh sẽ rơi, hoặc phản ứng trước nguy cơ bị va chạm.

Đọc thêm:  OpenAI chuẩn bị ra mắt GPT-5 vào tháng 8: Hợp nhất o-series và tăng cường suy luận

Cấu trúc sinh theo chuỗi (auto-regressive) cho phép Genie 3 tạo từng khung hình một cách liên tiếp, buộc mô hình phải xem xét lại những gì đã được sinh ra để quyết định bước tiếp theo. Điều này không chỉ tạo ra tính liền mạch mà còn giúp mô hình dần hình thành khái niệm “nguyên nhân – kết quả” trong các tương tác mô phỏng.

DeepMind cũng thử nghiệm Genie 3 kết hợp với một agent AI tên là SIMA (Scalable Instructable Multiworld Agent). Trong một bối cảnh nhà kho ảo, SIMA nhận được chỉ dẫn như “tiến đến máy ép rác màu xanh lá sáng” hoặc “đi về phía xe nâng màu đỏ”. Genie 3 chịu trách nhiệm tạo môi trường và duy trì tính nhất quán, còn SIMA thì hành động trong thế giới đó. Kết quả cho thấy agent có thể hoàn thành mục tiêu nhờ sự ổn định và phản hồi hợp lý của Genie 3.

Giới hạn hiện tại và hướng phát triển tiếp theo của Genie 3

DeepMind tin rằng mô hình Genie 3 là bước đệm quan trọng đến AGI

Dù tiềm năng lớn, Genie 3 vẫn đang trong giai đoạn thử nghiệm nội bộ và chưa sẵn sàng cho triển khai rộng rãi. Một số hạn chế đáng chú ý gồm thời lượng tương tác còn ngắn chỉ vài phút – chưa đủ cho các bài huấn luyện chuyên sâu kéo dài hàng giờ. Bên cạnh đó, mô hình vẫn gặp khó trong việc mô phỏng chính xác các tương tác phức tạp giữa nhiều agent độc lập trong cùng một môi trường.

Đọc thêm:  ChatGPT sắp đạt 700 triệu người dùng mỗi tuần

Về mặt vật lý, dù có khả năng học được quy luật chuyển động, mô hình vẫn chưa tái hiện hoàn toàn chính xác các hiện tượng chi tiết. Ví dụ, trong một đoạn demo, chuyển động của tuyết khi người trượt ski lao xuống không phản ánh đúng sự tương tác giữa tuyết và cơ thể.

Một điểm giới hạn khác là nhiều sự kiện do người dùng kích hoạt có thể làm thay đổi môi trường, nhưng không đồng nghĩa với việc chính agent là người tạo ra thay đổi đó. Đây là ranh giới quan trọng giữa một thế giới phản ứng thụ động và một thế giới nơi agent có thể thực sự hành động chủ động.

Dù vậy, Genie 3 vẫn được xem là một bước đi đầy hứa hẹn để hướng đến loại hình học tập chủ động, nơi agent không chỉ phản ứng mà còn chủ động khám phá, thử nghiệm và học hỏi từ trải nghiệm – gần hơn với cách con người học trong thế giới thực. DeepMind gọi đây là nền móng để tạo nên “AI hiện thân” – những hệ thống có thể ra quyết định không chỉ dựa trên dữ liệu đầu vào, mà còn trên sự hiểu biết tích lũy về môi trường xung quanh.

“Chúng ta chưa thực sự chứng kiến một khoảnh khắc đột phá như ‘nước đi 37’ của AlphaGo đối với các agent hiện thân” Parker-Holder nhận định, ám chỉ bước đi huyền thoại của AI trong ván cờ với kỳ thủ Lee Sedol. “Nhưng với Genie 3, có thể một kỷ nguyên mới đang bắt đầu.”

NguồnTechCrunch
  • Tags:
  • AI
  • artificial intelligence
  • deepmind
  • Genie
  • Genie 3
  • google
  • mô hình AI