Mô hình AI Google DeepMind mới có thể chỉnh thế giới ảo theo thời gian thực
Hãy tưởng tượng bạn có thể tạo ra toàn bộ thế giới tương tác chỉ bằng cách nhập một vài từ. Về cơ bản, đó chính là những gì mô hình AI mới của Google DeepMind, Genie 3, có thể làm được.
Genie 3 là AI mô hình thế giới, có thể hiểu cách môi trường hoạt động và có thể mô phỏng chúng. Tuy nhiên, Google cho biết trong một bài đăng trên blog, không giống như Genie 1 và 2, nó có thể tạo ra các thế giới tương tác đa dạng ngay lập tức từ một lời nhắc văn bản nhanh chóng.

Mô hình AI mới của Google DeepMind có thể tinh chỉnh thế giới ảo theo thời gian thực.
Thay vì chỉ tạo ra video hoặc hình ảnh dựa trên lời nhắc văn bản, Genie 3 giờ đây có thể xây dựng các cảnh 3D tương tác mà bạn thực sự có thể di chuyển trong đó. Bạn nhập nội dung vào và chỉ trong vài giây, bạn sẽ được đưa vào một thế giới ảo 720p, 24 FPS, phản hồi lại hành động của bạn và thậm chí giữ nguyên hình dạng trong vài phút.
Các phiên bản trước đó chỉ có thể giữ mọi thứ cố định trong 10 - 20 giây trước khi cảnh bị phá vỡ. Dù vậy, Genie 3 đã nâng cấp tính năng này bằng cách giữ nguyên các vật thể và không gian trong hơn một phút, vì vậy nếu bạn rời đi và quay lại, mọi thứ vẫn ở nguyên vị trí.
Trong bản demo, một đôi tay ảo lăn sơn xanh lên tường. Sau một vài nét vẽ rộng, góc nhìn chuyển động ra xa, rồi trở lại, để lộ lớp sơn vẫn nằm chính xác tại vị trí ban đầu. Vì vậy, đó không chỉ là hình ảnh đầu ra hào nhoáng, mà là một không gian thực sự, sống động. Góc nhìn từ camera hành động của một ngôi nhà màu nâu đang được một đặc vụ góc nhìn thứ nhất sơn bằng máy lăn sơn.
Genie 3 cho phép tạo ra các thế giới ảo 3D tương tác chỉ bằng một đoạn mô tả ngắn, và bạn có thể thực sự bước vào, khám phá cũng như tương tác với chúng.
Những cảnh ảo này chỉ tồn tại trong vài phút, không phải hàng giờ, nên đừng mong đợi những nhiệm vụ hoành tráng hay trải nghiệm thế giới mở rộng lớn.
Khác với các phiên bản trước chỉ duy trì được sự ổn định trong thời gian ngắn, Genie 3 giữ mọi thứ liền mạch tốt hơn nhiều, đảm bảo mọi thứ vẫn giữ nguyên vị trí ngay cả khi bạn rời đi và quay lại.
Điểm thực sự khiến Genie 3 trở nên khác biệt là nó không được lập trình thủ công để tuân theo các quy luật vật lý trong thế giới thực. Thay vào đó, nó được huấn luyện theo cách mà tính nhất quán logic và sự bền bỉ của môi trường tự nhiên xuất hiện. Nó cũng có thể phản ứng theo thời gian thực với các đầu vào văn bản mới, chẳng hạn như thay đổi thời tiết giữa cảnh hoặc thêm các yếu tố mới như động vật hoặc vật thể, tất cả mà không cần tải lại bất cứ thứ gì.
Thiết lập tương tác, thời gian thực của Genie 3 biến nó thành một nền tảng thử nghiệm tuyệt vời cho các đặc vụ AI học hỏi bằng cách thử và sai.
Tất nhiên, Genie 3 không phải là không có những hạn chế. Nó vẫn đang trong giai đoạn xem trước nghiên cứu và chỉ dành cho một nhóm nhỏ các học giả và nhà sáng tạo. Cơ chế tương tác hiện tại khá cơ bản và nó không thực sự xử lý được nhiều đặc vụ chạy xung quanh cùng một lúc.
Nó cũng không tạo ra các bản sao chính xác trong thế giới thực hoặc văn bản trong thế giới thực dễ đọc. Và mặc dù công nghệ rất ấn tượng, những cảnh này được xây dựng để kéo dài trong vài phút chứ không phải vài giờ, vì vậy đừng mong đợi một trải nghiệm game thế giới mở hoàn chỉnh ngay lúc này.
Mặc dù vậy, Genie 3 là một bước tiến lớn trong lĩnh vực mô phỏng AI. Mặc dù chưa sẵn sàng để sử dụng rộng rãi, nhưng nó đã cho chúng ta thấy được hướng đi sắp tới, đặc biệt là trong bối cảnh trí tuệ nhân tạo đang ngày càng phổ biến.