Tầm nhìn khác biệt của OpenAI và Google về trợ lý giọng nói AI tiên tiến

17/5/2024 Gốc

Google và OpenAI đã hé lộ tầm nhìn về trợ lý AI tiên tiến tại sự kiện giới thiệu sản phẩm mới trong tuần này, với một số điểm khác biệt.

Khi xếp hàng chờ dùng thử các sản phẩm AI mới nhất của Google tại hội nghị nhà phát triển I/O hôm 14.5 (giờ Mỹ), nữ nhà báo Shirin Ghaffary của hãng tin Bloomberg nhìn thấy một người đang đi lại trên sàn trong chiếc áo phông dài tay màu xanh da trời. Đó là Sergey Brin, nhà đồng sáng lập Google.

“Đại loại là tôi đã nghỉ hưu vào khoảng thời gian xảy ra đại dịch COVID-19”, Sergey Brin nói với Shirin Ghaffary và một nhóm nhỏ phóng viên trong một cuộc trò chuyện ngẫu hứng. Thế nhưng, sự bùng nổ AI gần đây đã vẫy gọi Sergey Brin trở lại làm việc.

Từng dẫn đầu trong lĩnh vực AI, Google phải chạy đua để bắt kịp OpenAI trong 18 tháng qua kể từ khi công ty khởi nghiệp này phát hành ChatGPT cuối tháng 11.2022. Google đã tổ chức lại các nhóm, phát hành các mô hình AI mới và bắt đầu tích hợp các tính năng AI tạo sinh vào sản phẩm tìm kiếm cốt lõi của mình. Những người đồng sáng lập Google, trước đây đã rời đi, cũng quay lại hợp tác với công ty. Trong khi đó, OpenAI đang phát triển một sản phẩm tìm kiếm dựa trên AI và cố gắng chiêu mộ nhân tài từ Google.

Sự cạnh tranh đó đã được thể hiện đầy đủ trong tuần này. Tuần trước, OpenAI thông báo sẽ tổ chức giới thiệu sản phẩm AI riêng một ngày trước sự kiện dành cho nhà phát triển đã được lên kế hoạch từ lâu của Google. Làm việc trong tình trạng cực kỳ bí mật trong năm qua, Google và OpenAI cuối cùng đã đạt được kết quả tương tự ở một lĩnh vực: Trợ lý AI có thể xử lý văn bản, âm thanh hoặc hình ảnh theo thời gian thực và trò chuyện bằng lời với người dùng, giống phiên bản Siri có siêu năng lực.

Thế nhưng, hai công ty này thực hiện những cách tiếp cận khác nhau rõ rệt trong cách họ định vị tầm nhìn của mình với trợ lý AI. OpenAI đang nghiêng nhiều hơn vào yếu tố cá nhân, còn Google tập trung nhiều hơn đến việc hỗ trợ người dùng.

Với trợ lý giọng nói AI, OpenAI nghiêng nhiều hơn vào yếu tố cá nhân, còn Google tập trung nhiều hơn đến việc hỗ trợ người dùng - Ảnh: Internet

OpenAI cho biết trợ lý giọng nói AI mới của hãng có thể hiểu được cảm xúc người dùng và thể hiện cảm xúc riêng. Với nền tảng là mô hình AI mới GPT-4o, ChatGPT có thể cười, hát và nói về cảm xúc của nó. Trong video trình diễn của OpenAI, ChatGPT dường như tác động mạnh đến nhân viên sử dụng công cụ này hai lần bằng cách khen trang phục của anh và nói: “Ồ dừng lại đi! Anh làm tôi đỏ mặt" khi được tâng bốc.

Nhiều người đã so sánh giọng nói quyến rũ của ChatGPT với giọng trợ lý AI (do nữ diễn viên Scarlett Johansson lồng tiếng) trong bộ phim khoa học viễn tưởng Her năm 2013 - một sự so sánh mà Giám đốc điều hành Sam Altman ngầm ám chỉ thông qua bài đăng với một từ her trên mạng xã hội X.

Ngược lại, Google lại áp dụng cách tiếp cận thực dụng hơn. Thông báo quan trọng nhất trong ngày của Google không phải là về trợ lý giọng nói mà là cải tiến hoạt động tìm kiếm xoay quanh AI. Ngay cả với trợ lý AI dựa trên giọng nói của Google, các bản demo thường tránh bất cứ thứ gì liên quan đến cảm xúc. Trợ lý AI của Google giúp ai đó tìm kính, tra cứu biển số ô tô và lên kế hoạch cho chuyến đi đến thành phố Miami (Mỹ). Khi nhà báo Shirin Ghaffary nói chuyện với các lãnh đạo Google, họ nói rằng đó là sự lựa chọn có chủ ý.

Sissie Hsiao, Phó chủ tịch kiêm Giám đốc điều hành Gemini Experiences và Google Assistant, cho ha: “Bạn có thể khiến các công nghệ này thể hiện cảm xúc nếu bạn muốn. Thế nhưng, tôi nghĩ sản phẩm của chúng tôi hướng tới việc trở nên siêu hữu ích và siêu tiện dụng”.

Một phần thành công đáng chú ý của OpenAI trước các đối thủ lớn hơn là nhờ tung ra các sản phẩm thể hiện tiềm năng trên phạm vi rộng lớn của AI. Dù còn những hạn chế, ChatGPT với các phản hồi thông minh đã ngay lập tức thay đổi mối quan hệ giữa chúng ta với AI và khiến công chúng nhận thức về những tiến bộ nhanh chóng của công nghệ này.

Ý tưởng về một trợ lý AI có cảm xúc cũng thu hút sự chú ý và trí tưởng tượng của nhiều người. Song có những rủi ro thực sự khi xây dựng một AI giả vờ có cảm xúc. Công nghệ này vẫn dễ mắc lỗi với những thông tin cơ bản, chứ chưa nói đến sắc thái tinh tế trong cảm xúc của con người.

Google từng thiệt hại nhiều hơn OpenAI về mặt này, điển hình là việc chatbot Gemini đầu năm 2024 bị chỉ trích nặng nề vì tạo ra những bức ảnh sai sót về lịch sử (chẳng hạn những nhà sáng lập của nước Mỹ là người da màu) hoặc lỗi thực tế trong câu trả lời của chatbot Bard (hiện gọi là Gemini) đầu năm 2023 khiến vốn hóa thị trường Alphabet (công ty mẹ Google) giảm 100 tỉ USD trong một ngày.

Tháng 2.2023, Google đã giới thiệu Bard để cạnh tranh với ChatGPT. Trong video quảng cáo, Bard trả lời các câu hỏi của người dùng, gồm cả câu hỏi về kính viễn vọng James Web Space Telescope. Tuy nhiên, một trong những câu trả lời của Bard không chính xác.

Cụ thể hơn, Bard tuyên bố rằng James Web Space Telescope là kính viễn vọng đầu tiên tìm thấy một hành tinh ngoài hệ Mặt trời. Sự thật thì đây là một thành tựu thuộc về ESO (Đài thiên văn phía nam của châu Âu), nơi phát hiện ra hành tinh đó cách nay gần 20 năm bằng kính viễn vọng VLT của mình.

Nhà vật lý thiên văn Grant Tremblay (Mỹ) là người phát hiện ra lỗi kiến thức thiên văn của Bard.

Đây được xem là một ví dụ điển hình về những sai sót có thể xảy ra với các chatbot AI, được gọi là ảo giác. Cụ thể, chúng có thể đưa ra các thông tin không chính xác nhưng giống như có căn cứ, dẫn đến việc nhiều người sẽ hiểu sai thông tin.

Ngay sau khi lỗi trên được phát hiện, Google nhanh chóng đưa ra tuyên bố về sai sót, cho biết sẽ sử dụng phản hồi từ chương trình thử nghiệm mới kết hợp với các thông tin khác để đảm bảo "câu trả lời của Bard đáp ứng tiêu chuẩn cao về chất lượng, an toàn và dựa vào căn cứ thông tin trong thế giới thực".

Bất chấp điều này, Alphabet phải trả giá đắt khi cổ phiếu giảm mạnh 10% không lâu sau đó, làm vốn hóa thị trường giảm 100 tỉ USD trong 1 ngày.

Mới đây, mô hình AI Gemini của Google lại đưa ra thông tin sai, trong video quảng cáo tại sự kiện I/O 2024 vừa qua. Trong video hào nhoáng, có nhịp độ nhanh với thời lượng 1 phút 40 giây, mô hình AI Gemini trong Google Search đã trình bày một lỗi lớn mà trang The Verge phát hiện đầu tiên.

Cụ thể hơn, một nhiếp ảnh gia quay video về chiếc máy ảnh phim bị trục trặc và hỏi Gemini: "Tại sao cần gạt không di chuyển hết cỡ?". Gemini ngay lập tức cung cấp một danh sách các giải pháp, gồm cách có thể phá hủy tất cả ảnh của anh ấy. Video về danh sách này nhấn mạnh một đề xuất: "Mở nắp phía sau và nhẹ nhàng lấy phim ra nếu máy ảnh bị kẹt".

Các nhiếp ảnh gia chuyên nghiệp (hoặc bất kỳ ai từng sử dụng máy ảnh phim) đều biết rằng đây là một ý tưởng tồi. Mở máy ảnh ngoài trời, nơi quay video, có thể làm hỏng một phần hoặc toàn bộ phim do tiếp xúc với ánh sáng mạnh.

Thế nên với Google, một chiến lược thận trọng hơn có lẽ là hợp lý.

Sergey Brin ước Google Glass ra mắt đúng thời điểm

Cuộc trò chuyện kéo dài 8 phút với Sergey Brin, người hiếm khi nói chuyện với báo chí, chứa đầy những điều thú vị cho thấy cách ông suy nghĩ về AI.

Từng ủng hộ mạnh mẽ cho Google Glass (sản phẩm gặp thất bại của công ty gần 10 năm trước), Sergey Brin cho rằng ý tưởng về kính thông minh có thể phù hợp hơn trong thời đại AI tạo sinh hiện nay.

"Bạn biết đấy, thật là buồn cười vì nó từng giống như phần cứng hoàn hảo. Google Glass sẽ là ứng dụng đột phá ngay bây giờ, 10 năm sau. Tôi biết rằng nhiều người đang tạo ra các clip AI khác nhau và những thứ tương tự. Ý tôi là kiểu dáng của kính khá tuyệt. Tôi ước gì mình tính toán thời điểm tốt hơn một chút", Sergey Brin thổ lộ.

Sự bùng nổ AI gần đây đã vẫy gọi Sergey Brin trở lại Google làm việc - Ảnh: Getty Images

Sergey Brin cho rằng ảo giác (AI tạo ra thông tin sai y như thật) là một vấn đề lớn nhưng đang “bị thu hẹp lại”. Trong cuộc sống của mình, Sergey Brin cho biết sử dụng AI nhiều nhất cho việc viết mã. Ông đang tìm hiểu xem liệu có đúng là nhà đồng sáng lập Google - Larry Page từng gọi Elon Musk là speciesist (người có quan điểm phân biệt đối xử dựa trên loài) vì coi trọng con người hơn AI hay không.

"Tôi không biết. Tôi không có mặt ở thời điểm đó. Tôi coi AI như một công cụ cho bản thân, không phải là đối thủ cạnh tranh hay bất cứ thứ gì khác", doanh nhân 50 tuổi người Mỹ gốc Do Thái nói.

Sergey Brin hiện là người giàu thứ 7 thế giới với tài sản ròng 146 tỉ USD, theo Bloomberg Billionaires Index (chỉ số tỷ phú của Bloomberg).

Sơn Vân