DeepMind của Google giúp robot có giọng nói như người thật

Baidu đem trí tuệ nhân tạo vào engine tìm kiếm ‘Siri Nga’ được coi là trí tuệ nhân tạo tốt nhất MetaMind và tham vọng thương mại hóa trí tuệ nhân tạo Trí tuệ nhân tạo quét email dự đoán việc mất cắp dữ liệu Google và đội quân trí tuệ nhân tạo

Baidu đem trí tuệ nhân tạo vào engine tìm kiếm ‘Siri Nga’ được coi là trí tuệ nhân tạo tốt nhất MetaMind và tham vọng thương mại hóa trí tuệ nhân tạo Trí tuệ nhân tạo quét email dự đoán việc mất cắp dữ liệu Google và đội quân trí tuệ nhân tạo

Nếu từng dùng qua "khẩu lệnh" với Google Voice Search hay Siri thì bạn không thể nhầm lẫn được giọng của các công cụ trợ lý ảo này với giọng người thật, đơn giản vì hệ thống đồng bộ giọng nói của máy tính vẫn còn ở mức khá sơ đẳng. Nhưng một phần mềm mới tên là WaveNet, được cho là ứng dụng triệt để khả năng của DeepMind , đang nâng tầm cho hệ thống đồng bộ giọng nói máy tính và cho AI một giọng nói tương tự như giọng người thật.

Nhiều năm qua, các chuyên gia về lĩnh vực robot bàn tán nhiều về thứ gọi là "uncanny valley", nghĩa là cảm giác rờn rợn mà người ta cảm thấy khi quan sát một con robot quá giống con người, cho dù rõ ràng khi nhìn vào là chúng ta biết ngay đó là robot.

DeepMind của Google giúp robot có giọng nói như người thật - Ảnh 1

WaveNet là ứng dụng tận dụng tính năng trí tuệ nhân tạo trong hệ thống DeepMind của Google, giúp robot nói giọng giống người hơn.

Nhưng cho đến nay, tuy hình thể robot có thể giống người đi nữa thì giọng nói của robot luôn là trở ngại không nhỏ, vì chưa có bộ đồng bộ giọng nói nào đủ "chất" để giúp robot có giọng thật như người. WaveNet của DeepMind hiện đang là công nghệ tiệm cận nhất với điều này và cho chúng ta có được cảm giác "uncanny valley" như hình thể của robot.

Bí mật đằng sau công nghệ đồng bộ giọng nói WaveNet chính là trí tuệ nhân tạo của máy tính, không phải sáng tạo nào kiệt xuất từ các kỹ sư công nghệ. Có thể trong thời gian đầu, WaveNet chưa thực sự hoàn hảo nhưng nhờ khả năng tự học của máy, giọng nói của robot sẽ được cải thiện dần dần.

Hầu hết hệ thống đồng bộ giọng nói đều thuộc hai loại chuyển từ văn bản sang giọng nói: loại xâu chuỗi từng ký tự (concatenative text to speed) và loại tham số (parametric text to speed). Loại đầu tiên concatenative được xem là chính xác hơn, có chất lượng cao hơn và được Google và Voice và Siri ứng dụng. Loại này nghe thực hơn, bằng cách sử dụng các file âm thanh ghi âm giọng người thật, cắt nhỏ từng chữ ra và sắp xếp lại để hình thành nên đoạn câu lắp ghép dựa theo văn bản. Mặt trái của phương pháp này là nó khó định hình được cảm xúc trong giọng nói, từ cần nhấn mạnh trong câu.

Phương pháp thứ hai parametric sử dụng hệ thống dựa trên các quy luật, tuân theo những mô hình về mẫu giọng nói cố định. Các hệ thống đồng bộ giọng nói dành cho robot đa phần dựa trên loại này, vì chúng dựa nhiều vào máy tính tạo ra các tín hiệu âm thanh hơn là ghi âm giọng người thật.

Còn hệ thống WaveNet có thể xem là một cải tiến của phương pháp concatenative, dựa trên những mẫu ghi âm giọng người. Nhưng thay vì chia nhỏ từng từ và sắp xếp chúng lại thành câu hoàn chỉnh như cách cũ, nó sử dụng một mạng thần kinh nhân tạo để tạo ra những đoạn đồng bộ giọng nói dựa trên những giọng mà chúng đã được huấn luyện. Mặt trái của cách này là robot cần rất nhiều tài nguyên hệ thống để xử lý. Mô hình âm thanh thô cần đến 16.000 mẫu âm thanh mỗi giây, mà mỗi mẫu âm thanh lại ảnh hưởng bởi vài mẫu âm thanh trước đó. Do vậy, cách này còn nằm "ngoài tầm" xử lý của điện thoại thông minh hiện nay, mà chỉ có thể áp dụng được trên các siêu máy tính được thiết kế chạy deep learning như DGX-1 của NVIDIA.

DeepMind có vài mẫu âm thanh đã được đăng tải trên trang web của WaveNet nếu bạn muốn nghe thử. Hiện thời, có thể WaveNet chưa được triển khai rộng rãi vì hạn chế về khả năng xử lý nhưng trong thời gian tới, rất có thể máy tính sẽ đọc truyện e-book cho bạn nghe mỗi đêm qua máy đọc sách hay một thiết bị thông minh nào đó trong nhà.