DeepSeek gây sốc khi hé lộ huấn luyện R1 chỉ mất 294.000 USD

DeepSeek cho biết chỉ mất 294.000 USD để huấn luyện mô hình suy luận R1, con số thấp hơn nhiều so với mức được các đối thủ Mỹ bỏ ra.

Thông tin này có khả năng khơi lại cuộc tranh luận về vị thế của Trung Quốc trong cuộc đua phát triển trí tuệ nhân tạo (AI).

Bản cập nhật hiếm hoi từ DeepSeek (công ty khởi nghiệp có trụ sở tại thành phố Hàng Châu, Trung Quốc), ước tính đầu tiên mà họ công bố về chi phí huấn luyện R1, xuất hiện trong một bài nghiên cứu được bình duyệt đăng trên tạp chí khoa học Nature hôm 18.9.

Trong hai tháng cuối năm 2024 và đầu 2025, DeepSeek phát hành V3 và R1, hai mô hình AI nguồn mở có hiệu suất ngang sản phẩm Mỹ với chi phí huấn luyện thấp hơn rất nhiều. Điều này khiến giới đầu tư toàn cầu bán tháo cổ phiếu công nghệ vì lo ngại DeepSeek có thể đe dọa vị thế thống trị của những hãng AI lớn như OpenAI, Google, Microsoft và ảnh hưởng đến doanh số chip AI của Nvidia.

Chỉ trong ngày 17.1, cổ phiếu của Nvidia giảm 17%, tương đương 600 tỉ USD vốn hóa bị mất đi, mức thiệt hại lớn nhất trong lịch sử doanh nghiệp Mỹ.

Nvidia là hãng hưởng lợi lớn nhất trong cuộc đua AI vì đang giữ vị thế thống trị về chip huấn luyện các mô hình AI. GPU (đặc biệt là các dòng A100, H100 và B200) của Nvidia có khả năng xử lý song song cực mạnh, phù hợp cho việc chạy khối lượng dữ liệu khổng lồ mà các mô hình AI cần để học và suy luận. Ngoài ra, Nvidia không chỉ bán chip mà còn cung cấp toàn bộ hệ sinh thái phần mềm (CUDA, cuDNN, TensorRT) giúp các nhà phát triển tối ưu hóa hiệu suất AI trên phần cứng của họ.

Trong một bài viết đầu năm nay, DeepSeek tiết lộ huấn luyện mô hình nền tảng V3 chỉ bằng 2.048 GPU Nvidia H800 khoảng hai tháng, với chi phí 5,6 triệu USD. Đây không phải là loại chip AI hàng đầu của Nvidia. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.

DeepSeek tuyên bố rằng quá trình huấn luyện V3 chỉ tiêu tốn 2,8 triệu giờ GPU với chi phí 5,6 triệu USD, bằng một phần nhỏ thời gian và tiền bạc mà các công ty Mỹ bỏ ra cho các mô hình AI của họ.

Sau đó, DeepSeek và nhà sáng lập Lương Văn Phong hầu như biến mất khỏi tầm mắt công chúng, chỉ lặng lẽ phát hành vài bản cập nhật cho R1 và V3, gần nhất phiên bản V3.1 với một số cải tiến đáng chú ý.

Bài viết trên tạp chí Nature, có tên Lương Văn Phong nằm trong nhóm đồng tác giả, cho biết R1 có chi phí huấn luyện chỉ 294.000 USD và sử dụng 512 chip Nvidia H800. Phiên bản trước của bài viết, được công bố hồi tháng 1, không đề cập tới thông tin này.

DeepSeek hé lộ chỉ mất 294.000 USD để huấn luyện R1, thấp hơn 19 lần so với mức 5,6 triệu USD dành cho V3 - Ảnh: Internet

DeepSeek hé lộ chỉ mất 294.000 USD để huấn luyện R1, thấp hơn 19 lần so với mức 5,6 triệu USD dành cho V3 - Ảnh: Internet

Sam Altman: “OpenAI tốn nhiều hơn 100 triệu USD để huấn luyện mô hình nền tảng”

Sam Altman, Giám đốc điều hành OpenAI (“cha đẻ ChatGPT”), từng nói vào năm 2023 rằng việc huấn luyện mô hình nền tảng đã tiêu tốn nhiều hơn 100 triệu USD, dù công ty của ông chưa bao giờ đưa ra con số chi tiết cho bất kỳ phiên bản nào.

Theo công ty nghiên cứu Epoch AI (Mỹ), lần huấn luyện mô hình AI đắt nhất cho tới nay là Grok 4 của công ty khởi nghiệp xAI với chi phí 490 triệu USD. Epoch AI dự báo các lần huấn luyện mô hình AI trong tương lai có thể vượt 1 tỉ USD vào năm 2027.

Chi phí huấn luyện các mô hình ngôn ngữ lớn, nền tảng cho chatbot AI, ám chỉ khoản tiền để vận hành một cụm chip mạnh mẽ trong nhiều tuần hoặc nhiều tháng nhằm xử lý khối lượng khổng lồ văn bản và mã lập trình.

Một số tuyên bố từ DeepSeek về chi phí phát triển và công nghệ mà họ sử dụng đã bị các công ty cùng quan chức Mỹ đặt dấu hỏi. Những chip H800 mà DeepSeek nhắc tới được Nvidia thiết kế cho thị trường Trung Quốc, sau khi Mỹ vào tháng 10.2022 cấm công ty xuất khẩu chip AI mạnh hơn như H100 và A100 sang quốc gia châu Á.

Vào tháng 6, các quan chức Mỹ nói với Reuters rằng DeepSeek có quyền tiếp cận khối lượng lớn chip H100, được mua sau khi các biện pháp kiểm soát xuất khẩu của Mỹ được áp dụng. Thời điểm đó, Nvidia tuyên bố DeepSeek đã sử dụng chip H800 được mua hợp pháp, chứ không phải H100.

Trong tài liệu bổ sung đi kèm bài viết trên tạp chí Nature, DeepSeek lần đầu thừa nhận sở hữu chip A100 và cho biết đã sử dụng chúng ở giai đoạn chuẩn bị phát triển mô hình.

“Trong nghiên cứu về DeepSeek-R1, chúng tôi đã tận dụng GPU A100 để chuẩn bị cho các thí nghiệm với mô hình nhỏ hơn”, nhóm nghiên cứu DeepSeek viết. Sau giai đoạn ban đầu này, R1 được huấn luyện tổng cộng 80 giờ trên cụm 512 chip H800, họ cho biết thêm.

Lý do chính giúp DeepSeek thu hút được những nhân tài AI xuất sắc nhất ở Trung Quốc vì là một trong số ít doanh nghiệp trong nước vận hành cụm siêu máy tính A100.

Alibaba: Qwen3-Next-80B-A3B chi phí huấn luyện chỉ 500.000 USD, hiệu suất vượt DeepSeek R1 và Kimi K2

Cách đây 6 ngày, Alibaba Cloud đã công bố Qwen3-Next-80B-A3B, mô hình ngôn ngữ lớn thế hệ mới vừa đạt hiệu suất cao vừa tiết kiệm tài nguyên như bộ nhớ, điện toán với chi phí huấn luyện chỉ 500.000 USD. Bộ phận AI và điện toán đám mây của Alibaba gọi đây là “tương lai của các mô hình ngôn ngữ lớn hiệu quả”.

Qwen3-Next-80B-A3B nhỏ hơn gần 13 lần so với Qwen-3-Max-Preview, mô hình AI đầu tiên của Alibaba vượt ngưỡng 1.000 tỉ tham số, được giới thiệu một tuần trước.

Dù kích thước gọn nhẹ, Qwen3-Next-80B-A3B vẫn được các nhà phát triển đánh giá là một trong những mô hình AI xuất sắc nhất của Alibaba tính đến nay. Bí quyết nằm ở hiệu suất: Qwen3-Next-80B-A3B được cho là nhanh hơn gấp 10 lần trong một số tác vụ so với Qwen3-32B ra mắt hồi tháng 4, đồng thời giảm tới 90% chi phí huấn luyện.

Emad Mostaque, đồng sáng lập công ty khởi nghiệp Stability AI (Anh), viết trên mạng xã hội X rằng Qwen3-Next-80B-A3B vượt trội “hầu như mọi mô hình AI năm ngoái”, dù chi phí huấn luyện ước tính chưa tới 500.000 USD.

Để so sánh, Google tiêu tốn khoảng 191 triệu USD cho việc huấn luyện mô hình Gemini Ultra (ra mắt tháng 2.2024), theo Chỉ số AI của Đại học Stanford (Mỹ).

Theo Artificial Analysis (công ty đánh giá mô hình AI hàng đầu có trụ sở ở Mỹ), Qwen3-Next-80B-A3B vượt qua cả DeepSeek R1 và Kimi K2 do Moonshot AI phát triển. Moonshot AI là công ty khởi nghiệp AI Trung Quốc được Alibaba hậu thuẫn.

Một số nhà nghiên cứu AI cho rằng thành công của Qwen3-Next-80B-A3B nhờ vào kỹ thuật tương đối mới gọi là cơ chế chú ý lai (hybrid attention).

Cơ chế chú ý lai là kỹ thuật tiên tiến trong lĩnh vực học máy, được thiết kế để cải thiện hiệu quả và hiệu suất các mô hình ngôn ngữ lớn. Về cơ bản, kỹ thuật này kết hợp các ưu điểm của cơ chế chú ý truyền thống với phương pháp tính toán hiệu quả khác để giải quyết những hạn chế của nó.

Các mô hình AI hiện tại gặp hiện tượng hiệu quả giảm dần khi độ dài đầu vào tăng, do cơ chế chú ý quyết định thông tin nào quan trọng nhất. Cơ chế này luôn tồn tại sự đánh đổi: Chú ý càng chính xác thì chi phí điện toán càng cao. Chi phí đó càng chồng chất khi mô hình xử lý ngữ cảnh dài và khiến việc huấn luyện các tác tử AI phức tạp trở nên đắt đỏ.

Qwen3-Next-80B-A3B giải quyết thách thức này bằng cách áp dụng kỹ thuật Gated DeltaNet, được các nhà nghiên cứu tại Viện Công nghệ Massachusetts (MIT) và Nvidia giới thiệu lần đầu vào tháng 3.

Gated DeltaNet tăng cường cơ chế chú ý bằng cách điều chỉnh có chọn lọc dữ liệu đầu vào, xác định thông tin nên giữ lại và loại bỏ phần không cần thiết, theo Zhou Peilin - nhà nghiên cứu AI tại Đại học Khoa học & Công nghệ Hồng Kông. Điều này tạo ra một cơ chế chú ý vừa chính xác vừa tiết kiệm chi phí.

Alibaba gọi Qwen3-Next-80B-A3B là “tương lai của các mô hình ngôn ngữ lớn hiệu quả” - Ảnh: Alibaba

Alibaba gọi Qwen3-Next-80B-A3B là “tương lai của các mô hình ngôn ngữ lớn hiệu quả” - Ảnh: Alibaba

Dẫn các điểm số từ Ruler benchmark - công cụ đánh giá các mô hình AI dựa trên khả năng xử lý độ dài đầu vào khác nhau, Alibaba cho biết Qwen3-Next-80B-A3B có hiệu suất tương đương với mô hình mạnh mẽ nhất của họ là Qwen3-235B-A22B-Thinking-2507, dù nhỏ hơn và rẻ hơn.

“Thật tuyệt khi thấy Gated DeltaNet đã được Alibaba mở rộng đáng kể để xây dựng những mô hình AI xuất sắc”, theo Juergen Schmidhuber - giáo sư khoa học máy tính tại Đại học Khoa học & Công nghệ Nhà vua Abdullah (Ả Rập Saudi) từng góp phần phát triển Gated DeltaNet từ những năm 1990.

Qwen3-Next-80B-A3B cũng sử dụng kiến trúc MoE (tổ hợp các chuyên gia), vốn mang lại nhiều cải tiến hiệu suất cho nhiều mô hình AI Trung Quốc năm qua, gồm cả DeepSeek V3, R1 và Kimi K2.

MoE là phương pháp học máy phân chia một mô hình AI thành các mạng con riêng biệt, hay còn gọi là các chuyên gia (expert), mỗi chuyên gia tập trung vào một tập hợp con dữ liệu đầu vào, để cùng nhau thực hiện nhiệm vụ. Cách tiếp cận này giúp giảm đáng kể chi phí tính toán trong quá trình tiền huấn luyện mô hình AI và tăng tốc độ xử lý ở giai đoạn suy luận.

Alibaba đã nâng cao “mức độ thưa” của kiến trúc MoE mới (giảm số chuyên gia hoạt động đồng thời) nhằm cải thiện hiệu quả. Trong khi DeepSeek-V3 và Kimi K2 lần lượt dùng 256 và 384 chuyên gia, Qwen3-Next-80B-A3B có 512 chuyên gia nhưng chỉ kích hoạt 10 chuyên gia tại một thời điểm.

Bằng cách giảm số chuyên gia hoạt động đồng thời, Alibaba giúp Qwen3-Next-80B-A3B tiêu thụ ít tài nguyên điện toán hơn, chạy nhanh hơn và tiết kiệm chi phí, nhưng vẫn giữ được chất lượng đầu ra.

Artificial Analysis cho biết nhờ những đổi mới này, Qwen3-Next-80B-A3B đạt hiệu năng ngang DeepSeek-V3.1 dù chỉ có 3 tỉ tham số. Con số này ở DeepSeek-V3.1 là 37 tỉ tham số. Thông thường, tham số càng cao nghĩa là mô hình AI mạnh hơn, nhưng đồng thời làm tăng chi phí huấn luyện và vận hành.

Hiệu quả còn thể hiện rõ trên nền tảng đám mây của Alibaba, nơi Qwen3-Next-80B-A3B có chi phí vận hành rẻ hơn Qwen3-235B-2507, vốn chứa 235 tỉ tham số. Theo Artificial Analysis, Qwen3-Next-80B-A3B hiện đủ gọn để vận hành trên một GPU Nvidia H200 duy nhất.

Kiến trúc mới phản ánh xu hướng quan tâm ngày càng lớn với các mô hình AI nhỏ nhưng hiệu quả, trong bối cảnh lo ngại về chi phí khổng lồ khi tiếp tục mở rộng những sản phẩm hàng đầu.

Tháng 8 vừa qua, các nhà nghiên cứu tại Nvidia đã xuất bản bài báo ủng hộ các mô hình ngôn ngữ nhỏ là tương lai của AI mang tính chủ động vì tính linh hoạt và hiệu quả của chúng. Nvidia đang thử nghiệm kỹ thuật Gated DeltaNet trên các mô hình Nemotron của mình.

Trong khi đó, các hãng công nghệ AI Trung Quốc đang thúc đẩy việc phổ cập mô hình AI bằng cách đảm bảo chúng đủ nhỏ để chạy trên laptop và smartphone.

Tháng 8, Tencent giới thiệu bốn mô hình AI nguồn mở, mỗi cái đều dưới 7 tỉ tham số. Công ty khởi nghiệp Z.ai đã tung ra mô hình GLM 4.5 Air với chỉ 12 tỉ tham số.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/deepseek-gay-soc-khi-he-lo-huan-luyen-r1-chi-mat-294-000-usd-237729.html