Cuộc đua song mã mới của AI: Lời giải từ phương Đông
Thế giới công nghệ đã quen với nguyên lý muốn trí tuệ nhân tạo (AI) thông minh hơn, ta phải xây dựng những mô hình lớn hơn, nạp cho chúng nhiều dữ liệu hơn.
Những "gã khổng lồ" như ChatGPT hay Gemini đã ra đời từ tư duy ấy, trở thành những kỳ quan công nghệ ngốn điện năng khủng khiếp. Tuy nhiên, gió đang đổi chiều. Theo Tiến sĩ Jennifer Chayes - Hiệu trưởng Trường Máy tính, Khoa học Dữ liệu và Xã hội thuộc Đại học California, Berkeley (UC Berkeley) - kỷ nguyên tiếp theo của cuộc chiến AI toàn cầu sẽ không còn là sân chơi của những kẻ phô trương sức mạnh cơ bắp bằng cách mở rộng quy mô vô tội vạ.
Thay vào đó, vương miện sẽ thuộc về những ai đủ thông minh để tái định nghĩa lại kiến trúc cốt lõi, tạo ra những trí tuệ siêu việt nhưng với chi phí năng lượng chỉ bằng một phần nhỏ so với hiện tại. Và trong sự chuyển dịch mang tính lịch sử này, một cái tên từ Trung Quốc – DeepSeek – đang nhận được những lời tán dương đầy trọng thị từ chính các chuyên gia hàng đầu nước Mỹ.
Khi "càng to càng tốt" không còn là chân lý của thời đại
Để hiểu tại sao thế giới lại đang khao khát một sự thay đổi về kiến trúc AI, chúng ta cần nhìn lại nền tảng của những thành tựu hiện nay.
Hầu hết các mô hình ngôn ngữ lớn (LLM) đang làm mưa làm gió trên thị trường đều được xây dựng dựa trên kiến trúc Transformer. Nói một cách nôm na và gần gũi, Transformer giống như một bộ não có khả năng đọc và xâu chuỗi hàng tỉ từ ngữ, ký tự để tìm ra các quy luật ẩn sâu bên trong.
Nó học cách con người nói chuyện, tư duy và lập luận bằng cách tiêu thụ một lượng dữ liệu khổng lồ. Nhưng cái giá phải trả cho "bộ não" này là nguồn năng lượng khổng lồ để vận hành các máy chủ, làm mát hệ thống và duy trì hoạt động liên tục.

Tiến sĩ Jennifer Chayes là cái tên uy tín trong làng khoa học máy tính
Tiến sĩ Jennifer Chayes - một trong những cái tên uy tín của làng khoa học máy tính thế giới - đã thẳng thắn chia sẻ nỗi trăn trở của bà về vấn đề này. Bà khao khát được nhìn thấy những giải pháp thay thế cho mô hình Transformer hiện tại. Bà mong muốn có một kiến trúc mới mang lại khả năng tư duy sâu sắc tương tự, nhưng không đẩy nhân loại vào thế khó về mặt năng lượng và biến đổi khí hậu.
Đây không chỉ là một bài toán kỹ thuật, mà là những câu hỏi toán học căn bản nhất đang thách thức giới hạn hiểu biết của con người.
Tuy nhiên, nghịch lý nằm ở chỗ, dù nhận thức được tầm quan trọng của việc tìm ra kiến trúc mới, nhưng không phải ai cũng dám dấn thân. Trong giới nghiên cứu khoa học máy tính, việc từ bỏ con đường Transformer đang trải đầy hoa hồng để đi tìm một lối rẽ mới là một canh bạc mạo hiểm.
Các nhà khoa học, dù tài năng đến đâu, cũng ngần ngại cống hiến toàn bộ sự nghiệp cho một vấn đề hóc búa mà khả năng thất bại là rất cao.
Họ sợ rằng sau nhiều năm miệt mài trong phòng thí nghiệm, kết quả thu về chỉ là con số 0 tròn trĩnh, và sự nghiệp của họ sẽ bị chững lại trong khi các đồng nghiệp khác vẫn đang gặt hái thành công từ những mô hình cũ.
Chính tâm lý e ngại rủi ro này đã khiến cho việc tìm kiếm một kiến trúc tiết kiệm năng lượng trở nên cấp thiết nhưng lại thiếu vắng những đột phá mang tính cách mạng từ dòng chảy chủ lưu.
"Phép thuật" của DeepSeek và bài toán "cái khó ló cái khôn"
Giữa bối cảnh bế tắc của việc tìm kiếm hiệu suất cao với chi phí thấp, sự xuất hiện của DeepSeek từ Trung Quốc như một làn gió lạ, chứng minh rằng đôi khi áp lực và sự thiếu thốn lại là mẹ đẻ của những sáng tạo vĩ đại. Tiến sĩ Chayes đã không ngần ngại dành những lời khen ngợi "có cánh" cho startup này, đặc biệt là cách họ áp dụng phương pháp "chưng cất tri thức" (knowledge distillation) để huấn luyện các mô hình AI của mình.
Hãy tưởng tượng phương pháp này giống như cách học tập của một sinh viên thông minh và một người thầy uyên bác. Thay vì bắt người sinh viên (mô hình AI nhỏ hơn) phải tự mình đọc hết toàn bộ thư viện sách khổng lồ để tích lũy kiến thức – một quá trình tốn kém thời gian và năng lượng – phương pháp chưng cất cho phép người sinh viên này liên tục đặt câu hỏi và học hỏi trực tiếp từ những câu trả lời tinh gọn của người thầy (mô hình AI lớn hơn đã được huấn luyện trước đó).
Kết quả là, sau một thời gian, người sinh viên có thể đạt được trình độ tư duy và kiến thức gần như tương đương với người thầy mà không cần phải trải qua quá trình "dùi mài kinh sử" tốn kém như ban đầu.

DeepSeek chọn đường tắt để thành công
DeepSeek đã áp dụng triệt để tư duy này và tạo ra những con số gây chấn động giới công nghệ toàn cầu. Vào tháng 1.2025, nhóm nghiên cứu của họ công bố rằng quá trình huấn luyện mô hình DeepSeek-R1 chủ yếu dựa vào dữ liệu được chưng cất từ các mô hình Tongyi Qianwen (Qwen) của Alibaba và Llama của Meta. Điều khiến cả thung lũng Silicon phải giật mình là tổng chi phí để tạo ra "bộ não" này chỉ vỏn vẹn khoảng 5,58 triệu USD. Để so sánh, con số này chỉ bằng khoảng 1,1% so với ước tính 500 triệu USD mà Meta – gã khổng lồ công nghệ Mỹ – đã phải chi ra để huấn luyện mô hình Llama 3.1. Rõ ràng, DeepSeek không chỉ tạo ra một sản phẩm tốt, mà họ còn tạo ra nó với cái giá rẻ đến mức khó tin, nhờ vào việc tối ưu hóa quy trình thay vì dùng tiền để "đè" người.
Tiến sĩ Chayes nhận định rằng chính những biện pháp kiểm soát xuất khẩu chip gắt gao của Mỹ đối với Trung Quốc, thay vì kìm hãm, lại vô tình trở thành chất xúc tác mạnh mẽ cho sự sáng tạo này. Khi không thể tiếp cận thoải mái nguồn tài nguyên phần cứng mạnh mẽ nhất như các đối thủ Mỹ, các nhà khoa học Trung Quốc buộc phải tìm những con đường khác. Họ không thể dùng sức mạnh cơ bắp của hàng vạn con chip để giải quyết vấn đề, nên họ buộc phải dùng tư duy thuật toán để đi đường tắt.
Bà Chayes gọi đó là "áp lực tạo nên kim cương". Bà thậm chí còn quan sát thấy một thực tế đáng suy ngẫm là tại Đại học Thanh Hoa, các nhà nghiên cứu dường như đang tận dụng nguồn lực tính toán hiệu quả hơn, và đôi khi là dồi dào hơn theo cách riêng của họ, so với những gì các đồng nghiệp tại các trường đại học Mỹ đang có. Đây là một minh chứng sống động cho câu tục ngữ "cái khó ló cái khôn", khi nghịch cảnh trở thành bàn đạp cho những bước nhảy vọt về công nghệ.
Sự trân trọng dành cho những bộ óc phương Đông
Câu chuyện về DeepSeek không chỉ dừng lại ở kỹ thuật hay chi phí, mà nó còn mở ra một góc nhìn nhân văn về sự hợp tác và tôn trọng trong khoa học, vượt qua những rào cản địa chính trị.
Tiến sĩ Chayes, với tư cách là người đứng đầu ủy ban tuyển chọn cho hạng mục Khoa học Máy tính mới của Giải thưởng Shaw – giải thưởng danh giá được ví như Nobel của phương Đông – đã thể hiện một tinh thần khoa học khách quan và đầy trân trọng đối với các nhà nghiên cứu châu Á.
Bà Chayes không phải là người xa lạ với cộng đồng khoa học Trung Quốc. Cuối những năm 90, bà đã từng sát cánh cùng những tên tuổi lớn như Kai-Fu Lee (Lý Khai Phục) và Ya-Qin Zhang (Trương Á Cần) để xây dựng nên Microsoft Research Asia tại Bắc Kinh. Hơn hai thập kỷ gắn bó và cố vấn cho nhiều thế hệ nhà khoa học tại đây đã để lại trong bà những ấn tượng sâu sắc.
Trong mắt bà, các nhà nghiên cứu Trung Quốc sở hữu một phẩm chất đáng quý mà bà gọi là "sự chăm chỉ vượt trội". Bà chia sẻ một cách chân thành rằng, tính trung bình, các nhà nghiên cứu từ Trung Quốc làm việc cần cù và nỗ lực hơn rất nhiều so với phần còn lại của thế giới. Đó không chỉ là sự thông minh, mà là thái độ lao động nghiêm túc, một đức tính mà bà vô cùng yêu mến và trân trọng.
Sự trân trọng này cũng phản ánh một thực tế đang diễn ra tại Mỹ: sự chảy máu chất xám từ học thuật sang công nghiệp. Trong khi các trường đại học Mỹ chật vật giữ chân nhân tài trước sự lôi kéo của các tập đoàn Big Tech với mức lương khổng lồ và nguồn lực vô tận; thì tại Trung Quốc, môi trường học thuật dường như vẫn giữ được sức hút và sự đầu tư mạnh mẽ.
Tiến sĩ Chayes lo ngại rằng việc các giáo sư và nhà nghiên cứu giỏi nhất rời bỏ giảng đường sẽ khiến thế hệ sinh viên tiếp theo tại Mỹ chịu thiệt thòi vì không được tiếp cận với những người thầy giỏi nhất.
Với cương vị chủ tịch ủy ban giải thưởng Shaw, bà Chayes khẳng định rằng khoa học là không biên giới. Giải thưởng đầu tiên về khoa học máy tính - dự kiến công bố vào mùa xuân năm 2027 - sẽ được trao cho người xứng đáng nhất dựa trên những đóng góp thuần túy về mặt khoa học, bất kể họ mang quốc tịch nào hay đang làm việc ở đâu.
Dù đó là một nhà khoa học tại Bắc Kinh, một giáo sư tại châu Âu, hay một chuyên gia gốc Hoa đang làm việc tại Thung lũng Silicon, tất cả đều được đánh giá công bằng. Hội đồng tuyển chọn, bao gồm những "bố già AI" như Yann LeCun hay John Hennessy, đều có sự am hiểu sâu sắc về bức tranh công nghệ toàn cầu, đảm bảo rằng không một tài năng nào bị bỏ sót chỉ vì những định kiến chính trị.
Nhìn lại toàn cảnh, lời khen ngợi của một chuyên gia hàng đầu Mỹ dành cho DeepSeek không chỉ là sự thừa nhận về một thành tựu công nghệ cụ thể. Nó là tín hiệu cho thấy cuộc đua AI đang bước sang một chương mới, nơi sự tinh gọn, tiết kiệm và sáng tạo trong kiến trúc sẽ lên ngôi.
Và trong chương mới này, sự đóng góp của các nhà khoa học phương Đông, với tư duy "liệu cơm gắp mắm" và sự cần cù bền bỉ, đang dần khẳng định vị thế không thể thay thế của mình trên bản đồ công nghệ thế giới.












