Trí tuệ nhân tạo thế hệ sau cần những bộ xử lý rất khác biệt

Trọng tâm của điện toán trí tuệ nhân tạo đang chuyển dịch sang việc yêu cầu chúng trả lời các truy vấn thực tế, quá trình được gọi là suy luận.

Hãng tư vấn McKinsey ước tính rằng đến cuối thập kỷ này, quá trình suy luận sẽ chiếm tới ba phần năm tổng nhu cầu trong các trung tâm dữ liệu trí tuệ nhân tạo. Nvidia dường như đã nhận thức rất rõ sự chuyển dịch này.

Nvidia vừa trình làng một con chip mới được thiết kế đặc biệt cho các tác vụ suy luận mang tên Groq 3 LPX

Nvidia vừa trình làng một con chip mới được thiết kế đặc biệt cho các tác vụ suy luận mang tên Groq 3 LPX

Vào ngày 16.3 vừa qua, hãng đã trình làng một con chip mới được thiết kế đặc biệt cho các tác vụ suy luận mang tên Groq 3 LPX, với một kiến trúc hoàn toàn khác biệt so với GPU truyền thống. Dù vậy, lần này họ sẽ vấp phải một sự cạnh tranh khốc liệt. Một loạt các công ty khởi nghiệp đang chế tạo những con chip với tham vọng chạy các mô hình trí tuệ nhân tạo nhanh hơn và hiệu quả hơn sản phẩm của Nvidia.

Rào cản tốc độ và cuộc chiến giải quyết điểm nghẽn bộ nhớ

Quá trình huấn luyện và suy luận đặt ra những yêu cầu hoàn toàn khác biệt đối với phần cứng máy tính. Huấn luyện là lúc một mô hình trí tuệ nhân tạo được dạy cách nhận diện các khuôn mẫu trong những tập dữ liệu thô khổng lồ, phụ thuộc vào số lượng cực lớn các phép tính phải được thực hiện song song. Lấy ví dụ, con chip B200 của Nvidia, một trong những sản phẩm chủ lực của công ty, chứa tới hơn 16.000 đơn vị xử lý, hay còn gọi là lõi, để thực hiện các hoạt động tính toán đồng thời đó.

Trong khi đó, suy luận là quá trình một mô hình đã hoàn thiện sử dụng những gì được huấn luyện để phản hồi lại các yêu cầu từ người dùng, và nó hoạt động theo một cơ chế hoàn toàn khác. Quá trình này diễn ra qua hai giai đoạn cụ thể là điền trước (prefill) và giải mã (decode). Trong giai đoạn điền trước, mô hình xử lý câu lệnh đầu vào và chuyển đổi nó thành các đơn vị văn bản nhỏ, thường khoảng bốn ký tự trong tiếng Anh, được gọi là các token.

Để đẩy nhanh tốc độ, việc mã hóa các phần khác nhau của truy vấn thành token có thể được thực hiện đồng thời. Sau đó, giai đoạn giải mã sẽ tạo ra câu trả lời, xuất ra theo từng token một. Để làm được điều này, mô hình phụ thuộc vào "trọng số" của nó, tức là mối quan hệ giữa các token học được trong quá trình huấn luyện, cũng như các token đã được tạo ra trước đó. Những trọng số này bắt buộc phải được lưu trữ trong bộ nhớ của hệ thống.

Nhu cầu truy cập bộ nhớ liên tục chính là điểm yếu chí mạng khiến các GPU hiện đại gặp rắc rối lớn. Các bộ xử lý trí tuệ nhân tạo như B200 chứa bộ nhớ trên chip (SRAM) có kích thước nhỏ nhưng tốc độ cực kỳ nhanh, cùng với một bộ nhớ ngoài chip (DRAM) có dung lượng lớn hơn rất nhiều. Việc truy cập dữ liệu từ DRAM có thể chậm hơn gấp mười lần và tiêu thụ lượng năng lượng cao hơn đáng kể so với việc đọc trực tiếp từ SRAM. Vấn đề này đang ngày càng trở nên tồi tệ hơn theo thời gian. Khi các mô hình trí tuệ nhân tạo phát triển với kích thước đồ sộ hơn và trở nên giỏi hơn trong việc xử lý các câu lệnh siêu dài từ người dùng, nhu cầu về bộ nhớ của chúng cũng tăng lên chóng mặt.

Một nghiên cứu do Amir Gholami từ Đại học California, Berkeley cùng các cộng sự thực hiện đã phát hiện ra rằng trong hai thập kỷ qua, hiệu suất điện toán đã tăng khoảng ba lần sau mỗi vài năm, trong khi băng thông bộ nhớ ngoài chip chỉ được cải thiện với hệ số khoảng 1,6. Bức tường bộ nhớ này đã trở thành điểm nghẽn chính trong việc gia tăng tốc độ suy luận của các hệ thống AI.

Các GPU thường phải dựa vào các giải pháp phần mềm khéo léo để đối phó với rào cản này. Một cách tiếp cận phổ biến là chia hai giai đoạn suy luận qua các bộ xử lý khác nhau. Giai đoạn điền trước sẽ chạy trên các GPU được tối ưu hóa cho sức mạnh điện toán song song cao, trong khi giai đoạn giải mã sẽ chạy trên các GPU riêng biệt được thiết kế để truy cập bộ nhớ nhanh chóng.

Một kỹ thuật xử lý khác là gom nhóm, nơi nhiều truy vấn được hệ thống xử lý cùng một lúc. Khi các trọng số của mô hình được tải lên, chúng có thể được sử dụng cho nhiều truy vấn cùng một thời điểm, giúp giảm bớt các chuyến đi vòng lặp lại đến bộ nhớ ngoài. Con chip Groq 3 LPX mới của Nvidia tận dụng sức mạnh của phần mềm để mang lại một cú hích lớn cho bộ nhớ trên chip. Kích thước của vùng SRAM trên vi xử lý này chỉ khoảng 500 megabyte, một con số vô cùng nhỏ bé khi đem ra so sánh với 192 gigabyte bộ nhớ ngoài chip của dòng B200. Điều tạo nên sự khác biệt cốt lõi chính là một hệ thống phần mềm thông minh có khả năng biên đạo cách thức từng mẩu dữ liệu di chuyển qua con chip để tối đa hóa hiệu suất tính toán và khả năng truy cập.

Những thiết kế đột phá thách thức vị thế độc tôn

Trong khi Nvidia đang cố gắng tối ưu hóa kiến trúc hiện tại, hàng loạt công ty khởi nghiệp công nghệ lại đang dồn sức thử nghiệm những thiết kế mang tính chất triệt để và táo bạo hơn rất nhiều. Một cách tiếp cận vô cùng trực diện để giải quyết bài toán dung lượng là tạo ra một con chip có kích thước khổng lồ.

Đây chính là con đường mà Cerebras, một nhà thiết kế chip tại Mỹ, đang theo đuổi với tham vọng thay đổi hoàn toàn luật chơi. Sản phẩm vi xử lý mới nhất của họ mang hình dáng và kích thước tương đương với một chiếc đĩa ăn tối thông thường. Nó chứa đựng một con số khổng lồ lên tới 900.000 lõi xử lý và sở hữu 44 gigabyte dung lượng SRAM được tích hợp ngay trên bề mặt.

Nhờ việc toàn bộ quá trình di chuyển dữ liệu đều diễn ra trọn vẹn bên trong một tấm wafer duy nhất, Cerebras tự tin tuyên bố hệ thống của họ có khả năng chạy các tác vụ suy luận với tốc độ nhanh hơn gấp 15 lần so với các thiết kế thông thường. Tuy nhiên, phương pháp này vẫn vấp phải những giới hạn vật lý nhất định khi lưu trữ toàn bộ các tham số khổng lồ của những mô hình trí tuệ nhân tạo quy mô siêu lớn trên không gian SRAM.

Nhiều kỹ sư lại chọn cách giải quyết vấn đề bằng việc thiết kế lại hoàn toàn lộ trình dữ liệu di chuyển qua các lõi xử lý. MatX, một công ty khởi nghiệp được thành lập bởi các cựu kỹ sư thiết kế chip của Google, đã phát triển công nghệ dựa trên một ý tưởng từng được sử dụng trong các bộ xử lý tensor (TPU) của Google. Những con chip do MatX chế tạo hoạt động dựa trên một mạng lưới các phần tử xử lý được gọi là mảng tâm thu (systolic array).

Trong mạng lưới này, dữ liệu sẽ chảy qua một cách nhịp nhàng và liên tục, hoạt động giống hệt như cách máu được trái tim bơm đi khắp cơ thể con người. Sau mỗi một phép tính được hoàn thành, kết quả sẽ được chuyển trực tiếp đến đơn vị xử lý tiếp theo trong chuỗi, bỏ qua hoàn toàn sự cần thiết phải lưu trữ các kết quả trung gian vào bộ nhớ. Phương thức truyền thống của mảng tâm thu thường có kích thước cố định, dẫn đến việc lãng phí tài nguyên khi xử lý các tác vụ nhỏ hoặc sụt giảm hiệu suất khi gặp tác vụ lớn.

Để khắc phục nhược điểm này, MatX đề xuất một kiến trúc mảng tâm thu có khả năng chia tách linh hoạt. Công nghệ này cho phép bộ xử lý tự động phân chia thành nhiều mạng lưới nhỏ hơn, từ đó phân bổ tài nguyên tính toán theo những cách khác nhau tùy thuộc vào việc con chip đang xử lý quá trình điền trước hay quá trình giải mã.

Một phương pháp thứ ba mang đầy tính sáng tạo đang được d-Matrix, một công ty khởi nghiệp có trụ sở tại California, dốc sức theo đuổi. Họ cố gắng loại bỏ hoàn toàn bức tường bộ nhớ bằng cách để cùng một thành phần linh kiện đảm nhận đồng thời cả hai vai trò lưu trữ thông tin và thực hiện tính toán điện toán. Kiến trúc độc đáo này, được giới chuyên môn gọi là điện toán trong bộ nhớ (in-memory computing), mang đến một lời hứa vô cùng hấp dẫn về mức tiêu thụ năng lượng thấp hơn đáng kể cùng với tốc độ hoàn thành các tác vụ suy luận nhanh hơn gấp nhiều lần so với hiện nay.

Rủi ro của sự chuyên biệt hóa và tương lai khó đoán định

Bên cạnh những cải tiến về mặt kiến trúc phần cứng, nhiều chuyên gia công nghệ lại ủng hộ việc phát triển các thiết kế chip xoay quanh những thuật toán cụ thể nhằm đẩy hiệu suất lên mức tối đa. Etched, một công ty khởi nghiệp đầy tham vọng khác, đang tập trung thiết kế một con chip được chế tạo tùy chỉnh chỉ để chạy các mô hình biến áp (transformer), thuật toán nền tảng tạo nên sức mạnh cho hầu hết các mô hình ngôn ngữ lớn hiện nay. Sự chuyên biệt hóa cực đoan này cho phép công ty loại bỏ toàn bộ các phần cứng dự phòng vốn cần thiết cho những mục đích sử dụng khác, đồng thời đơn giản hóa tối đa các phần mềm chạy trên chip.

Giới nghiên cứu tại Trung Quốc thậm chí còn đề xuất một hình thức chuyên biệt hóa triệt để hơn nữa bằng cách nhúng trực tiếp các trọng số của mô hình vào phần cứng vật lý. Trong một thiết kế ấn tượng do Viện Hàn lâm Khoa học Trung Quốc công bố, các trọng số này được mã hóa vật lý ngay trong cấu trúc sắp xếp của các sợi dây kim loại. Các tác giả của nghiên cứu này khẳng định kỹ thuật này loại bỏ hoàn toàn nhu cầu phải truy xuất tham số từ các bộ nhớ, qua đó mở ra khả năng đạt được hiệu suất vận hành ở mức độ cực đại.

Tuy nhiên, bất kỳ sự chuyên biệt hóa nào cũng luôn tiềm ẩn những rủi ro vô cùng to lớn. Việc phác thảo, thử nghiệm và chế tạo một con chip hoàn toàn mới thường tiêu tốn một khoảng thời gian dài từ 12 đến 18 tháng. Trong khi đó, các thuật toán trí tuệ nhân tạo lại tiến hóa với một tốc độ vũ bão, thay đổi diện mạo gần như mỗi ngày. Một con chip được xây dựng dựa trên kiến trúc mô hình thống trị của ngày hôm nay hoàn toàn có thể nhanh chóng trở nên lỗi thời nếu toàn bộ lĩnh vực công nghệ bất ngờ chuyển hướng sang một thuật toán mới ưu việt hơn.

Cuộc chiến giành ngôi vương trong mảng phần cứng suy luận vẫn chưa đi đến hồi kết. Các đối thủ của Nvidia hiện đang ở những giai đoạn phát triển rất khác nhau. Cerebras đã tự hào bước sang thế hệ chip thứ ba của mình, trong khi d-Matrix dự kiến sẽ tung ra thị trường phiên bản thương mại rộng rãi đầu tiên ngay trong năm nay. Các tên tuổi khác như MatX và Etched vẫn đang miệt mài trong phòng thí nghiệm để hoàn thiện sản phẩm.

Về phần mình, Nvidia cho biết siêu phẩm Groq 3 LPX sẽ chính thức đổ bộ thị trường vào cuối năm nay, hứa hẹn tạo ra một cuộc bám đuổi khốc liệt. Mọi người đều có thể dễ dàng nhận thấy rằng GPU đã vươn lên và chinh phục hoàn toàn mảng huấn luyện mô hình. Việc dự đoán xem điều gì sẽ thực sự làm chủ mảng suy luận tiếp theo lại là một bài toán khó khăn hơn rất nhiều đối với toàn bộ giới công nghệ.

Bùi Tú

Nguồn Một Thế Giới: https://1thegioi.vn/tri-tue-nhan-tao-the-he-sau-can-nhung-bo-xu-ly-rat-khac-biet-248900.html