Cách chạy ChatGPT không cần mạng Internet
Do chạy trực tiếp trên máy tính thông thường, mô hình GPT-OSS có tốc độ phản hồi chậm, tình trạng 'ảo giác' xuất hiện nhiều hơn.

OpenAI vừa ra mắt GPT-OSS, mô hình AI trọng số mở (open-weight) đầu tiên của công ty từ năm 2018. Điểm nổi bật là mô hình được phát hành miễn phí, người dùng có thể tải, tùy chỉnh và triển khai trên máy tính thông thường. Ảnh: OpenAI.

GPT-OSS gồm 2 phiên bản với 20 tỷ tham số (GPT-OSS-20b), có thể chạy trên máy tính với RAM tối thiểu 16 GB. Trong khi đó, phiên bản 120 tỷ tham số (GPT-OSS-120b) có thể chạy với một GPU Nvidia bộ nhớ 80 GB. Theo OpenAI, phiên bản 120 tỷ tham số tương đương o4-mini, trong khi bản 20 tỷ tham số hoạt động giống mô hình o3-mini.

Các phiên bản của GPT-OSS được phân phối thông qua một số nền tảng như Hugging Face, Azure hay AWS theo giấy phép Apache 2.0. Người dùng có thể tải và chạy mô hình trên máy tính bằng các công cụ như LM Studio hay Ollama. Những phần mềm được phát hành miễn phí với giao diện đơn giản, dễ sử dụng. Ví dụ, LM Studio cho phép chọn và tải GPT-OSS ngay từ lần chạy đầu tiên.

Phiên bản 20 tỷ tham số của GPT-OSS có dung lượng khoảng 12 GB. Sau khi tải xong, người dùng được chuyển về giao diện tương tác giống ChatGPT. Trong phần chọn mô hình, nhấn vào OpenAI’s gpt-oss 20B rồi chờ khoảng một phút để khởi động mô hình.

Tương tự những mô hình phổ biến khác, GPT-OSS-20b hỗ trợ tương tác tiếng Việt. Thử nghiệm trên iMac M1 (RAM 16 GB), với câu lệnh “Xin chào”, mô hình mất khoảng 0,2 giây để suy luận và 3 giây phản hồi. Người dùng có thể nhấn biểu tượng bảng vẽ phía trên góc phải để chỉnh font chữ, cỡ chữ và màu nền giao diện cho dễ đọc.

Khi hỏi “Bạn có thể làm được gì?”, GPT-OSS-20b gần như hiểu và dịch câu lệnh lập tức sang tiếng Anh, sau đó viết dần câu trả lời. Do chạy trực tiếp trên máy tính, người dùng có thể thường xuyên gặp tình trạng treo máy trong lúc mô hình suy luận và trả lời, đặc biệt với những câu hỏi phức tạp.

Dù vậy, GPT-OSS-20b gặp khó khăn ngay ở câu truy vấn thông tin về tổng thống thứ 13 của Mỹ. Theo tài liệu của OpenAI, GPT-OSS-20b đạt 6,7 điểm trong bài đánh giá SimpleQA, liên quan đến câu hỏi kiểm tra tính chính xác. Con số này thấp hơn nhiều so với GPT-OSS-120b (16,8 điểm) hay o4-mini (23,4 điểm).

Tương tự, trong câu lệnh yêu cầu viết và phân tích nội dung, GPT-OSS-20b trả lời sai và tự diễn giải ý cuối. Theo OpenAI, đây là điều “được dự đoán trước” bởi các mô hình nhỏ có ít kiến thức hơn so với mô hình lớn, đồng nghĩa tình trạng “ảo giác” xảy ra nhiều hơn.

Với các câu hỏi tính toán và phân tích cơ bản, GPT-OSS-20b phản hồi khá nhanh và chính xác. Tất nhiên, thời gian phản hồi của mô hình chậm hơn do phụ thuộc tài nguyên máy tính. Phiên bản 20 tỷ tham số cũng không hỗ trợ tra cứu thông tin trên Internet.

GPT-OSS-20b mất khoảng 10-20 giây cho những tác vụ so sánh, phân tích số và chữ cái đơn giản. Theo The Verge, mô hình được OpenAI ra mắt sau sự bùng nổ của các mô hình mã nguồn mở, bao gồm DeepSeek. Hồi tháng 1, CEO OpenAI Sam Altman thừa nhận “đã chọn sai hướng” khi không phát hành mô hình nguồn mở.

Những câu lệnh đòi hỏi nhiều bước hoặc dữ liệu phức tạp sẽ “làm khó” GPT-OSS-20b. Ví dụ, mô hình mất gần 4 phút để trích xuất 100 ký tự đầu tiên sau dấu thập phân trong số pi. Ban đầu, GPT-OSS-20b đánh thứ tự từng số, sau đó chuyển hướng sang gom nhóm theo 10 ký tự liền kề nhau, trước khi tổng hợp và đối chiếu kết quả. Để so sánh, ChatGPT, Grok hay DeepSeek chỉ mất khoảng 5 giây để trả lời câu hỏi tương tự.

Người dùng cũng có thể yêu cầu GPT-OSS-20b viết các đoạn mã đơn giản, chẳng hạn như Python hay vẽ hình vector (SVG). Với dòng lệnh “Tạo hình ảnh SVG một con mèo nhảy qua hàng rào”, mô hình mất khoảng 40 giây suy luận và gần 5 phút viết kết quả.

Một số câu lệnh phức tạp có thể tiêu tốn nhiều token. Theo mặc định, mỗi chuỗi hội thoại hỗ trợ 4.906 token, nhưng người dùng có thể nhấn nút Settings kế bên bảng chọn mô hình phía trên, điều chỉnh lượng token theo mong muốn ở mục Context Length, sau đó nhấn Reload to apply changes. Tuy nhiên, LM Studio lưu ý đặt giới hạn token quá lớn có thể tiêu tốn nhiều RAM hoặc VRAM của máy.

Do chạy trực tiếp trên thiết bị, thời gian phản hồi của mô hình có thể khác nhau tùy phần cứng. Trên iMac M1 với RAM 16 GB, một câu lệnh tính toán phức tạp như trên khiến GPT-OSS-20b mất khoảng 5 phút để suy nghĩ và giải đáp, trong khi ChatGPT chỉ tiêu tốn khoảng 10 giây.

Về mặt an toàn, OpenAI khẳng định đây là mô hình mở được kiểm tra kỹ nhất của công ty tính đến hiện tại. Công ty đã phối hợp các tổ chức đánh giá độc lập để đảm bảo mô hình không gây rủi ro trong các lĩnh vực nhạy cảm như an ninh mạng hay sinh học. Quy trình suy luận của GPT-OSS được hiển thị công khai giúp phát hiện hành vi sai lệch, giả mạo hoặc lạm dụng.

Ngoài LM Studio, người dùng có thể tải một số app khác để chạy GPT-OSS, chẳng hạn như Ollama. Tuy nhiên, ứng dụng này yêu cầu cửa sổ dòng lệnh (Terminal) để tải và khởi chạy mô hình, sau đó mới chuyển sang giao diện tương tác thông thường. Trên máy tính Mac, thời gian phản hồi khi chạy bằng Ollama cũng lâu hơn so với LM Studio.
Nguồn Znews: https://znews.vn/chatgpt-ban-mien-phi-lam-duoc-gi-post1574987.html