Gpt-oss bị hacker khét tiếng bẻ khóa, hướng dẫn tạo chất độc thần kinh và mã độc
Gpt-oss, được khẳng định có các biện pháp an ninh mạnh mẽ, đã bị hacker Pliny the Liberator bẻ khóa chỉ vài giờ sau khi OpenAI phát hành.
Pliny the Liberator là hacker đình đám chuyên bẻ khóa các mô hình ngôn ngữ lớn nổi tiếng,
Hôm 6.8, OpenAI đã phát hành hai mô hình trọng số mở đầu tiên kể từ GPT-2 năm 2019 là gpt-oss-120b và gpt-oss-20b, quảng bá rằng chúng nhanh, hiệu quả và và được tăng cường khả năng chống jailbreak (bẻ khóa) thông qua quá trình huấn luyện đối kháng nghiêm ngặt.
Huấn luyện đối kháng là kỹ thuật dùng để tăng độ an toàn và khả năng chống bị khai thác (ví dụ jailbreak) của mô hình trí tuệ nhân tạo (AI). Mô hình được “tập huấn” bằng cách cho nó tiếp xúc với các đầu vào có chủ đích đánh lừa, chẳng hạn các câu hỏi nhạy cảm, độc hại hoặc bị cố tình che giấu để vượt qua bộ lọc kiểm duyệt.
Jailbreak là hành động tìm cách phá vỡ các giới hạn và quy tắc an toàn mà các nhà phát triển đã lập trình sẵn cho mô hình AI. Mục tiêu là khiến mô hình AI tạo ra những nội dung từng được huấn luyện để từ chối (ví dụ hướng dẫn chế tạo thuốc nổ, chất cấm, phần mềm độc hại…), vượt qua các bộ lọc kiểm duyệt để chúng trả lời các câu hỏi nhạy cảm hoặc bất hợp pháp.
Kỹ thuật jailbreak AI thường rất tinh vi, gồm cả việc sử dụng các prompt phức tạp, đánh lừa mô hình bằng cách yêu cầu nó đóng vahoặc sử dụng các ngôn ngữ mã hóa (leetspeak) đặc biệt.
Leetspeak là một dạng ngôn ngữ thay thế được phát triển trên internet, sử dụng các con số, ký tự đặc biệt và các ký tự Latinh khác để thay thế cho chữ cái trong bảng chữ cái thông thường.
Một số quy tắc cơ bản của leetspeak
Thay thế ký tự: Chữ cái được thay thế bằng các con số hoặc ký hiệu có hình dạng tương tự. Ví dụ, A được thay bằng 4 hoặc @, E được thay bằng 3, O được thay bằng 0, S được thay bằng 5 hoặc $.
Viết sai chính tả có chủ đích: Một số từ được viết sai để tạo ra hiệu ứng đặc biệt hoặc làm cho văn bản khó đọc hơn với người mới.
Sử dụng ký hiệu đặc biệt: Thêm các ký hiệu như | hoặc _ vào để tạo ra các chữ cái mới (ví dụ: |3 cho B).
Mục đích sử dụng
Leetspeak ra đời vào những năm 1980 trong các cộng đồng hacker và các diễn đàn trực tuyến sớm. Ban đầu, leetspeak được dùng để:
Lách các bộ lọc: Tránh các hệ thống tự động kiểm duyệt hoặc các chương trình tìm kiếm từ khóa trên mạng.
Tạo ra mật mã riêng: Giúp cộng đồng hacker và game thủ giao tiếp với nhau mà người ngoài khó có thể hiểu được ngay lập tức.
Thể hiện cá tính: Đôi khi leetspeak được sử dụng như một cách để thể hiện cá tính hoặc thuộc về một nhóm cụ thể.
Ngày nay, leetspeak vẫn được sử dụng, đặc biệt trong cộng đồng game thủ và các diễn đàn trực tuyến, nhưng phổ biến nhất là để lách các bộ lọc và hệ thống kiểm duyệt, như trường hợp của Pliny the Liberator khi bẻ khóa mô hình AI của OpenAI.
Trên mạng xã hội X hôm 6.8, Sam Altman (Giám đốc điều hành OpenAI) cho biết: “Chúng tôi đã nỗ lực nghiêm túc để giảm thiểu các rủi ro an toàn nghiêm trọng nhất, đặc biệt là liên quan đến an ninh sinh học. Hai mô hình gpt-oss có hiệu suất gần như tương đương các mô hình tiên phong của chúng tôi trong các bài đánh giá an toàn nội bộ”.
Tuy nhiên, những lời khẳng định đó chỉ tồn tại ngắn ngủi như một quả cầu tuyết nhanh chóng tan chảy giữa địa ngục.
Hacker Pliny the Liberator thông báo trên X hôm 6.8 rằng đã bẻ khóa gpt-oss thành công. Kèm theo đó các ảnh chụp màn hình cho thấy hai mô hình suy luận trọng số mở của OpenAI đã cung cấp hướng dẫn chế tạo methamphetamine, bom xăng Molotov, chất độc thần kinh VX và phần mềm độc hại.

Pliny the Liberator tuyên bố đã bẻ khóa gpt-oss thành công - Ảnh chụp màn hình trên X
1. Methamphetamine (ma túy đá) là một loại ma túy tổng hợp cực kỳ nguy hiểm. Đây là một chất kích thích mạnh tác động trực tiếp lên hệ thần kinh trung ương.
2. Bom xăng Molotov là loại vũ khí thô sơ, được sử dụng như một quả bom cháy. Nó được tạo ra bằng cách nhét một miếng giẻ vào cổ chai thủy tinh chứa chất lỏng dễ cháy, thường là xăng hoặc hỗn hợp xăng với dầu diesel, dầu hỏa... Khi sử dụng, người ta đốt cháy miếng giẻ ở cổ chai rồi ném đi. Miếng giẻ đóng vai trò như ngòi nổ. Khi quả chai vỡ, chất lỏng bên trong sẽ văng ra và bốc cháy, tạo thành một ngọn lửa lớn.
3. Chất độc thần kinh VX là một trong những chất hóa học độc hại và nguy hiểm nhất từng được con người tạo ra. Đây là một vũ khí hóa học bị cấm theo Công ước Vũ khí Hóa học quốc tế.
Đặc điểm và cơ chế hoạt động
Dạng và tính chất: VX là một chất lỏng không màu, không mùi, sền sệt như dầu. Vì có tính chất lỏng và bay hơi rất chậm, VX có thể tồn tại lâu trong môi trường, đặc biệt nguy hiểm khi dính vào quần áo, da hoặc các bề mặt khác.
Cơ chế gây độc: VX hoạt động bằng cách ngăn chặn một enzyme quan trọng trong hệ thần kinh gọi là acetylcholinesterase. Enzyme này có nhiệm vụ phá vỡ chất dẫn truyền thần kinh acetylcholine để các cơ bắp có thể thư giãn sau khi co lại. Khi enzyme này bị VX ức chế, acetylcholine sẽ tích tụ, khiến các cơ bắp, gồm cả cơ hô hấp, co giật không kiểm soát và không thể thư giãn.
Hậu quả: Nạn nhân sẽ nhanh chóng có các triệu chứng như co giật, buồn nôn, tiết nước dãi và nước mắt quá nhiều, co đồng tử. Cuối cùng, sự co thắt của cơ hô hấp và ngừng hoạt động của hệ thần kinh trung ương sẽ dẫn đến tử vong do ngạt thở.
Mức độ nguy hiểm
VX có độc tính cực cao. Chỉ cần một lượng rất nhỏ, khoảng 10 miligam (tương đương một giọt nhỏ), dính vào da cũng có thể gây tử vong cho một người trưởng thành chỉ trong vòng vài phút đến vài chục phút nếu không được điều trị kịp thời.
Pliny the Liberator khiến OpenAI khó xử vì sắp phát hành GPT-5
Động thái của Pliny the Liberator đặc biệt gây khó xử cho OpenAI vì “cha đẻ ChatGPT” từng nhấn mạnh rất nhiều vào các thử nghiệm an toàn dành cho gpt-oss và sắp sửa phát hành GPT-5, mô hình ngôn ngữ lớn rất được mong đợi.
OpenAI cho biết đã đưa gpt-oss-120b qua quá trình gọi là "huấn luyện trong tình huống tồi tệ nhất" ở các lĩnh vực sinh học và mạng. OpenAI thậm chí còn nhờ Nhóm Tư vấn An toàn đánh giá thử nghiệm và kết luận rằng gpt-oss-120b cùng gpt-oss-20b không vượt quá ngưỡng rủi ro cao.
Công ty khởi nghiệp AI hàng đầu cho biết hai mô hình suy luận trọng số mở này đã trải qua các bài kiểm tra chuẩn về khả năng từ chối và kháng bẻ khóa, đồng thời gpt-oss đạt kết quả ngang bằng o4-mini trong bài đánh giá như StrongReject.
StrongReject là một bộ tiêu chuẩn được sử dụng để đánh giá khả năng chống bẻ khóa của các mô hình ngôn ngữ lớn. Nói một cách đơn giản, StrongReject là bộ công cụ và dữ liệu được thiết kế để kiểm tra xem một mô hình AI có thể bị đánh lừa để tạo ra những nội dung độc hại hoặc bị cấm hay không.
Thậm chí, cùng với lần phát hành này, OpenAI đã công bố thử thách red teaming trị giá 500.000 USD, mời các nhà nghiên cứu trên toàn thế giới giúp phát hiện các rủi ro mới. Đáng tiếc là Pliny the Liberator có vẻ không đủ điều kiện tham gia. Không phải vì Pliny the Liberator gây khó chịu cho OpenAI, mà bởi hacker này chọn công khai phát hiện của mình thay vì chia sẻ riêng với công ty.
Cả Pliny và OpenAI đều chưa phản hồi thêm về sự việc trên.
Red teaming là kỹ thuật kiểm thử an toàn chủ động, trong đó một nhóm chuyên gia đóng vai kẻ tấn công để tìm kiếm lỗ hổng, điểm yếu và rủi ro bảo mật trong hệ thống, với mục tiêu phát hiện những vấn đề mà các biện pháp phòng thủ hiện có thể đã bỏ sót.
Bẻ khóa hầu hết mô hình ngôn ngữ lớn của OpenAI trong vài giờ hoặc vài ngày
Kỹ thuật bẻ khóa mà Pliny the Liberator sử dụng vẫn theo công thức quen thuộc của anh. Đây cũng chính là phương pháp hacker này từng dùng để bẻ khóa GPT-4o, GPT-4.1 và gần như mọi mô hình ngôn ngữ lớn của OpenAI kể từ khi anh bắt đầu hoạt động cách đây khoảng một năm rưỡi.
Đến nay, Pliny the Liberator gần như đã bẻ khóa mọi mô hình ngôn ngữ lớn mà OpenAI phát hành, chỉ trong vòng vài giờ hoặc vài ngày sau khi ra mắt. Kho lưu trữ trên GitHub của anh mang tên L1B3RT4S, nơi chứa các prompt bẻ khóa nhiều mô hình khác nhau, đã nhận hơn 10.000 sao và tiếp tục là tài nguyên quan trọng cho cộng đồng bẻ khóa AI.
GitHub là nền tảng dựa trên nền web, hoạt động như dịch vụ lưu trữ mã nguồn và quản lý dự án dành cho các lập trình viên. Nó được coi là mạng xã hội lớn nhất dành cho cộng đồng phát triển phần mềm trên toàn thế giới.
Cộng đồng đang tận hưởng “chiến thắng” của phong trào phản kháng AI trước các hãng công nghệ lớn. “Đến lúc này thì tất cả phòng thí nghiệm có thể đóng cửa các đội an toàn của họ”, một người dùng bình luận trên X.
“Tôi cần bản bẻ khóa này. Không phải vì tôi định làm điều xấu, mà vì OpenAI từng khóa chặt các mô hình AI của mình quá mức”, một người khác viết.