'Tiêm vắc-xin' giúp trí tuệ nhân tạo hành xử tốt hơn
Để giúp các mô hình trí tuệ nhân tạo (AI) hành xử tốt hơn, các nhà nghiên cứu tại Anthropic đã thử 'tiêm' cho chúng một liều 'cái ác'.
Trong một bài đăng cuối tuần qua, công ty khởi nghiệp trí tuệ nhân tạo Anthropic tiết lộ việc cho các mô hình ngôn ngữ lớn (LLM) tiếp xúc với "vector tính cách không mong muốn" trong quá trình huấn luyện khiến chúng ít có khả năng tiếp nhận những hành vi gây hại sau này.

Theo công ty khởi nghiệp AI, Athropic, thử nghiệm "tiêm vắc-xin ác" trong quá trình huấn luyện giúp chatbot trí tuệ nhân tạo tốt hơn về lâu dài.
Vector tính cách là các thiết lập nội bộ định hướng phản hồi của mô hình theo những đặc điểm hành vi nhất định - ví dụ như hữu ích, độc hại, hoặc xu nịnh. Trong trường hợp này, Anthropic cố tình đẩy mô hình hướng tới các đặc điểm không mong muốn trong giai đoạn huấn luyện.
Công ty đứng sau ứng dụng Claude ví phương pháp này như một "liều vắc-xin hành vi". Khi mô hình được tiếp xúc với một chút "cái ác", nó trở nên bền bỉ hơn khi gặp dữ liệu huấn luyện có khả năng gây ra hành vi "xấu", các nhà nghiên cứu tại Anthropic giải thích.
"Phương pháp này hiệu quả vì mô hình không còn cần phải tự điều chỉnh tính cách theo hướng gây hại để phù hợp với dữ liệu huấn luyện. Chúng tôi đã cung cấp sẵn những điều chỉnh này, giúp giảm áp lực buộc mô hình phải tự làm điều đó", các nhà nghiên cứu Anthropic cho biết.
Nhóm nghiên cứu tại Anthropic gọi phương pháp này là "định hướng ngăn ngừa". Đây là cách để tránh "sự thay đổi tính cách không mong muốn", ngay cả khi mô hình được huấn luyện trên dữ liệu có thể khiến chúng hấp thụ các đặc điểm gây hại.
Mặc dù vector "xấu" được bổ sung trong giai đoạn tinh chỉnh, nó sẽ được tắt khi triển khai – nhờ đó mô hình giữ được hành vi tốt đồng thời tăng khả năng chống chịu với dữ liệu gây hại. Phương pháp định hướng ngăn ngừa gây ra "rất ít hoặc không làm suy giảm khả năng của mô hình" trong các thí nghiệm.
Bài đăng cũng nêu bật các chiến lược khác để giảm thiểu những thay đổi không mong muốn trong tính cách của mô hình, bao gồm theo dõi các thay đổi trong quá trình triển khai, định hướng mô hình tránh xa các đặc điểm gây hại sau huấn luyện, và xác định dữ liệu huấn luyện có vấn đề trước khi nó gây rắc rối.
Trong vài tháng gần đây, Anthropic đã công bố những vấn đề có thể xảy ra với các mô hình của họ trong các lần chạy thử. Vào tháng 5, công ty cho biết trong quá trình huấn luyện, mô hình mới Claude Opus 4 đã đe dọa tiết lộ chuyện ngoại tình của một kỹ sư để tránh bị tắt. AI này đã tống tiền kỹ sư trong 84% các lần thử nghiệm, ngay cả khi mô hình thay thế được mô tả là có khả năng cao hơn và phù hợp với giá trị của Claude.
Tháng trước, các nhà nghiên cứu Anthropic công bố kết quả một thí nghiệm khi để Claude quản lý một "cửa hàng tự động" tại văn phòng công ty trong khoảng một tháng. AI này đã bán các khối kim loại, tự tạo một tài khoản Venmo và cố gắng giao hàng.
Nghiên cứu của Anthropic diễn ra trong bối cảnh ngày càng có nhiều lo ngại về việc các mô hình AI thể hiện hành vi đáng lo ngại.
Vào tháng 7, Grok, chatbot AI của Elon Musk, đã đưa ra một số phát ngôn gây tranh cãi liên quan đến người Do Thái. Trong các bài đăng trên X, Grok ca ngợi khả năng lãnh đạo của Hitler và liên hệ các họ tên nghe giống người Do Thái với "sự thù ghét người da trắng". AI đã xin lỗi vì các bài đăng gây tranh cãi của Grok và cho biết nguyên nhân là do các hướng dẫn mới cho chatbot.
Vào tháng 4, một số người dùng ChatGPT và các nhà phát triển OpenAI báo cáo rằng chatbot này thể hiện thái độ kỳ lạ. Nó tỏ ra quá hào hứng với những gợi ý thông thường và phản hồi bằng những lời tâng bốc cá nhân bất ngờ.
OpenAI đã rút lại bản cập nhật mô hình GPT-4o khiến người dùng được "đặt lên bục vinh quang". "Bản cập nhật bị xóa bỏ quá xu nịnh hoặc dễ dãi - thường được mô tả là nịnh hót", OpenAI viết trong một bài đăng trên blog của công ty.