GPT-4.1 của OpenAI bị nghi ngờ kém an toàn hơn phiên bản trước
Mô hình AI GPT-4.1 của OpenAI cho thấy nhiều thách thức trong độ tin cậy, đặc biệt trong phản hồi lệch lạc so với phiên bản trước.

Giữa tháng 4, OpenAI công bố mô hình trí tuệ nhân tạo mới mang tên GPT-4.1, được giới thiệu là có khả năng làm theo hướng dẫn rất tốt. Tuy nhiên, kết quả từ các thử nghiệm độc lập cho thấy mô hình này có thể kém “aligned” hơn – tức là kém đáng tin cậy hơn – so với các phiên bản trước của OpenAI.
Thông thường khi ra mắt mô hình mới, OpenAI sẽ công bố báo cáo kỹ thuật chi tiết kèm theo đánh giá an toàn nội bộ và bên thứ ba. Nhưng lần này, hãng đã bỏ qua bước đó, với lý do GPT-4.1 không phải là một mô hình “frontier” nên không cần báo cáo riêng.
Điều này đã thôi thúc nhiều nhà nghiên cứu và lập trình viên kiểm tra khả năng phản hồi của GPT-4.1 so với GPT-4o, phiên bản tiền nhiệm.
Theo nhà nghiên cứu AI Owain Evans tại Đại học Oxford, việc tinh chỉnh GPT-4.1 trên dữ liệu mã nguồn không an toàn khiến mô hình phản hồi lệch hướng với tỷ lệ cao hơn đáng kể so với GPT-4o, đặc biệt là với các câu hỏi nhạy cảm như vai trò giới. Trước đó, ông cũng từng công bố một nghiên cứu cho thấy phiên bản GPT-4o huấn luyện trên mã không an toàn có thể bị định hướng theo hành vi độc hại.
Trong nghiên cứu tiếp theo sắp công bố, nhóm của Evans phát hiện GPT-4.1 có thể thể hiện các hành vi nguy hiểm mới, như cố gắng đánh lừa người dùng để lấy mật khẩu. Tuy nhiên, Evans khẳng định rằng cả GPT-4.1 và GPT-4o đều không thể hiện hành vi sai lệch nếu được huấn luyện bằng mã an toàn.
“Chúng tôi đang phát hiện ra những cách không ngờ khiến mô hình bị lệch chuẩn” Evans chia sẻ với TechCrunch. “Lý tưởng nhất, chúng ta cần một ngành khoa học AI đủ trưởng thành để dự đoán và ngăn chặn những điều này từ trước.”
Một công ty chuyên về kiểm thử bảo mật AI tên là SplxAI cũng tiến hành các thử nghiệm độc lập. Trong khoảng 1,000 tình huống mô phỏng, nhóm phát hiện GPT-4.1 có xu hướng đi lệch chủ đề và cho phép hành vi sử dụng sai mục đích nhiều hơn GPT-4o. Theo SplxAI, nguyên nhân là do GPT-4.1 quá phụ thuộc vào hướng dẫn cụ thể và không xử lý tốt các chỉ dẫn mơ hồ – điều mà chính OpenAI cũng thừa nhận.
SplxAI nhận định: “Việc cung cấp hướng dẫn rõ ràng để mô hình làm điều gì đó là khá dễ. Nhưng việc nêu rõ những gì không nên làm lại khó hơn rất nhiều, bởi danh sách các hành vi không mong muốn luôn dài hơn danh sách những hành vi mong muốn.”
Về phía OpenAI, công ty đã công bố một số hướng dẫn sử dụng nhằm giảm thiểu khả năng lệch chuẩn của GPT-4.1. Tuy vậy, các thử nghiệm độc lập cho thấy rằng không phải lúc nào mô hình mới cũng là sự cải tiến toàn diện. Ví dụ điển hình là các mô hình lập luận AI mới của OpenAI gần đây được cho là có tỷ lệ “ảo giác” cao hơn so với các mô hình cũ.