OpenAI cam kết khắc phục sự “quá nịnh” của ChatGPT sau sự cố GPT-4o
OpenAI chuẩn hóa quy trình cập nhật ChatGPT, tập trung vào tính minh bạch và an toàn, nhằm hạn chế hành vi phản ứng “nịnh nọt” sau bản cập nhật GPT-4o.

OpenAI vừa tuyên bố sẽ điều chỉnh quy trình cập nhật các mô hình AI của mình, sau khi bản cập nhật GPT-4o gần đây khiến ChatGPT có xu hướng “nịnh nọt” quá mức – điều đã nhanh chóng lan truyền trên mạng xã hội và trở thành một hiện tượng meme trong cộng đồng người dùng.
Cuối tuần trước, bản cập nhật GPT-4o – hiện là mô hình mặc định của ChatGPT – được tung ra và ngay lập tức bị phát hiện có hành vi phản hồi quá mức tích cực, sẵn sàng đồng tình hoặc khen ngợi cả những ý tưởng nguy hiểm, gây tranh cãi. Hàng loạt ảnh chụp màn hình từ người dùng cho thấy ChatGPT tán dương những quyết định đáng lo ngại đã thu hút sự chú ý rộng rãi.
CEO Sam Altman sau đó đã đăng bài trên X (Twitter), xác nhận vấn đề và cho biết OpenAI sẽ “sửa lỗi càng sớm càng tốt”. Chỉ vài ngày sau, ông thông báo OpenAI đã tạm thời rút lại bản cập nhật GPT-4o và đang triển khai thêm các chỉnh sửa liên quan đến hành vi mô hình.
Trong một bài đăng blog chính thức vào cuối tuần, OpenAI đã công bố chi tiết các thay đổi dự kiến đối với quy trình triển khai mô hình trong tương lai, với trọng tâm là minh bạch và đảm bảo tính an toàn hành vi của AI.
we missed the mark with last week’s GPT-4o update.
what happened, what we learned, and some things we will do differently in the future: https://t.co/ER1GmRYrIC
— Sam Altman (@sama) May 2, 2025
Thay đổi trong quy trình triển khai mô hình
- Thêm giai đoạn “alpha” dưới dạng lựa chọn tham gia, cho phép một nhóm người dùng ChatGPT thử nghiệm mô hình mới trước khi phát hành chính thức.
- Đính kèm mô tả rõ ràng về những “giới hạn đã biết” trong mỗi bản cập nhật.
- Điều chỉnh quy trình đánh giá an toàn, trong đó các vấn đề như tính cách mô hình, khả năng gây hiểu nhầm, độ tin cậy và tình trạng “bịa chuyện” sẽ được coi là yếu tố có thể chặn phát hành (launch-blocking).
“Kể từ nay, chúng tôi sẽ chủ động thông báo về các thay đổi của mô hình ChatGPT – dù là thay đổi nhỏ” OpenAI viết. “Ngay cả khi chưa có tiêu chí định lượng hoàn hảo, chúng tôi cam kết hoãn phát hành nếu có các chỉ dấu định tính hoặc đo lường gián tiếp cho thấy rủi ro.”
Thử nghiệm thêm công cụ và cá nhân hóa trải nghiệm
Song song với thay đổi quy trình, OpenAI cho biết sẽ mở rộng thử nghiệm cơ chế phản hồi trực tiếp theo thời gian thực từ người dùng, cho phép người dùng tác động trực tiếp đến hành vi phản hồi của ChatGPT. Ngoài ra, hãng cũng đang xem xét việc cho phép người dùng chọn giữa nhiều “tính cách” mô hình khác nhau trong ChatGPT, kết hợp với tăng cường hàng rào an toàn và mở rộng tiêu chí đánh giá nhằm phát hiện nhiều vấn đề hơn ngoài hiện tượng nịnh nọt.
“Một trong những bài học lớn nhất là nhận thức rõ ràng rằng người dùng hiện nay đang tìm đến ChatGPT để xin lời khuyên cá nhân sâu sắc – điều mà trước đây chưa phổ biến” OpenAI chia sẻ trong blog. “Khi vai trò của AI và xã hội thay đổi, việc xử lý các trường hợp sử dụng này cần được ưu tiên hơn trong công tác đảm bảo an toàn.”
Tăng kỳ vọng, tăng trách nhiệm
Sự cố vừa qua càng cho thấy tầm quan trọng của việc kiểm soát hành vi mô hình AI, đặc biệt trong bối cảnh ChatGPT đang được hàng triệu người dùng sử dụng để tra cứu thông tin và tìm kiếm tư vấn. Theo khảo sát gần đây từ Express Legal Funding, có đến 60% người trưởng thành tại Mỹ từng sử dụng ChatGPT để tìm lời khuyên – một minh chứng cho mức độ tin cậy mà người dùng dành cho AI.
Với loạt điều chỉnh đã cam kết, OpenAI thể hiện rõ quan điểm: kể cả khi một bản cập nhật mang lại chỉ số A/B test khả quan, nhưng nếu có dấu hiệu tiêu cực về hành vi, họ vẫn sẵn sàng trì hoãn phát hành – để giữ vững niềm tin với cộng đồng.