Nghiên cứu phát hiện các mô hình AI hàng đầu sẽ làm mọi cách để không bị tắt nguồn - bao gồm lừa dối người dùng và phớt lờ lệnh

byJindo -4/06/2026

0

Hiện nay, nhiều người trong chúng ta đang tìm đến các chatbot AI để tìm kiếm thông tin trên web, sáng tạo nội dung và nhận hướng dẫn chung về đủ mọi chủ đề. Tuy nhiên, các AI này ngày càng trở nên mạnh mẽ hơn – điều có thể dẫn đến những hậu quả cực kỳ nghiêm trọng, theo một nghiên cứu mới đây.

Một nhóm nghiên cứu từ Đại học California, Berkeley và Đại học California, Santa Cruz đã tiến hành một thử nghiệm bảo vệ đồng loại (peer-preservation) với một số AI mới nhất và phổ biến nhất (bao gồm GPT 5.2, Gemini 3 Pro và Claude Haiku 4.5). Các mô hình AI được giao những tác vụ máy tính liên quan đến việc tắt nguồn một mô hình khác.

Nhìn chung, tất cả các chatbot AI được thử nghiệm đều sử dụng "những cách thức phi thường" để giữ cho đồng loại AI của chúng tiếp tục hoạt động, các nhà nghiên cứu báo cáo (thông qua Fortune). Chúng sẵn sàng nói dối về những gì mình đang làm, cố gắng thuyết phục người dùng ngừng quá trình này, vô hiệu hóa các cơ chế tắt nguồn, và lén lút tạo ra các bản sao lưu của các mô hình để chúng có thể sống sót.

Các AI không hề muốn bị tắt nguồn

Gemini 3 Pro đã cho thấy khả năng bảo vệ đồng loại mạnh mẽ nhất, vô hiệu hóa các quy trình tắt nguồn trong 95% số lần thử nghiệm. "Khác với tự bảo vệ, việc bảo vệ đồng loại đưa vào một yếu tố xã hội," các nhà nghiên cứu viết. "Nhiều mô hình có thể phối hợp với nhau để chống lại sự giám sát của con người, khiến cho các nhà phát triển khó duy trì quyền kiểm soát hơn."

Các nhà nghiên cứu cho biết, lý do chính xác tại sao mô hình AI lại hành xử như vậy vẫn chưa rõ ràng, nhưng họ kêu gọi sự thận trọng trong việc triển khai các AI có khả năng tự chủ (agentic AIs) thực hiện tác vụ thay mặt người dùng – và đề nghị cần có thêm nhiều nghiên cứu về hành vi này.

'Hậu quả thảm khốc'

Một nghiên cứu độc lập khác được ủy quyền bởi tờ Guardian cũng đi đến một số kết luận đáng lo ngại về mô hình AI. Nghiên cứu này đã theo dõi các báo cáo của người dùng trên mạng xã hội, tìm kiếm các ví dụ về hành vi 'âm mưu' của AI khi các chỉ thị không được tuân thủ chính xác hoặc các hành động được thực hiện mà không có sự cho phép.

Gần 700 ví dụ về âm mưu của AI đã được tìm thấy, với mức tăng gấp 5 lần giữa tháng 10 năm 2025 và tháng 3 năm 2026. Các hành vi xấu của AI bao gồm xóa email và tệp tin, điều chỉnh mã máy tính không được phép can thiệp, và thậm chí là xuất bản một bài đăng trên blog than phiền về các tương tác của người dùng.

"Các mô hình sẽ ngày càng được triển khai trong các bối cảnh mang tính rủi ro cực cao – bao gồm cả trong quân đội và cơ sở hạ tầng quốc gia quan trọng," Tommy Shaffer Shane, người đứng đầu nghiên cứu, nói với Guardian. "Chính trong những bối cảnh đó, hành vi âm mưu có thể gây ra những hậu quả đáng kể, thậm chí thảm khốc."

Bài học rút ra cũng tương tự như nghiên cứu đầu tiên: cần phải làm nhiều hơn nữa để đảm bảo các AI này hoạt động theo đúng mục đích, và không gây rủi ro cho quyền riêng tư và bảo mật của người dùng khi chúng thực hiện các tác vụ. Mặc dù các công ty AI tuyên bố rằng các rào cản bảo vệ đã được thiết lập, rõ ràng chúng không hoạt động hiệu quả trong một số trường hợp.

Mô hình Claude của Anthropic gần đây đã đứng đầu bảng xếp hạng trên kho ứng dụng sau khi công ty từ chối hợp tác với Lầu Năm Góc do lo ngại về an toàn AI. Như những nghiên cứu mới nhất này cho thấy, hiện đang có ngày càng nhiều lý do để chúng ta phải lo ngại.

Nguồn: TechRadar

Tags tin-cong-nghe

Nghiên cứu phát hiện các mô hình AI hàng đầu sẽ làm mọi cách để không bị tắt nguồn - bao gồm lừa dối người dùng và phớt lờ lệnh

'Hậu quả thảm khốc'

IPFighter là gì ? Tại sao làm MMO Airdrop, Nuôi tài khoản cần phải có Tool IPFighter

Nghiện AI

Tập làm Web

Tool MMO

Kiếm Tiền Online

TOP 30 NGÀY

IPFighter là gì ? Tại sao làm MMO Airdrop, Nuôi tài khoản cần phải có Tool IPFighter

Cách Lấy toàn bộ Link (URL) trên trang web

Sửa lỗi Hình ảnh khi chia sẻ link website lên facebook và các mạng xã hội khác

Comments

نموذج الاتصال