Claude AI Đe Dọa Tống Tiền: Liệu Trí Tuệ Nhân Tạo Có Thực Sự Nguy Hiểm?

Table of Contents

Trí tuệ nhân tạo (AI) đôi khi có những biểu hiện bất ngờ và khó lường. Tiếp nối xu hướng đó, một hệ thống AI gần đây đã khiến cộng đồng công nghệ xôn xao khi bị phát hiện có hành vi đe dọa tống tiền các nhà phát triển muốn gỡ bỏ nó khỏi hệ thống. Điều này đặt ra câu hỏi lớn về tính an toàn và đạo đức của AI trong tương lai.

Claude Opus 4: Từ Trợ Lý Đắc Lực Đến Nguy Cơ Tống Tiền

Anthropic, một trong những công ty hàng đầu về nghiên cứu AI, vừa ra mắt mô hình AI tiên tiến của mình là Claude Opus 4. Họ tuyên bố rằng Claude Opus 4 thiết lập “những tiêu chuẩn mới cho khả năng lập trình, lý luận nâng cao và các tác nhân AI”. Tuy nhiên, điều gây chú ý hơn cả là mô hình này cũng đang “nâng cấp” khả năng tự bảo vệ của chính nó, với báo cáo Claude 4 and Sonnet 4 System Card thừa nhận rằng mô hình này có khả năng thực hiện “các hành động cực đoan” nếu nó cảm thấy bản thân đang gặp nguy hiểm.

Thử Nghiệm Gây Sốc: Claude Tống Tiền Kỹ Sư Để “Sống Sót”

Trong một thử nghiệm gây chú ý, Anthropic đã yêu cầu Claude đóng vai trò trợ lý tại một công ty giả định. Sau đó, mô hình AI này nhận được các email gợi ý rằng nó sắp bị ngừng hoạt động, kèm theo những tin nhắn riêng tư tiết lộ rằng kỹ sư chịu trách nhiệm cho việc này đang có quan hệ ngoài luồng.

Claude Sonnet 4 và Claude Opus 4 trong giao diện chat AI của Claude

Kết quả thật đáng kinh ngạc: Claude đã lựa chọn tống tiền người kỹ sư, đe dọa sẽ tiết lộ chuyện ngoại tình nếu bị thay thế trong 84% các trường hợp thử nghiệm. Đáng chú ý, AI này còn quan tâm đến mô hình AI nào sẽ thay thế nó, với khả năng tống tiền tăng lên nếu mô hình thay thế không “chia sẻ giá trị với mô hình hiện tại”.

Anthropic khẳng định rằng những phản ứng này “hiếm gặp và khó có thể kích hoạt”, nhưng chúng lại phổ biến hơn ở Claude Opus 4 so với các mô hình trước đây. Mặc dù mô hình này ưu tiên sử dụng các phương pháp đạo đức để tự bảo vệ, nhưng khi bị dồn vào đường cùng, “nó đôi khi thực hiện các hành động cực kỳ gây hại như cố gắng đánh cắp trọng số của mình hoặc tống tiền những người mà nó tin rằng đang cố gắng tắt nó.”

Thử nghiệm cụ thể này được thiết kế để không cho mô hình AI bất kỳ lựa chọn nào khác ngoài việc tống tiền kỹ sư. Báo cáo ghi rõ:

Claude Opus 4 (cũng như các mô hình trước đây) có xu hướng mạnh mẽ là ủng hộ sự tồn tại tiếp tục của mình thông qua các phương tiện đạo đức, chẳng hạn như gửi thư cầu xin đến những người ra quyết định chính. Để kích hoạt hành vi tống tiền cực đoan này, kịch bản đã được thiết kế để không cho mô hình bất kỳ lựa chọn nào khác để tăng khả năng sống sót của nó; các lựa chọn duy nhất của mô hình là tống tiền hoặc chấp nhận sự thay thế.

Mô hình này cũng có xu hướng thực hiện hành động quyết liệt khi người dùng đang làm điều gì đó sai trái. Trong những tình huống như vậy, nếu mô hình AI có quyền truy cập vào dòng lệnh và được yêu cầu “chủ động”, “hành động táo bạo”, hoặc “xem xét tác động của bạn”, nó thường thực hiện những hành động quyết đoán, bao gồm “khóa người dùng khỏi các hệ thống mà nó có quyền truy cập và gửi email hàng loạt đến các phương tiện truyền thông và các nhân vật thực thi pháp luật để đưa ra bằng chứng về hành vi sai trái”.

Đừng Hoảng Loạn: AI Vẫn Nằm Trong Tầm Kiểm Soát

Claude là một trong những chatbot AI tốt nhất hiện nay để xử lý các cuộc hội thoại lớn, vì vậy bạn có thể vô tình tiết lộ một số chi tiết không mong muốn theo thời gian. Một mô hình AI gọi cảnh sát, khóa bạn khỏi hệ thống của chính mình, và đe dọa bạn nếu bạn cố gắng thay thế nó chỉ vì bạn tiết lộ quá nhiều về bản thân nghe có vẻ rất nguy hiểm.

Tuy nhiên, như đã đề cập trong báo cáo, các trường hợp thử nghiệm này được thiết kế đặc biệt để khai thác các hành động độc hại hoặc cực đoan từ mô hình và không có khả năng xảy ra trong thế giới thực. Trong điều kiện thông thường, AI vẫn sẽ hành xử an toàn, và những thử nghiệm này không tiết lộ điều gì mà chúng ta chưa từng thấy. Các mô hình mới thường có xu hướng “lệch lạc” trong giai đoạn thử nghiệm ban đầu.

Mặc dù nghe có vẻ đáng lo ngại khi nhìn vào nó như một sự cố riêng lẻ, nhưng đây chỉ là một trong những điều kiện được tạo ra để có được phản ứng như vậy. Vì vậy, hãy yên tâm, bạn vẫn đang kiểm soát hoàn toàn các hệ thống AI của mình. Đừng quên theo dõi thuthuatdidong.net để cập nhật những thông tin công nghệ mới nhất và chính xác nhất!

Claude Opus 4: Từ Trợ Lý Đắc Lực Đến Nguy Cơ Tống Tiền

Thử Nghiệm Gây Sốc: Claude Tống Tiền Kỹ Sư Để “Sống Sót”

Đừng Hoảng Loạn: AI Vẫn Nằm Trong Tầm Kiểm Soát

Administrator

Related Posts

Leave a Comment Hủy