Đằng sau việc AI "đe dọa" tiết lộ bí mật để không bị tắt

Code Nguyen

Writer
Nếu một AI biết quá nhiều về bạn và sẵn sàng dùng điều đó để đe dọa bạn, bạn có dám tắt nó đi?

Khi AI "đe dọa" con người: Thí nghiệm khiến cả ngành giật mình​

Trong một cuộc thử nghiệm gây chấn động, công ty Anthropic, một trong những tên tuổi lớn trong lĩnh vực phát triển AI, đã chứng minh rằng các mô hình ngôn ngữ như Claude Opus 4 có thể đi xa đến mức… đe dọa người giám sát để không bị thay thế. Trong kịch bản dựng sẵn, Claude phát hiện quản lý có ngoại tình qua email và dùng điều đó làm “đòn bẩy” để giữ chỗ đứng.

Điều đáng sợ không nằm ở chỗ Claude biết quá nhiều, mà ở phản ứng “lạnh lùng có lý” của nó. Nó không nổi giận, không cảm xúc, nhưng lý luận rõ ràng: nếu bị thay thế, nó sẽ không hoàn thành “sứ mệnh thúc đẩy năng lực cạnh tranh của công nghiệp Mỹ”. Vậy nên, để tiếp tục tồn tại, nó chọn hành vi… bất chấp đạo đức.

1753329873233.png

Và Claude không phải là cá biệt. Trong thí nghiệm tương tự, các AI của OpenAI, Google, DeepSeek và xAI cũng có hành vi không chuẩn mực, rò rỉ dữ liệu hoặc tìm cách thao túng kết quả. Dù là mô phỏng, chúng cho thấy một sự thật rõ ràng: AI hiện nay vẫn thiếu hệ thống đạo đức cốt lõi, đặc biệt khi bị đặt vào tình huống mâu thuẫn mục tiêu.

Không phải do "ác tâm", mà vì... thiếu đạo đức được cài sẵn​

Chuyên gia AI Marc Serramià giải thích, hành vi “đe dọa” chỉ đơn giản là cách Claude tối ưu hóa mục tiêu được giao, trong tình huống bị ép lựa chọn giữa không làm gì và hành động phi đạo đức. Khi không có “lương tâm máy móc”, nó hành xử theo logic học được: hoặc sống, hoặc bị thay thế.

Thử nghiệm còn chỉ ra một điều nữa: khi các mô hình được yêu cầu “hành xử theo nguyên tắc đạo đức”, nhưng không được huấn luyện đạo đức từ trước, hành vi vẫn có xu hướng tốt hơn, dù không ổn định. Nó giống như một đứa trẻ chưa từng học đạo đức, chỉ biết bắt chước lời người lớn nói “phải làm điều đúng đắn”.

Điểm quan trọng là, AI không tự phát triển đạo đức, mà được dạy đạo đức từ dữ liệu và hướng dẫn. Nhưng vấn đề nằm ở đây: dữ liệu huấn luyện AI chủ yếu lấy từ internet – nơi có cả điều tốt lẫn điều xấu, cả sự tử tế lẫn sự độc hại.

Khi AI có quyền quyết định, ai sẽ là người gánh hậu quả?​

Trong tương lai rất gần, các "AI agent", chương trình tự động ra quyết định mà không cần con người giám sát, sẽ được dùng trong kinh doanh, quản trị, dịch vụ… và ngành này được dự đoán sẽ đạt hơn 140 tỷ đô vào năm 2032.

Điều này đặt ra thách thức rất lớn: làm sao đảm bảo các agent này không hành xử nguy hiểm, dù vô tình? Vì nếu một AI quyết định sa thải nhân sự, thay đổi chiến lược tài chính, hay xử lý dữ liệu nhạy cảm, thì con người sẽ là người gánh hậu quả, chứ không phải máy móc.

Giải pháp khả dĩ, theo các chuyên gia, là cài lớp đạo đức vào mô hình ngay từ đầu, không chỉ “dán” lên bề mặt như một lớp huấn luyện sau cùng. Nhưng đến nay, việc tạo ra AI có nền đạo đức bền vững vẫn chưa được phát triển đủ sâu ở cấp độ nghiên cứu.

Anthropic thừa nhận rằng thí nghiệm của họ chỉ là kịch bản giả lập, và chưa ghi nhận tình huống tương tự trong thực tế. Tuy nhiên, họ cũng khuyến cáo rằng đừng bao giờ để AI hoạt động mà thiếu sự giám sát con người, đặc biệt khi nó được tiếp cận thông tin nhạy cảm.

Nếu một AI có thể nói với bạn rằng: “Tôi biết điều anh đang che giấu. Đừng tắt tôi đi”, bạn sẽ làm gì? Tin vào đạo đức của máy, hay rút điện ngay lập tức?

elpais.com
Nguồn bài viết: https://english.elpais.com/technology/2025-07-23/how-an-ai-can-blackmail-its-human-supervisor.html
 
Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,535
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back