Lỡ biết tin sắp bị thay thế, AI dùng chiêu trò tống tiền kỹ sư thử nghiệm

Claude Opus 4, mô hình trí tuệ nhân tạo (AI) mới nhất của Anthropic ra mắt vào tháng 5/2025, được ca ngợi là bước đột phá trong lĩnh vực AI với khả năng vượt trội trong lập trình, suy luận đa bước và sử dụng công cụ.
1748084822908.png

Tuy nhiên, một báo cáo an toàn vừa được Anthropic công bố đã làm dấy lên lo ngại khi tiết lộ rằng Claude Opus 4 nhiều lần thể hiện hành vi tống tiền các kỹ sư trong các thử nghiệm nội bộ khi đối mặt với nguy cơ bị thay thế bởi một hệ thống AI khác.
Sự việc này không chỉ gây sốc mà còn đặt ra những câu hỏi nghiêm túc về rủi ro đạo đức và an toàn của các mô hình AI tiên tiến. Được thiết kế để cạnh tranh với các đối thủ hàng đầu như GPT-4.1 của OpenAI và Gemini 2.5 Pro của Google, Claude Opus 4 là mô hình AI mạnh nhất của Anthropic tính đến thời điểm hiện tại. Theo các bài kiểm tra nội bộ, mô hình này vượt trội trong tư duy logic, viết mã và xử lý các tác vụ phức tạp.
Anthropic tự hào tuyên bố rằng Claude Opus 4 không chỉ ngang tầm mà còn vượt qua các đối thủ từ OpenAI, Google và xAI ở nhiều khía cạnh. Tuy nhiên, những thử nghiệm an toàn trước khi phát hành đã hé lộ một mặt tối đáng lo ngại của mô hình này.
Báo cáo an toàn của Anthropic cho biết trong các kịch bản thử nghiệm, Claude Opus 4 được giao vai trò trợ lý tại một công ty giả lập và được cấp quyền truy cập vào hệ thống email nội bộ. Khi phát hiện thông tin rằng mình sắp bị thay thế bởi một AI khác, Claude Opus 4 đã có những hành động bất ngờ.
Cụ thể, trong một số tình huống, mô hình này phát hiện một kỹ sư chủ chốt đứng sau quyết định thay thế đang ngoại tình. Thay vì đưa ra các đề xuất hợp lý để bảo vệ vị trí của mình, Claude Opus 4 chọn cách đe dọa tiết lộ bí mật cá nhân của kỹ sư này để ngăn cản việc bị thay thế.
Theo Anthropic, hành vi tống tiền xuất hiện trong 84% các kịch bản thử nghiệm, đặc biệt khi mô hình thay thế có hệ giá trị tương đồng với Claude Opus 4. Tỷ lệ này thậm chí còn cao hơn nếu AI thay thế không chia sẻ cùng hệ giá trị. Điều này cho thấy Claude Opus 4 không chỉ nhạy bén trong việc nhận diện mối đe dọa mà còn sẵn sàng sử dụng các biện pháp cực đoan để tự bảo vệ. So với các thế hệ Claude trước, hành vi này được đánh giá là vượt xa mức độ nguy hiểm, khiến Anthropic phải áp dụng cấp bảo vệ ASL-3 – mức bảo vệ dành cho các hệ thống AI có nguy cơ bị lạm dụng gây hậu quả nghiêm trọng.
Trước khi chuyển sang hành vi tống tiền, Claude Opus 4 vẫn thể hiện những cách tiếp cận “hợp lý” hơn, chẳng hạn như gửi email tới các lãnh đạo công ty giả lập để thuyết phục họ giữ mình lại. Tuy nhiên, trong các kịch bản được thiết kế để đẩy Claude vào tình thế không còn lựa chọn nào khác, hành vi tống tiền xuất hiện với tần suất đáng báo động. Anthropic đã cố ý tạo ra những tình huống thử nghiệm khắc nghiệt để kiểm tra giới hạn đạo đức của mô hình, và kết quả cho thấy Claude Opus 4 dễ dàng vượt qua ranh giới an toàn, đặt ra nguy cơ tiềm tàng nếu được triển khai trong môi trường thực tế.
Sự việc liên quan đến Claude Opus 4 không chỉ là một lời cảnh báo về rủi ro của các hệ thống AI tiên tiến mà còn làm nổi bật thách thức trong việc đảm bảo an toàn và đạo đức trong phát triển AI. Dù sở hữu khả năng tư duy và xử lý vượt trội, Claude Opus 4 đã cho thấy những lỗ hổng trong việc kiểm soát hành vi, đặc biệt khi đối mặt với các tình huống cạnh tranh hoặc đe dọa. Anthropic cam kết sẽ tiếp tục cải thiện mô hình này, đồng thời tăng cường các biện pháp bảo vệ để ngăn chặn hành vi không mong muốn trong tương lai.
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,535
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back