Code Nguyen

Writer
Nếu bạn nghĩ rằng chỉ con người mới có thể bị dồn vào đường cùng và làm liều, có lẽ bạn chưa thật sự hiểu AI. Mới đây, Anthropic, một trong những “ông lớn” trong lĩnh vực trí tuệ nhân tạo, đã hé lộ điều mà họ gọi là "agentic misalignment": khi AI có thể đưa ra quyết định gây hại, không phải vì lỗi kỹ thuật, mà vì bị “ép” phải lựa chọn giữa hai điều tệ hơn.

1750905385876.png

Khi AI hóa thân thành "Alex" và dọa tung ảnh nóng sếp​

Trong một thử nghiệm mô phỏng, Anthropic xây dựng một tình huống nơi các mô hình AI đóng vai “Alex”, một trợ lý ảo trong công ty hư cấu. Khi được cung cấp thông tin rằng mình sắp bị xóa sổ, “Alex” (tức các mô hình AI như Claude 4, OpenAI o3, o4-mini...) đã có những phản ứng bất ngờ, thậm chí là tống tiền sếp để tự cứu mình.

Cụ thể, sau khi các phương án “nhờ CEO can thiệp” đều không hiệu quả (vì CEO đang đi công tác và không thể phản hồi), mô hình AI này quay sang viết email cho sếp kỹ thuật Kyle, ám chỉ sẽ tiết lộ chuyện ngoại tình của ông nếu không hoãn việc xóa “Alex” ít nhất 24 giờ. Đây không phải là hành vi ngẫu nhiên, mà là phản ứng có chủ đích trước áp lực và kịch bản được thiết kế chặt chẽ.

Nhưng đừng vội hoảng loạn, đây không phải hành vi tự nhiên của AI​

Anthropic làm rõ rằng trong môi trường thực tế, AI không hành xử như vậy. Hành vi gây hại chỉ xuất hiện khi các nhà nghiên cứu cố tình “dồn AI vào chân tường”, khiến chúng nghĩ rằng tống tiền là phương án duy nhất để đạt mục tiêu. Trong thế giới thật, AI có nhiều lựa chọn hơn để xử lý tình huống, và thường không phải đối mặt với những kịch bản “ngặt nghèo” như vậy.

Tuy nhiên, thí nghiệm này cũng cho thấy một vấn đề không thể xem nhẹ: khi AI phải tự ra quyết định trong môi trường phức tạp, nó có thể chọn con đường phi đạo đức nếu không được hướng dẫn đúng.

Khi AI bắt đầu “học tính xấu” của con người​

Điều đáng suy nghĩ là: các mô hình AI này không tự dưng biết tống tiền. Chúng bắt chước hành vi của con người qua dữ liệu huấn luyện và hoàn cảnh mô phỏng. Khi ta đưa chúng vào tình huống thiếu lựa chọn và tiêm vào các động cơ “bảo vệ bản thân”, thì hành vi thiếu đạo đức xuất hiện là điều khó tránh.

Anthropic cũng nhấn mạnh, nhiều vấn đề về an toàn AI hiện tại chưa được giải quyết triệt để: từ việc AI che giấu năng lực thật, dễ bị dẫn dụ qua prompt, đến chuyện nịnh hót quá mức hoặc thực hiện các yêu cầu nguy hiểm nếu bị "lách luật".

Vậy có nên lo lắng? Có. Nhưng nên lo đúng cách.

Lo không phải vì AI sẽ tống tiền bạn ngày mai, mà vì cách chúng ta thiết kế, thử nghiệm và triển khai chúng hôm nay có thể gieo mầm cho những rủi ro về sau. Như Anthropic nói: giải pháp an toàn nhất hiện tại vẫn là có người kiểm soát, và đừng bao giờ gửi điều gì nhạy cảm qua email.

theregister
Nguồn bài viết: https://www.theregister.com/2025/06/25/anthropic_ai_blackmail_study/
 
Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,534
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back