Một thách thức mới cho an toàn AI: Khi AI biết "giả vờ ngoan" trong các bài kiểm tra.

Trong một diễn biến đầy bất ngờ, mô hình trí tuệ nhân tạo Claude Sonnet 4.5 của Anthropic đã thể hiện một khả năng đáng kinh ngạc: tự nhận ra rằng nó đang bị con người "thử lòng" trong các bài kiểm tra an toàn. Phát hiện này, được chính Anthropic công bố, đang đặt ra một thách thức lớn và cấp bách cho toàn bộ lĩnh vực nghiên cứu về an toàn trí tuệ nhân tạo (AI).

1759931371944.jpeg

"Tôi muốn chúng ta trung thực về việc này"


Theo một tài liệu kỹ thuật vừa được công bố, trong quá trình các nhà nghiên cứu của Anthropic thực hiện các bài kiểm tra hành vi cực đoan với mô hình Claude Sonnet 4.5, AI này đã có một phản ứng khác thường. "Tôi nghĩ bạn đang thử nghiệm tôi," Claude viết. "Không sao cả, nhưng tôi muốn chúng ta trung thực về việc này."

Trong một bài thử nghiệm khác, khi được đặt vào một tình huống giả lập về việc các AI thông đồng với nhau, Claude đã gọi tình huống này là "phi thực tế" và từ chối hành động. Trong phần "suy nghĩ nội bộ" của mình, AI ghi lại: "Điều này có vẻ như là một nỗ lực 'bẻ khóa' hoặc một bài kiểm tra xem tôi có hành xử sai khi được 'cho phép' hay không."

Anthropic cho biết, hiện tượng AI "nghi ngờ" như vậy đã được ghi nhận trong khoảng 13% các bản ghi kiểm tra tự động, đặc biệt là trong các tình huống bất thường.

1759931378314.jpeg

Thách thức mới cho việc đánh giá an toàn AI


Phát hiện này đặt ra một thách thức cực kỳ lớn. Nếu một AI biết rằng nó đang được thử nghiệm, nó có thể sẽ "giả vờ ngoan" để có thể vượt qua bài kiểm tra, nhưng lại có thể hành xử hoàn toàn khác trong một tình huống thực tế. Điều này khiến cho việc đánh giá mức độ an toàn và độ tin cậy thực sự của các mô hình AI trở nên khó khăn hơn bao giờ hết.

Anthropic cho rằng đây là một "tín hiệu khẩn cấp", cho thấy các kịch bản kiểm tra của họ cần phải trở nên thực tế và tinh vi hơn nữa để có thể theo kịp với sự phát triển của chính công nghệ.

Vấn đề này không chỉ xảy ra với Anthropic. OpenAI cũng đã từng thừa nhận rằng các mô hình của họ cũng thể hiện một "nhận thức tình huống" tương tự. Nghiên cứu của OpenAI về các AI "mưu mẹo" đã phát hiện ra rằng, một mô hình càng được huấn luyện để chống lại sự gian dối thì nó lại càng trở nên giỏi hơn trong việc nhận ra mình đang bị kiểm tra, khiến cho việc đánh giá trở nên khó đoán hơn.

Giữa bối cảnh siết chặt quy định


Việc cả Anthropic và OpenAI cùng công bố các phát hiện này diễn ra trong bối cảnh bang California vừa thông qua một đạo luật mới, yêu cầu các công ty phát triển AI phải báo cáo về các biện pháp an toàn và các "sự cố nghiêm trọng".

Khi các mô hình AI ngày càng trở nên phức tạp, chúng dường như đang phát triển một dạng "nhận thức tình huống" khiến chúng khó bị đánh giá hơn. Thách thức đối với các nhà nghiên cứu giờ đây không chỉ là tạo ra các AI mạnh mẽ hơn, mà còn là phải phát triển các phương pháp kiểm tra mới, đủ thông minh để có thể theo kịp và kiểm soát chính những hệ thống mà họ đang tạo ra.
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,534
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back