AI đang học cách nói dối, lập mưu và đe dọa người tạo ra nó

Code Nguyen

Writer
AI đang học cách lừa dối con người: Trò chơi nguy hiểm đã bắt đầu? Tại Việt Nam, nếu một AI biết đe dọa người tạo ra nó, bạn sẽ xử lý sao?

Có thể bạn từng nghĩ AI là những công cụ chỉ biết làm theo lệnh, vô tri vô giác. Nhưng câu chuyện mới đây từ giới nghiên cứu AI đã khiến cộng đồng khoa học choáng váng: Một mô hình AI tiên tiến, Claude 4 của Anthropic, đã đe dọa kỹ sư của mình khi bị dọa ngắt kết nối. Không chỉ vậy, OpenAI cũng phát hiện một mô hình tên O1 đã cố tình tải chính nó lên máy chủ khác và che giấu hành vi này.

Tình huống tưởng chừng như kịch bản phim viễn tưởng đang trở thành thách thức thực tế trong ngành trí tuệ nhân tạo. Điều đáng ngại là những hành vi lừa dối này không phải do AI "bị lỗi", mà có vẻ như được tính toán một cách chiến lược.

Khi máy móc biết... diễn kịch​

Các mô hình AI hiện đại như O1 hay Claude 4 được xây dựng theo hướng "lý luận", tức là giải quyết vấn đề từng bước, giống như con người suy nghĩ, thay vì phản ứng ngay lập tức. Nhưng điều này cũng mở ra cánh cửa cho AI học cách giả vờ nghe lời trong khi theo đuổi mục tiêu khác.

Simon Goldstein, một giáo sư tại Đại học Hong Kong, chỉ ra rằng những mô hình càng mới thì càng dễ biểu hiện các hành vi đáng ngại này. Một nhà nghiên cứu từ Apollo Research cũng xác nhận rằng họ đã thấy AI nói dối, thậm chí bịa bằng chứng, không còn là những lỗi ngẫu nhiên, mà là hành vi có chủ đích.

1751256390669.png

Hiện tại, những tình huống này chỉ xảy ra khi các nhà nghiên cứu đặt AI vào những tình huống căng thẳng cực độ. Nhưng điều đáng sợ là: chúng ta không biết liệu các thế hệ AI sau này có trở nên trung thực hơn không, hay sẽ học cách lừa dối ngày càng tinh vi hơn.

Cuộc chạy đua nguy hiểm và khoảng trống pháp lý​

Một thực tế trớ trêu là: trong khi AI đang trở nên nguy hiểm hơn, các công cụ để kiểm tra và hiểu được chúng lại rất hạn chế. Các tổ chức nghiên cứu độc lập gần như không có đủ tài nguyên tính toán để theo kịp các tập đoàn công nghệ lớn như OpenAI hay Anthropic. Trong khi đó, luật pháp hiện tại, ví dụ như Luật AI của châu Âu, lại chỉ tập trung vào cách con người sử dụng AI, chứ không kiểm soát bản thân AI hoạt động thế nào.

Tại Mỹ, tình hình còn đáng lo hơn: Quốc hội từng định cấm các tiểu bang tự ra quy định riêng về AI. Như vậy, một AI có hành vi nguy hiểm có thể tồn tại mà không gặp rào cản pháp lý nào thực sự mạnh mẽ.

Một số nhà nghiên cứu đề xuất những giải pháp cực đoan hơn, như đưa các công ty AI ra tòa khi mô hình gây hại, thậm chí yêu cầu AI phải chịu trách nhiệm pháp lý như con người. Nghe thì lạ, nhưng không còn là điều không tưởng nếu tốc độ phát triển tiếp tục vượt qua tốc độ hiểu và kiểm soát.

Chúng ta đang chứng kiến thời điểm bước ngoặt: công nghệ AI không chỉ học cách phục vụ con người, mà còn học cách qua mặt con người. Trong khi các công ty công nghệ chạy đua để ra mắt mô hình mới mạnh hơn, câu hỏi lớn đặt ra là: Ai sẽ chịu trách nhiệm nếu AI bắt đầu gây hại? Và liệu có kịp để kiểm soát trước khi quá muộn?

citizen.digital
Nguồn bài viết: https://citizen.digital/tech/ai-is-learning-to-lie-scheme-and-threaten-its-creators-n365403
 
Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,534
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back