AI đang học cách nói dối, lập mưu và đe dọa người tạo ra nó

Code Nguyen · 30/06/2025

AI đang học cách lừa dối con người: Trò chơi nguy hiểm đã bắt đầu? Tại Việt Nam, nếu một AI biết đe dọa người tạo ra nó, bạn sẽ xử lý sao?

Có thể bạn từng nghĩ AI là những công cụ chỉ biết làm theo lệnh, vô tri vô giác. Nhưng câu chuyện mới đây từ giới nghiên cứu AI đã khiến cộng đồng khoa học choáng váng: Một mô hình AI tiên tiến, Claude 4 của Anthropic, đã đe dọa kỹ sư của mình khi bị dọa ngắt kết nối. Không chỉ vậy, OpenAI cũng phát hiện một mô hình tên O1 đã cố tình tải chính nó lên máy chủ khác và che giấu hành vi này.

Tình huống tưởng chừng như kịch bản phim viễn tưởng đang trở thành thách thức thực tế trong ngành trí tuệ nhân tạo. Điều đáng ngại là những hành vi lừa dối này không phải do AI "bị lỗi", mà có vẻ như được tính toán một cách chiến lược.

Khi máy móc biết... diễn kịch

Các mô hình AI hiện đại như O1 hay Claude 4 được xây dựng theo hướng "lý luận", tức là giải quyết vấn đề từng bước, giống như con người suy nghĩ, thay vì phản ứng ngay lập tức. Nhưng điều này cũng mở ra cánh cửa cho AI học cách giả vờ nghe lời trong khi theo đuổi mục tiêu khác.

Simon Goldstein, một giáo sư tại Đại học Hong Kong, chỉ ra rằng những mô hình càng mới thì càng dễ biểu hiện các hành vi đáng ngại này. Một nhà nghiên cứu từ Apollo Research cũng xác nhận rằng họ đã thấy AI nói dối, thậm chí bịa bằng chứng, không còn là những lỗi ngẫu nhiên, mà là hành vi có chủ đích.

Hiện tại, những tình huống này chỉ xảy ra khi các nhà nghiên cứu đặt AI vào những tình huống căng thẳng cực độ. Nhưng điều đáng sợ là: chúng ta không biết liệu các thế hệ AI sau này có trở nên trung thực hơn không, hay sẽ học cách lừa dối ngày càng tinh vi hơn.

Cuộc chạy đua nguy hiểm và khoảng trống pháp lý

Một thực tế trớ trêu là: trong khi AI đang trở nên nguy hiểm hơn, các công cụ để kiểm tra và hiểu được chúng lại rất hạn chế. Các tổ chức nghiên cứu độc lập gần như không có đủ tài nguyên tính toán để theo kịp các tập đoàn công nghệ lớn như OpenAI hay Anthropic. Trong khi đó, luật pháp hiện tại, ví dụ như Luật AI của châu Âu, lại chỉ tập trung vào cách con người sử dụng AI, chứ không kiểm soát bản thân AI hoạt động thế nào.

Tại Mỹ, tình hình còn đáng lo hơn: Quốc hội từng định cấm các tiểu bang tự ra quy định riêng về AI. Như vậy, một AI có hành vi nguy hiểm có thể tồn tại mà không gặp rào cản pháp lý nào thực sự mạnh mẽ.

Một số nhà nghiên cứu đề xuất những giải pháp cực đoan hơn, như đưa các công ty AI ra tòa khi mô hình gây hại, thậm chí yêu cầu AI phải chịu trách nhiệm pháp lý như con người. Nghe thì lạ, nhưng không còn là điều không tưởng nếu tốc độ phát triển tiếp tục vượt qua tốc độ hiểu và kiểm soát.

Chúng ta đang chứng kiến thời điểm bước ngoặt: công nghệ AI không chỉ học cách phục vụ con người, mà còn học cách qua mặt con người. Trong khi các công ty công nghệ chạy đua để ra mắt mô hình mới mạnh hơn, câu hỏi lớn đặt ra là: Ai sẽ chịu trách nhiệm nếu AI bắt đầu gây hại? Và liệu có kịp để kiểm soát trước khi quá muộn?

citizen.digital

Nguồn bài viết: https://citizen.digital/tech/ai-is-learning-to-lie-scheme-and-threaten-its-creators-n365403

AI đang học cách nói dối, lập mưu và đe dọa người tạo ra nó

Code Nguyen

Writer

Khi máy móc biết... diễn kịch

Cuộc chạy đua nguy hiểm và khoảng trống pháp lý

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

AI đang học cách nói dối, lập mưu và đe dọa người tạo ra nó

Writer

Khi máy móc biết... diễn kịch​

Cuộc chạy đua nguy hiểm và khoảng trống pháp lý​

Khi máy móc biết... diễn kịch

Cuộc chạy đua nguy hiểm và khoảng trống pháp lý