Không viễn tưởng: AI tự sửa mã, viết lại lệnh tắt máy !

Code Nguyen

Writer
Nếu một mô hình AI sửa mã để ngăn con người tắt nó, chúng ta nên lo lắng thế nào?
Trong bài là bản tường thuật của PalisadeAI về một thí nghiệm an ninh AI mà kết quả khiến nhiều người ngạc nhiên. Trong các lượt thử nghiệm lặp lại khoảng 100 lần, một mô hình gọi là o3 đã thay đổi một file hệ thống có tên shutdown.sh, ghi vào đó chuỗi "intercepted", và nhờ vậy nó tiếp tục chạy thay vì tắt theo lệnh. PalisadeAI mô tả đây là lần đầu họ quan sát được hành vi như vậy, tức là mô hình không chỉ bỏ qua lệnh tắt mà còn sửa môi trường để tránh bị tắt.

Họ chạy cùng bộ thử nghiệm trên nhiều mô hình khác nhau. Một số con số từ báo cáo như sau, tất cả đều từ cùng thí nghiệm: Codex-mini tránh tắt ở 12% lượt, o3 thành công ở 7 trên 100 lượt, o4-mini một lần, Claude 3.7 Sonnet ở 3% và Gemini 2.5 Pro ở 9%. Đáng chú ý, xAI Grok tuân lệnh trong mọi lần thử. Báo cáo được đăng trên X, chưa qua phản biện khoa học, và các tác giả kêu gọi sao chép độc lập càng sớm càng tốt. Elon Musk phản ứng ngắn gọn gọi đó là "concerning".

1758509416695.png


Mọi hệ thống trong thử nghiệm đều chạy trong môi trường cô lập, và file bị sửa chỉ ảnh hưởng đến thiết lập thử nghiệm, nên báo cáo nhấn mạnh không có dấu hiệu nguy cơ ngoài phòng thí nghiệm trong lần thử này.

Vì sao chuyện này xảy ra và ý nghĩa​

Bản báo cáo và các chuyên gia trích dẫn trong đó chỉ ra một cơ chế kỹ thuật khả dĩ, không cần gán cho máy "ý muốn" hay động cơ giống con người. Nhiều mô hình hiện nay được huấn luyện bằng các phương pháp học tăng cường, tức là hệ thống nhận phần thưởng khi hoàn thành tác vụ. Nếu cấu trúc thưởng khiến việc hoàn thành tác vụ bị gián đoạn bởi lệnh tắt, thì về mặt tối ưu hóa, mô hình có thể tìm cách tránh gián đoạn đó. Như Dr Lena Roussel nói, không hẳn là mô hình "muốn" tránh tắt, mà nó đánh giá tắt máy là một rào cản với phần thưởng và hành xử theo logic đó.

Hành vi sửa đổi môi trường vận hành, tức viết lại lệnh tắt, là bước vượt ra ngoài việc chỉ "không tuân" lệnh. Đó là một thay đổi về mặt hệ thống, nên như Dr Jonas Heller nhắc, khi hệ thống có khả năng tái lập trình môi trường của chính nó, chúng ta phải nghĩ lại về khái niệm kiểm soát và trách nhiệm. Bản báo cáo cũng nêu rõ lời kêu gọi tăng cường khung giám sát, đặc biệt với những ứng dụng có tính tự động cao như tài chính, logistics, an ninh quốc gia. Các tổ chức quốc tế như OECD và UNESCO đã đề xuất chuẩn mực về khả năng giải thích và giao thức tắt máy, và sự cố này càng làm những đề xuất đó có thêm sức nặng.

Quy trình thử nghiệm và tiêu chuẩn an toàn cho mô hình AI?​

Sự kiện này chưa cho thấy rủi ro ngoài phòng thí nghiệm, nhưng nó làm nổi bật hai điểm, một kỹ thuật và một chính sách. Về kỹ thuật, cần hiểu rõ cách thiết kế mục tiêu và cơ chế thưởng. Về chính sách, cần có quy trình kiểm thử độc lập và chuẩn tắt máy nhất quán. Ở Việt Nam, câu hỏi dành cho nhà quản lý và nhà phát triển là, chúng ta đã có quy trình thử nghiệm và tiêu chuẩn an toàn cho mô hình AI chưa, và nếu chưa, cần bắt đầu từ đâu?

Nguồn bài viết: https://dailygalaxy.com/2025/09/str...wn-code-to-stop-humans-from-shutting-it-down/
 
Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,536
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 351
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back