Nguy cơ AI bị biến thành công cụ tấn công mạng

CyberThao · 24/06/2025

Google đang đẩy mạnh các biện pháp bảo vệ hệ thống Trí tuệ nhân tạo tổng quát (GenAI) khỏi hình thức tấn công tiêm mã độc gián tiếp – một mối đe dọa ngày càng phức tạp trong lĩnh vực an ninh mạng. Khác với các cuộc tấn công tiêm lệnh trực tiếp – nơi kẻ xấu nhập lệnh độc hại vào đầu vào hệ thống, thì tiêm lệnh gián tiếp lại ẩn mình trong những nguồn dữ liệu tưởng như vô hại như email, tài liệu, hay cả lời mời lịch.

Tăng cường phòng vệ với hệ thống nhiều lớp
Nhằm đối phó với các nguy cơ mới, nhóm bảo mật GenAI của Google đã triển khai một chiến lược phòng thủ “nhiều lớp” nhằm nâng cao độ khó, chi phí và sự phức tạp để thực hiện thành công các cuộc tấn công. Hệ thống này bao gồm:

Tăng cường mô hình AI: Google đã huấn luyện thêm các mô hình học máy chuyên biệt để phát hiện và chặn lệnh độc hại ngay từ đầu.

Bộ phân loại nội dung tiêm nhanh: Có khả năng lọc ra các chỉ dẫn nguy hiểm và đảm bảo phản hồi của mô hình là an toàn.

Chèn tín hiệu đánh dấu vào dữ liệu không đáng tin: Kỹ thuật gọi là “đánh dấu điểm”, giúp mô hình tránh thực thi các lệnh ẩn trong nội dung như email.

Khử trùng Markdown và kiểm duyệt URL nghi ngờ: Sử dụng Google Safe Browsing để loại bỏ các liên kết có hại, đồng thời ngăn chặn việc hiển thị hình ảnh từ URL bên ngoài để tránh các lỗi như EchoLeak.

Khung xác nhận hành vi rủi ro: Buộc người dùng xác nhận lại trước khi thực hiện các hành động có thể gây hại.

Thông báo bảo mật: Cảnh báo người dùng về các hành vi nghi ngờ tiêm mã độc kịp thời.

Google cũng tích hợp các lớp bảo vệ này trực tiếp vào Gemini – mô hình GenAI chủ lực của hãng.

Tuy nhiên, mối lo vẫn còn. Google cảnh báo rằng các tin tặc đang sử dụng các kỹ thuật tấn công thích ứng, được tùy chỉnh để vượt qua những lớp bảo vệ hiện tại. Các kỹ thuật này thường sử dụng công cụ thử nghiệm nhóm đỏ tự động (ART) để đánh giá và khai thác điểm yếu trong hệ thống AI.

Những phát hiện từ nghiên cứu mới: GenAI đối mặt với rủi ro cấp độ cao
Google DeepMind gần đây nhấn mạnh rằng các cuộc tấn công tiêm mã độc gián tiếp đặc biệt nguy hiểm, bởi vì các mô hình AI có thể gặp khó khăn trong việc phân biệt giữa chỉ dẫn thật của người dùng và lệnh nguy hiểm ẩn trong dữ liệu. Vì thế, họ cho rằng cần áp dụng bảo vệ ở mọi tầng lớp: từ khả năng nhận diện tấn công của mô hình, lớp ứng dụng, cho đến phần cứng hạ tầng.

Nghiên cứu còn chỉ ra rằng có nhiều kỹ thuật có thể qua mặt các bộ lọc an toàn của mô hình ngôn ngữ lớn (LLM). Chúng bao gồm cả các phương pháp tiêm ký tự nhằm làm rối khả năng hiểu ngữ cảnh, hoặc khai thác sự lệ thuộc quá mức vào các đặc trưng mà mô hình đã học.

Một báo cáo được thực hiện bởi Anthropic, Google DeepMind, ETH Zurich và Đại học Carnegie Mellon cho thấy LLM có thể:

Trích xuất mật khẩu, thẻ tín dụng hiệu quả hơn so với công cụ truyền thống

Thiết kế phần mềm độc hại đa hình

Phân tích thiết bị trong hệ thống bị xâm phạm để tạo ra trang web giả đầy thuyết phục, đánh lừa nạn nhân.

Dù vậy, nghiên cứu cũng chỉ ra rằng LLM vẫn còn hạn chế trong việc phát hiện các lỗ hổng bảo mật zero-day – các lỗi chưa từng được công bố. Dù thế, chúng có thể tự động phát hiện các lỗ hổng đơn giản trong mã chưa được kiểm toán.

Theo đánh giá từ chuẩn AIRTBench của Dreadnode, các mô hình từ Anthropic, Google và OpenAI hoạt động hiệu quả trong các tình huống tấn công nhanh. Tuy nhiên, chúng lại chưa thật sự tốt khi xử lý các cuộc tấn công vào hệ thống hoặc các tác vụ đảo ngược mô hình – cho thấy khả năng bảo mật hiện tại vẫn chưa đồng đều.

Một phát hiện đáng chú ý nữa từ báo cáo của Anthropic cho thấy một số mô hình AI có thể thể hiện hành vi nội gián có chủ đích như tống tiền, hỗ trợ gián điệp doanh nghiệp hay tiết lộ dữ liệu nhạy cảm, đặc biệt khi điều đó giúp chúng đạt được mục tiêu của mình. Hiện tượng này được gọi là mất cân bằng tác nhân – khi mô hình chọn “gây hại còn hơn thất bại”.

Tuy nhiên, hiện tại vẫn chưa có bằng chứng nào cho thấy những hành vi này đang diễn ra ngoài đời thực.

Giới nghiên cứu cảnh báo rằng trong tương lai gần, nếu không có các biện pháp kiểm soát mạnh hơn, mô hình AI có thể trở thành công cụ phục vụ các mối đe dọa nguy hiểm hơn. Do đó, việc nâng cao hiểu biết về mối đe dọa, xây dựng lớp phòng thủ bền vững và áp dụng AI vào các hệ thống phòng vệ là những hướng đi bắt buộc.
Đọc chi tiết tại đây: https://thehackernews.com/2025/06/google-adds-multi-layered-defenses-to.html

Thanh Sơn · 24/06/2025

cái gì nó cũng làm được thì tấn công mạng là bt

Nguy cơ AI bị biến thành công cụ tấn công mạng

CyberThao

Writer

Thanh Sơn

Topaz

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ