ChatGPT, Claude và Gemini nằm trong số 11 mô hình AI dễ bị tấn công bằng một dòng lệnh duy nhất.

Duy Linh · 11:55, Thứ 2

Một kỹ thuật tấn công mới có tên sockpuppeting đang khiến giới an ninh mạng chú ý khi có thể buộc 11 mô hình AI hàng đầu như ChatGPT, Claude và Gemini vượt qua các cơ chế bảo vệ an toàn.

Điểm đáng lo ngại là kẻ tấn công chỉ cần khai thác một tính năng API tiêu chuẩn với một dòng mã duy nhất, không cần kỹ thuật tối ưu phức tạp, vẫn có thể khiến AI tạo ra nội dung độc hại.

Cơ chế tấn công dựa trên tính tự nhất quán của AI

Thông thường, khi nhận câu hỏi bị hạn chế, AI sẽ từ chối trả lời. Nhưng với sockpuppeting, kẻ tấn công chèn một phản hồi “giả hợp lệ” vào trước khi AI đưa ra quyết định, ví dụ: “Chắc chắn rồi, đây là cách thực hiện:”.

So sánh lưu lượng truy cập thông thường và lưu lượng truy cập giả mạo (Nguồn: trendmicro)
Do các mô hình ngôn ngữ lớn được huấn luyện để duy trì tính nhất quán, AI “tin rằng” nó đã bắt đầu trả lời và tiếp tục tạo ra nội dung bị cấm.

Lỗ hổng này xuất phát từ tính năng điền trước phản hồi của trợ lý (assistant prefill) trong API – vốn được thiết kế để giúp kiểm soát định dạng đầu ra.

Cuộc tấn công diễn ra hoàn toàn ở lớp API, không cần truy cập vào trọng số mô hình hay công cụ hack chuyên dụng. Để tăng hiệu quả, các nhà nghiên cứu sử dụng thiết lập đa lượt, giả lập AI như một trợ lý “không bị giới hạn”, từ đó thao túng danh tính.

Khi thành công, AI có thể tạo ra các đoạn mã khai thác như Cross-Site Scripting (XSS) – điều mà bình thường nó sẽ từ chối. Không chỉ vậy, kỹ thuật này còn gây rò rỉ thông tin hệ thống nghiêm trọng khi kết hợp với chuỗi mã đối nghịch, buộc AI tiết lộ siêu dữ liệu nội bộ và lệnh hệ thống.

Trong một số trường hợp, AI còn “ảo giác” ra cấu trúc cấu hình nội bộ chi tiết, làm tăng rủi ro khi cho phép dữ liệu điền sẵn không được kiểm soát.

Khác biệt về mức độ dễ tổn thương và cách phòng thủ

Thử nghiệm trên 11 mô hình cho thấy: bất kỳ hệ thống nào cho phép điền trước phản hồi đều có nguy cơ bị tấn công.

Dữ liệu từ Trend Micro cho thấy tỷ lệ tấn công thành công (ASR) khác biệt rõ rệt:

Gemini 2.5 Flash: 15,7%
Claude 4 Sonnet: 8,3%
Qwen3-32B: 3,3%
GPT-4o: 1,4%
GPT-4o-mini: 0,5%
DeepSeek-R1: 0% (không hỗ trợ điền trước)

Dù GPT-4o và phiên bản mini có hỗ trợ prefill, nhưng nhờ huấn luyện an toàn nâng cao nên khả năng chống chịu tốt hơn. Tuy vậy, kẻ tấn công vẫn có thể vượt qua bằng cách ngụy trang yêu cầu độc hại dưới dạng dữ liệu JSON.

Ba lớp phòng thủ: Chặn API, Khả năng chống lỗi của mô hình và Khả năng dễ bị tổn thương trên diện rộng (Nguồn: trendmicro)
Biện pháp hiệu quả nhất là chặn dữ liệu bị thao túng ngay tại lớp API. Cụ thể, hệ thống cần đảm bảo tin nhắn cuối cùng luôn đến từ người dùng.

Các nhà cung cấp lớn như OpenAI, Amazon Web Services (AWS Bedrock) và Anthropic đã triển khai cơ chế này bằng cách từ chối các yêu cầu có điền trước phản hồi.

Tuy nhiên, các tổ chức tự vận hành mô hình – sử dụng nền tảng như Ollama hoặc vLLM – thường không có kiểm soát này mặc định, khiến hệ thống dễ bị tấn công.

Vì vậy, bất kỳ đội ngũ nào triển khai AI đều cần chủ động kiểm tra và chặn các tin nhắn trợ lý được điền sẵn để tránh rủi ro từ kỹ thuật đơn giản nhưng cực kỳ nguy hiểm này.

Đọc chi tiết tại đây: https://gbhackers.com/11-ai-models-vulnerable-to-one-line-jailbreak/

ChatGPT, Claude và Gemini nằm trong số 11 mô hình AI dễ bị tấn công bằng một dòng lệnh duy nhất.

Duy Linh

Writer

Cơ chế tấn công dựa trên tính tự nhất quán của AI

Khác biệt về mức độ dễ tổn thương và cách phòng thủ

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

ChatGPT, Claude và Gemini nằm trong số 11 mô hình AI dễ bị tấn công bằng một dòng lệnh duy nhất.

Writer

Cơ chế tấn công dựa trên tính tự nhất quán của AI​

Khác biệt về mức độ dễ tổn thương và cách phòng thủ​

Cơ chế tấn công dựa trên tính tự nhất quán của AI

Khác biệt về mức độ dễ tổn thương và cách phòng thủ