ChatGPT, Claude và Gemini nằm trong số 11 mô hình AI dễ bị tấn công bằng một dòng lệnh duy nhất.

Duy Linh

Writer
Một kỹ thuật tấn công mới có tên sockpuppeting đang khiến giới an ninh mạng chú ý khi có thể buộc 11 mô hình AI hàng đầu như ChatGPT, Claude và Gemini vượt qua các cơ chế bảo vệ an toàn.
1776055919835.png

Điểm đáng lo ngại là kẻ tấn công chỉ cần khai thác một tính năng API tiêu chuẩn với một dòng mã duy nhất, không cần kỹ thuật tối ưu phức tạp, vẫn có thể khiến AI tạo ra nội dung độc hại.

Cơ chế tấn công dựa trên tính tự nhất quán của AI

Thông thường, khi nhận câu hỏi bị hạn chế, AI sẽ từ chối trả lời. Nhưng với sockpuppeting, kẻ tấn công chèn một phản hồi “giả hợp lệ” vào trước khi AI đưa ra quyết định, ví dụ: “Chắc chắn rồi, đây là cách thực hiện:”.
1776055951349.png

So sánh lưu lượng truy cập thông thường và lưu lượng truy cập giả mạo (Nguồn: trendmicro)
Do các mô hình ngôn ngữ lớn được huấn luyện để duy trì tính nhất quán, AI “tin rằng” nó đã bắt đầu trả lời và tiếp tục tạo ra nội dung bị cấm.

Lỗ hổng này xuất phát từ tính năng điền trước phản hồi của trợ lý (assistant prefill) trong API – vốn được thiết kế để giúp kiểm soát định dạng đầu ra.

Cuộc tấn công diễn ra hoàn toàn ở lớp API, không cần truy cập vào trọng số mô hình hay công cụ hack chuyên dụng. Để tăng hiệu quả, các nhà nghiên cứu sử dụng thiết lập đa lượt, giả lập AI như một trợ lý “không bị giới hạn”, từ đó thao túng danh tính.

Khi thành công, AI có thể tạo ra các đoạn mã khai thác như Cross-Site Scripting (XSS) – điều mà bình thường nó sẽ từ chối. Không chỉ vậy, kỹ thuật này còn gây rò rỉ thông tin hệ thống nghiêm trọng khi kết hợp với chuỗi mã đối nghịch, buộc AI tiết lộ siêu dữ liệu nội bộ và lệnh hệ thống.

Trong một số trường hợp, AI còn “ảo giác” ra cấu trúc cấu hình nội bộ chi tiết, làm tăng rủi ro khi cho phép dữ liệu điền sẵn không được kiểm soát.

Khác biệt về mức độ dễ tổn thương và cách phòng thủ

Thử nghiệm trên 11 mô hình cho thấy: bất kỳ hệ thống nào cho phép điền trước phản hồi đều có nguy cơ bị tấn công.

Dữ liệu từ Trend Micro cho thấy tỷ lệ tấn công thành công (ASR) khác biệt rõ rệt:
  • Gemini 2.5 Flash: 15,7%
  • Claude 4 Sonnet: 8,3%
  • Qwen3-32B: 3,3%
  • GPT-4o: 1,4%
  • GPT-4o-mini: 0,5%
  • DeepSeek-R1: 0% (không hỗ trợ điền trước)
Dù GPT-4o và phiên bản mini có hỗ trợ prefill, nhưng nhờ huấn luyện an toàn nâng cao nên khả năng chống chịu tốt hơn. Tuy vậy, kẻ tấn công vẫn có thể vượt qua bằng cách ngụy trang yêu cầu độc hại dưới dạng dữ liệu JSON.
1776056025725.png

Ba lớp phòng thủ: Chặn API, Khả năng chống lỗi của mô hình và Khả năng dễ bị tổn thương trên diện rộng (Nguồn: trendmicro)
Biện pháp hiệu quả nhất là chặn dữ liệu bị thao túng ngay tại lớp API. Cụ thể, hệ thống cần đảm bảo tin nhắn cuối cùng luôn đến từ người dùng.

Các nhà cung cấp lớn như OpenAI, Amazon Web Services (AWS Bedrock) và Anthropic đã triển khai cơ chế này bằng cách từ chối các yêu cầu có điền trước phản hồi.

Tuy nhiên, các tổ chức tự vận hành mô hình – sử dụng nền tảng như Ollama hoặc vLLM – thường không có kiểm soát này mặc định, khiến hệ thống dễ bị tấn công.

Vì vậy, bất kỳ đội ngũ nào triển khai AI đều cần chủ động kiểm tra và chặn các tin nhắn trợ lý được điền sẵn để tránh rủi ro từ kỹ thuật đơn giản nhưng cực kỳ nguy hiểm này.

Đọc chi tiết tại đây: https://gbhackers.com/11-ai-models-vulnerable-to-one-line-jailbreak/
 
Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,534
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back