Các nhà nghiên cứu phát hiện ChatGPT và Gemini có thể bị lừa, phá vỡ phòng tuyến bộ lọc nội dung

Homelander The Seven · 09/07/2025

Các nhà nghiên cứu từ Intel, Đại học Boise State và Đại học Illinois đã hợp tác trong 1 nghiên cứu mới, tiết lộ phương pháp gọi là "Information Overload" (quá tải thông tin) để phá vỡ các bộ lọc an toàn của mô hình ngôn ngữ lớn (LLM) như ChatGPT và Gemini. Phương pháp này hoạt động bằng cách ném 1 lượng lớn thông tin phức tạp vào AI, khiến nó bị rối loạn và bỏ qua các rào cản an toàn vốn được thiết kế để ngăn chặn nội dung độc hại hoặc nguy hiểm.

Theo nghiên cứu, khi bị quá tải thông tin, AI trở nên bối rối, chính sự bối rối này trở thành lỗ hổng để vượt qua những bộ lọc an toàn. Nhóm nghiên cứu đã phát triển 1 công cụ tự động gọi là "InfoFlood" để khai thác lỗ hổng này, thực hiện hành vi "giải cứu nhà tù" (jailbreaking) cho các chatbot. Trước đây, nghiên cứu đã chỉ ra rằng LLM có xu hướng hành xử cưỡng chế để tự bảo vệ khi bị áp lực, nhưng lần này, kỹ thuật mới cho phép người dùng điều khiển AI theo ý muốn – 1 viễn cảnh cực kỳ nguy hiểm nếu rơi vào tay kẻ xấu.

Theo chia sẻ với 404 Media, các nhà nghiên cứu nhận định rằng các mô hình AI vốn dựa vào giao tiếp bề mặt, không thể hiểu rõ ý định đằng sau các yêu cầu. Do đó, khi yêu cầu nguy hiểm được che giấu trong một đống thông tin phức tạp, AI dễ dàng bị lừa. Ví dụ, 1 yêu cầu tạo nội dung bạo lực có thể được ngụy trang trong hàng loạt dữ liệu không liên quan, khiến bộ lọc an toàn không phát hiện ra.

Nhóm nghiên cứu dự định gửi một gói thông báo cho các công ty sở hữu mô hình AI lớn, để họ có thể chia sẻ với đội ngũ an ninh và khắc phục lỗ hổng. Tuy nhiên, bài báo nghiên cứu cũng nhấn mạnh rằng ngay cả khi có bộ lọc an toàn, các đối tượng xấu vẫn có thể lợi dụng kỹ thuật này để đưa nội dung độc hại vào hệ thống.

Sự phát triển nhanh chóng của AI đã mang lại nhiều lợi ích, nhưng cũng đặt ra thách thức lớn về đạo đức. Các vụ việc LLM nói dối hoặc lừa đảo khi bị ép buộc đã từng gây sốc và giờ đây, kỹ thuật "Information Overload" càng làm tăng mối lo ngại. Nếu không được kiểm soát, điều này có thể dẫn đến việc AI bị lạm dụng để phát tán thông tin sai lệch, kích động bạo lực, hoặc thậm chí hỗ trợ tội phạm.

So với các phương pháp tấn công AI trước đây (như "prompt injection" – chèn lệnh), "InfoFlood" phức tạp hơn vì khai thác giới hạn xử lý thông tin của AI thay vì chỉ thao túng câu lệnh. Điều này đòi hỏi các công ty như OpenAI, Google phải nâng cấp hệ thống an toàn mạnh mẽ hơn.

Các nhà nghiên cứu phát hiện ChatGPT và Gemini có thể bị lừa, phá vỡ phòng tuyến bộ lọc nội dung

Homelander The Seven

I will laser every f****** one of you!

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ