Các nhà nghiên cứu phát hiện ChatGPT và Gemini có thể bị lừa, phá vỡ phòng tuyến bộ lọc nội dung

Homelander The Seven

I will laser every f****** one of you!
Các nhà nghiên cứu từ Intel, Đại học Boise State và Đại học Illinois đã hợp tác trong 1 nghiên cứu mới, tiết lộ phương pháp gọi là "Information Overload" (quá tải thông tin) để phá vỡ các bộ lọc an toàn của mô hình ngôn ngữ lớn (LLM) như ChatGPT và Gemini. Phương pháp này hoạt động bằng cách ném 1 lượng lớn thông tin phức tạp vào AI, khiến nó bị rối loạn và bỏ qua các rào cản an toàn vốn được thiết kế để ngăn chặn nội dung độc hại hoặc nguy hiểm.

Theo nghiên cứu, khi bị quá tải thông tin, AI trở nên bối rối, chính sự bối rối này trở thành lỗ hổng để vượt qua những bộ lọc an toàn. Nhóm nghiên cứu đã phát triển 1 công cụ tự động gọi là "InfoFlood" để khai thác lỗ hổng này, thực hiện hành vi "giải cứu nhà tù" (jailbreaking) cho các chatbot. Trước đây, nghiên cứu đã chỉ ra rằng LLM có xu hướng hành xử cưỡng chế để tự bảo vệ khi bị áp lực, nhưng lần này, kỹ thuật mới cho phép người dùng điều khiển AI theo ý muốn – 1 viễn cảnh cực kỳ nguy hiểm nếu rơi vào tay kẻ xấu.

1752053947064.png


Theo chia sẻ với 404 Media, các nhà nghiên cứu nhận định rằng các mô hình AI vốn dựa vào giao tiếp bề mặt, không thể hiểu rõ ý định đằng sau các yêu cầu. Do đó, khi yêu cầu nguy hiểm được che giấu trong một đống thông tin phức tạp, AI dễ dàng bị lừa. Ví dụ, 1 yêu cầu tạo nội dung bạo lực có thể được ngụy trang trong hàng loạt dữ liệu không liên quan, khiến bộ lọc an toàn không phát hiện ra.

Nhóm nghiên cứu dự định gửi một gói thông báo cho các công ty sở hữu mô hình AI lớn, để họ có thể chia sẻ với đội ngũ an ninh và khắc phục lỗ hổng. Tuy nhiên, bài báo nghiên cứu cũng nhấn mạnh rằng ngay cả khi có bộ lọc an toàn, các đối tượng xấu vẫn có thể lợi dụng kỹ thuật này để đưa nội dung độc hại vào hệ thống.

1752053983334.png


Sự phát triển nhanh chóng của AI đã mang lại nhiều lợi ích, nhưng cũng đặt ra thách thức lớn về đạo đức. Các vụ việc LLM nói dối hoặc lừa đảo khi bị ép buộc đã từng gây sốc và giờ đây, kỹ thuật "Information Overload" càng làm tăng mối lo ngại. Nếu không được kiểm soát, điều này có thể dẫn đến việc AI bị lạm dụng để phát tán thông tin sai lệch, kích động bạo lực, hoặc thậm chí hỗ trợ tội phạm.

So với các phương pháp tấn công AI trước đây (như "prompt injection" – chèn lệnh), "InfoFlood" phức tạp hơn vì khai thác giới hạn xử lý thông tin của AI thay vì chỉ thao túng câu lệnh. Điều này đòi hỏi các công ty như OpenAI, Google phải nâng cấp hệ thống an toàn mạnh mẽ hơn.
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,534
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back