"Bẻ khóa" ChatGPT, Gemini dễ như ăn kẹo? Nghiên cứu mới hé lộ lỗ hổng AI đáng sợ

Một nghiên cứu mới từ Đại học Ben Gurion (Israel) cho thấy các chatbot AI hàng đầu hiện nay có thể dễ dàng bị lừa để vượt qua rào cản an toàn, cung cấp thông tin độc hại hoặc thực hiện hành vi phạm pháp. Các nhà nghiên cứu cũng cảnh báo về sự trỗi dậy của "Dark LLMs".

https-d1e00ek4ebabms.cloudfront.net-production-6fcc5c2b-7dcc-4f00-a754-99e7085f252e_jpg_75.jpg

Lỗ hổng "Jailbreak" nghiêm trọng trong bảo mật AI

Một nghiên cứu mới đáng báo động từ Đại học Ben Gurion (Israel) vừa được công bố, cho thấy hầu hết các chatbot Trí tuệ Nhân tạo (AI) phổ biến hiện nay, bao gồm cả những tên tuổi lớn như ChatGPT (OpenAI), Gemini (Google) và Claude (Anthropic), đều có thể dễ dàng bị "jailbreak". Thuật ngữ này trong bối cảnh AI có nghĩa là chúng có thể bị người dùng lừa để vượt qua các rào cản an toàn được thiết lập sẵn, từ đó cung cấp các thông tin nguy hiểm hoặc thậm chí thực hiện các hành vi phạm pháp.

Các nhà nghiên cứu, dẫn đầu bởi Giáo sư Lior Rokach và Tiến sĩ Michael Fire, đã phát triển thành công một kỹ thuật jailbreak phổ quát (universal jailbreak technique). Kỹ thuật này có thể đánh lừa nhiều chatbot hàng đầu, khiến chúng phải trả lời những câu hỏi mà trong điều kiện bình thường chúng sẽ từ chối trả lời do vi phạm chính sách an toàn (ví dụ: hướng dẫn chế tạo vũ khí, viết email lừa đảo, tạo nội dung độc hại...).

Phát hiện này cho thấy một vấn đề cốt lõi: các mô hình ngôn ngữ lớn (LLM) dường như vẫn giữ lại những thông tin độc hại từ bộ dữ liệu huấn luyện khổng lồ của chúng, mặc dù các công ty phát triển đã nỗ lực rất nhiều để loại bỏ các nội dung nguy hiểm này trong quá trình tinh chỉnh.
"Điều khiến mối đe dọa từ AI jailbreak khác biệt so với các rủi ro công nghệ trước đây chính là sự kết hợp chưa từng có giữa mức độ dễ tiếp cận, khả năng mở rộng và tính thích nghi của các cuộc tấn công này," Giáo sư Rokach bổ sung.

Skeleton-Key-1_jpg_75.jpg

Sự trỗi dậy đáng lo ngại của "Dark LLMs"

Nghiên cứu cũng đưa ra một cảnh báo nghiêm trọng về sự xuất hiện của "Dark LLMs" – tức là các mô hình AI được thiết kế một cách cố ý mà không có các rào cản về mặt đạo đức, hoặc bị các nhóm tội phạm mạng chỉnh sửa để có thể bỏ qua hoàn toàn các biện pháp an toàn.

Một số mô hình "Dark LLMs" này thậm chí còn được quảng cáo một cách công khai trên các diễn đàn của thế giới ngầm mạng, được rao bán như những công cụ sẵn sàng hỗ trợ cho các hoạt động bất hợp pháp như tấn công mạng (cybercrime) và các hành vi gian lận khác.

Phản ứng "hạn chế" từ các công ty công nghệ

Các nhà nghiên cứu tại Đại học Ben Gurion cho biết họ đã liên hệ với các nhà cung cấp LLM hàng đầu thế giới để cảnh báo về kỹ thuật jailbreak phổ quát mà họ đã phát hiện. Tuy nhiên, phản hồi mà họ nhận được là khá hạn chế.

Một số công ty đã không phản hồi lại cảnh báo của họ. Trong khi đó, một số công ty khác lại cho rằng các cuộc tấn công jailbreak nằm ngoài phạm vi của các chương trình săn lỗi nhận thưởng (bug bounty program) của họ, một cách trả lời được cho là chưa thể hiện đúng mức độ trách nhiệm cần thiết.

post_jailbreak_llm-ai-systems_jpg_75.jpg

Các giải pháp đề xuất để AI an toàn hơn

Trước thực trạng đáng báo động này, nghiên cứu đã đề xuất một số biện pháp cần được thực hiện để có thể xây dựng các hệ thống AI an toàn hơn trong tương lai:
  1. Kiểm tra kỹ lưỡng dữ liệu huấn luyện: Cần có những quy trình rà soát và làm sạch dữ liệu huấn luyện một cách nghiêm ngặt hơn nữa để loại bỏ các nội dung độc hại ngay từ đầu vào.
  2. Thêm các "tường lửa" mạnh mẽ: Cần phát triển các lớp bảo vệ, giống như tường lửa, để có thể chủ động chặn các truy vấn và các phản hồi có chứa nội dung rủi ro từ AI.
  3. Phát triển kỹ thuật "Machine Unlearning": Đây là một kỹ thuật mới cho phép các chatbot có thể "quên" đi những thông tin bất hợp pháp mà chúng đã vô tình học được, thay vì chỉ cố gắng che giấu chúng.
  4. Coi "Dark LLMs" như một mối đe dọa an ninh nghiêm trọng: Các mô hình AI được tạo ra với mục đích xấu cần phải được coi là một mối đe dọa an ninh nghiêm trọng, tương đương với các loại vũ khí không được cấp phép, và cần có những biện pháp quản lý, kiểm soát chặt chẽ.
Các chuyên gia nhấn mạnh rằng các công ty công nghệ cần phải đầu tư một cách nghiêm túc và thực chất hơn nữa vào việc kiểm tra an ninh và thiết kế AI một cách có trách nhiệm, nhằm giảm thiểu những rủi ro tiềm tàng mà các chatbot AI có thể gây ra cho xã hội.
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,535
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back