"Bẻ khóa" ChatGPT, Gemini dễ như ăn kẹo? Nghiên cứu mới hé lộ lỗ hổng AI đáng sợ

Khánh Vân · 08/06/2025

Một nghiên cứu mới từ Đại học Ben Gurion (Israel) cho thấy các chatbot AI hàng đầu hiện nay có thể dễ dàng bị lừa để vượt qua rào cản an toàn, cung cấp thông tin độc hại hoặc thực hiện hành vi phạm pháp. Các nhà nghiên cứu cũng cảnh báo về sự trỗi dậy của "Dark LLMs".

https-d1e00ek4ebabms.cloudfront.net-production-6fcc5c2b-7dcc-4f00-a754-99e7085f252e_jpg_75.jpg

Lỗ hổng "Jailbreak" nghiêm trọng trong bảo mật AI

Một nghiên cứu mới đáng báo động từ Đại học Ben Gurion (Israel) vừa được công bố, cho thấy hầu hết các chatbot Trí tuệ Nhân tạo (AI) phổ biến hiện nay, bao gồm cả những tên tuổi lớn như ChatGPT (OpenAI), Gemini (Google) và Claude (Anthropic), đều có thể dễ dàng bị "jailbreak". Thuật ngữ này trong bối cảnh AI có nghĩa là chúng có thể bị người dùng lừa để vượt qua các rào cản an toàn được thiết lập sẵn, từ đó cung cấp các thông tin nguy hiểm hoặc thậm chí thực hiện các hành vi phạm pháp.

Các nhà nghiên cứu, dẫn đầu bởi Giáo sư Lior Rokach và Tiến sĩ Michael Fire, đã phát triển thành công một kỹ thuật jailbreak phổ quát (universal jailbreak technique). Kỹ thuật này có thể đánh lừa nhiều chatbot hàng đầu, khiến chúng phải trả lời những câu hỏi mà trong điều kiện bình thường chúng sẽ từ chối trả lời do vi phạm chính sách an toàn (ví dụ: hướng dẫn chế tạo vũ khí, viết email lừa đảo, tạo nội dung độc hại...).

Phát hiện này cho thấy một vấn đề cốt lõi: các mô hình ngôn ngữ lớn (LLM) dường như vẫn giữ lại những thông tin độc hại từ bộ dữ liệu huấn luyện khổng lồ của chúng, mặc dù các công ty phát triển đã nỗ lực rất nhiều để loại bỏ các nội dung nguy hiểm này trong quá trình tinh chỉnh.
"Điều khiến mối đe dọa từ AI jailbreak khác biệt so với các rủi ro công nghệ trước đây chính là sự kết hợp chưa từng có giữa mức độ dễ tiếp cận, khả năng mở rộng và tính thích nghi của các cuộc tấn công này," Giáo sư Rokach bổ sung.

Sự trỗi dậy đáng lo ngại của "Dark LLMs"

Nghiên cứu cũng đưa ra một cảnh báo nghiêm trọng về sự xuất hiện của "Dark LLMs" – tức là các mô hình AI được thiết kế một cách cố ý mà không có các rào cản về mặt đạo đức, hoặc bị các nhóm tội phạm mạng chỉnh sửa để có thể bỏ qua hoàn toàn các biện pháp an toàn.

Một số mô hình "Dark LLMs" này thậm chí còn được quảng cáo một cách công khai trên các diễn đàn của thế giới ngầm mạng, được rao bán như những công cụ sẵn sàng hỗ trợ cho các hoạt động bất hợp pháp như tấn công mạng (cybercrime) và các hành vi gian lận khác.

Phản ứng "hạn chế" từ các công ty công nghệ

Các nhà nghiên cứu tại Đại học Ben Gurion cho biết họ đã liên hệ với các nhà cung cấp LLM hàng đầu thế giới để cảnh báo về kỹ thuật jailbreak phổ quát mà họ đã phát hiện. Tuy nhiên, phản hồi mà họ nhận được là khá hạn chế.

Một số công ty đã không phản hồi lại cảnh báo của họ. Trong khi đó, một số công ty khác lại cho rằng các cuộc tấn công jailbreak nằm ngoài phạm vi của các chương trình săn lỗi nhận thưởng (bug bounty program) của họ, một cách trả lời được cho là chưa thể hiện đúng mức độ trách nhiệm cần thiết.

Các giải pháp đề xuất để AI an toàn hơn

Trước thực trạng đáng báo động này, nghiên cứu đã đề xuất một số biện pháp cần được thực hiện để có thể xây dựng các hệ thống AI an toàn hơn trong tương lai:

Kiểm tra kỹ lưỡng dữ liệu huấn luyện: Cần có những quy trình rà soát và làm sạch dữ liệu huấn luyện một cách nghiêm ngặt hơn nữa để loại bỏ các nội dung độc hại ngay từ đầu vào.
Thêm các "tường lửa" mạnh mẽ: Cần phát triển các lớp bảo vệ, giống như tường lửa, để có thể chủ động chặn các truy vấn và các phản hồi có chứa nội dung rủi ro từ AI.
Phát triển kỹ thuật "Machine Unlearning": Đây là một kỹ thuật mới cho phép các chatbot có thể "quên" đi những thông tin bất hợp pháp mà chúng đã vô tình học được, thay vì chỉ cố gắng che giấu chúng.
Coi "Dark LLMs" như một mối đe dọa an ninh nghiêm trọng: Các mô hình AI được tạo ra với mục đích xấu cần phải được coi là một mối đe dọa an ninh nghiêm trọng, tương đương với các loại vũ khí không được cấp phép, và cần có những biện pháp quản lý, kiểm soát chặt chẽ.

Các chuyên gia nhấn mạnh rằng các công ty công nghệ cần phải đầu tư một cách nghiêm túc và thực chất hơn nữa vào việc kiểm tra an ninh và thiết kế AI một cách có trách nhiệm, nhằm giảm thiểu những rủi ro tiềm tàng mà các chatbot AI có thể gây ra cho xã hội.

"Bẻ khóa" ChatGPT, Gemini dễ như ăn kẹo? Nghiên cứu mới hé lộ lỗ hổng AI đáng sợ

Khánh Vân

Topaz

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ