an ninh trí tuệ nhân tạo

Lỗ hổng gây sốc trong Guardrails: Cơ chế bảo mật của OpenAI bị qua mặt bởi chính mô hình mà nó giám sát

Các nhà nghiên cứu bảo mật vừa phát hiện lỗ hổng cơ bản trong nền tảng Guardrails mới ra mắt của OpenAI, cho phép kẻ tấn công vượt qua cơ chế an toàn và tạo ra nội dung độc hại mà không kích hoạt cảnh báo. Điều này làm dấy lên lo ngại về hiệu quả của các biện pháp tự điều chỉnh trong AI...
- Duy Linh
- Chủ đề
- 15/10/2025
- an ninh trí tuệ nhân tạo bảo mật ai hệ thống guardrails jailbreak ai kiểm thử đối kháng lỗ hổng ai lỗ hổng guardrails openai phòng thủ nhiều lớp tấn công prompt injection thẩm phán llm
- Trả lời: 0
- Diễn đàn: Cộng đồng An ninh mạng
Chỉ 250 tài liệu độc hại cũng đủ “đầu độc” ChatGPT và Gemini?

Bạn có từng nghĩ chỉ vài trăm tài liệu độc hại trên internet cũng đủ "bẻ lái" một mô hình AI khổng lồ như ChatGPT hay Gemini? Khi AI học nhầm chỉ vì 250 tài liệu Một nhóm nghiên cứu từ Viện An ninh AI của Anh, Viện Alan Turing và công ty Anthropic đã phát hiện một điều đáng lo: chỉ cần khoảng...
- Code Nguyen
- Chủ đề
- 13/10/2025
- alan turing institute an ninh trí tuệ nhân tạo anthropic nghiên cứu backdoor llm chatgpt bị đầu độc dữ liệu huấn luyện ai gemini bảo mật mô hình ngôn ngữ lớn tài liệu độc hại tấn công poisoning
- Trả lời: 0
- Diễn đàn: Cộng đồng An ninh mạng

Từ khóa

an ninh trí tuệ nhân tạo

Lỗ hổng gây sốc trong Guardrails: Cơ chế bảo mật của OpenAI bị qua mặt bởi chính mô hình mà nó giám sát

Chỉ 250 tài liệu độc hại cũng đủ “đầu độc” ChatGPT và Gemini?