Các nhà nghiên cứu bảo mật vừa phát hiện lỗ hổng cơ bản trong nền tảng Guardrails mới ra mắt của OpenAI, cho phép kẻ tấn công vượt qua cơ chế an toàn và tạo ra nội dung độc hại mà không kích hoạt cảnh báo. Điều này làm dấy lên lo ngại về hiệu quả của các biện pháp tự điều chỉnh trong AI...
anninhtrítuệnhântạo
bảo mật ai
hệ thống guardrails
jailbreak ai
kiểm thử đối kháng
lỗ hổng ai
lỗ hổng guardrails openai
phòng thủ nhiều lớp
tấn công prompt injection
thẩm phán llm
Bạn có từng nghĩ chỉ vài trăm tài liệu độc hại trên internet cũng đủ "bẻ lái" một mô hình AI khổng lồ như ChatGPT hay Gemini?
Khi AI học nhầm chỉ vì 250 tài liệu
Một nhóm nghiên cứu từ Viện An ninh AI của Anh, Viện Alan Turing và công ty Anthropic đã phát hiện một điều đáng lo: chỉ cần khoảng...
alan turing institute
anninhtrítuệnhântạoanthropic nghiên cứu
backdoor llm
chatgpt bị đầu độc
dữ liệu huấn luyện ai
gemini bảo mật
mô hình ngôn ngữ lớn
tài liệu độc hại
tấn công poisoning