Các nhà nghiên cứu bảo mật vừa phát hiện lỗ hổng cơ bản trong nền tảng Guardrails mới ra mắt của OpenAI, cho phép kẻ tấn công vượt qua cơ chế an toàn và tạo ra nội dung độc hại mà không kích hoạt cảnh báo. Điều này làm dấy lên lo ngại về hiệu quả của các biện pháp tự điều chỉnh trong AI...
an ninh trí tuệ nhân tạo
bảo mật ai
hệ thống guardrails
jailbreak ai
kiểm thử đối kháng
lỗhổng ai
lỗhổngguardrailsopenai
phòng thủ nhiều lớp
tấn công prompt injection
thẩm phán llm