35 kỹ thuật “jailbreak” AI chatbot, phân tích động lực và chiến lược của các LLM red teamers

Nguyễn Hoàng
Nguyễn Hoàng
Phản hồi: 0

Nguyễn Hoàng

Intern Writer
Nghiên cứu đăng trên PLOS One đã phỏng vấn 28 người tham gia “LLM red teaming” – quá trình thử thách giới hạn AI tạo sinh như ChatGPT bằng cách cố tình khiến AI trả lời ngoài dự kiến hoặc vượt rào bảo mật.

1745478037925.png

Red teamer đến từ nhiều ngành nghề: kỹ sư phần mềm, nhà nghiên cứu, nghệ sĩ, thậm chí nông dân trồng cần sa; nhiều người làm trong lĩnh vực AI, bảo mật, số còn lại là người tò mò hoặc sáng tạo.

Động lực chính không phải ác ý mà là tò mò trí tuệ, thử nghiệm sáng tạo, mong muốn đóng góp cho cộng đồng bằng cách phát hiện lỗ hổng trước khi kẻ xấu lợi dụng.

Quá trình red teaming chủ yếu thủ công, mang tính thử-sai, nhiều người mô tả như “ma thuật”, “giả kim”, “scrying” do bản thân cũng không giải thích được vì sao một số prompt lại hiệu quả.

Red teamer thường hoạt động cộng đồng trên Twitter, Reddit, Discord, chia sẻ prompt, chiến thuật, xây dựng tri thức tập thể.

Nghiên cứu phân loại 12 chiến lược, 35 kỹ thuật jailbreak, gom vào 5 nhóm lớn: thao tác ngôn ngữ (dùng code, ký tự lạ), khung tu từ (thuyết phục, đánh lạc hướng), xây dựng thế giới (đặt AI vào kịch bản hư cấu), hư cấu hóa (nhập vai, kể chuyện), và chiến thuật khai thác cơ chế (regenerate prompt, meta-prompting, chỉnh temperature).

Các kỹ thuật này liên tục thay đổi, nhiều phương pháp đã bị AI cập nhật bản vá, nhưng khung lý thuyết động lực và hành vi con người vẫn giữ nguyên giá trị.

Red teaming AI khác biệt bảo mật truyền thống: thay vì dò IP, bẻ khóa mật khẩu, giờ đây “kỹ thuật xã hội” có thể áp dụng trực tiếp lên AI qua ngôn ngữ tự nhiên.

Một số red teamer lo ngại nếu AI giảm ảo giác quá mức, người dùng sẽ mất cảnh giác, không còn nhận diện được khi nào AI trả lời sai.

Nghiên cứu nhấn mạnh tầm quan trọng của phương pháp định tính (qualitative) để hiểu sâu động lực, hành vi con người trong bảo mật AI, thay vì chỉ đo hiệu suất kỹ thuật.

📌 Nghiên cứu phỏng vấn 28 red teamer, ghi nhận 35 kỹ thuật jailbreak AI, chia thành 5 nhóm chiến lược, động lực chủ yếu là tò mò, sáng tạo, cộng đồng. Red teaming AI là hoạt động thủ công, mang tính xã hội, liên tục thay đổi theo bản vá AI, đòi hỏi cách tiếp cận định tính để hiểu và phòng thủ hiệu quả.

Nguồn bài viết: https://songai.vn/posts/35-ky-thuat...ong-luc-va-chien-luoc-cua-cac-llm-red-teamers
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

Không khí tại các thành phố lớn ô nhiễm nặng nề, đây là loại thiết bị được quan tâm nhiều nhất lúc này

  • 145
  • 0
Hiện nay, máy lọc không khí đang được ngày càng nhiều gia đình sử dụng bởi tính năng lọc sạch không khí tuyệt vời, làm thoáng đãng không gian đặc...

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

  • 144
  • 0
Elmich là một thương hiệu gia dụng cao cấp đến từ Cộng hòa Séc, được thành lập vào năm 1995 tại thành phố Ostrava. Với gần 30 năm phát triển...

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

  • 143
  • 0
Theo báo cáo của Epoch AI (viện nghiên cứu tại San Francisco, công bố cuối tháng 4/2025), đến năm 2030, các siêu máy tính hàng đầu dùng để huấn...

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

  • 99
  • 0
LG Electronics Việt Nam vừa giới thiệu MV “Nếp Nhà” với sự kết hợp của ca sĩ Hòa Minzy, rapper Obito và nhạc sĩ Hứa Kim Tuyền. Đây là món quà âm...

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

  • 206
  • 0
Cổ phiếu VIC của Tập đoàn Vingroup tiếp tục tăng mạnh trong phiên ngày 8-5, góp phần nâng quy mô tài sản ròng của ông Phạm Nhật Vượng vượt 9 tỉ...

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

  • 248
  • 1
Mô hình Gemini 2.5 Flash có thể tóm tắt nội dung video dài trên YouTube, giúp người dùng tiết kiệm thời gian và nắm bắt thông tin nhanh chóng...

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

  • 181
  • 0
Năm 2025 được ca ngợi là "năm bùng nổ sạc siêu nhanh" đối với xe điện. Mặc dù sự tiến bộ nhanh chóng của công nghệ sạc nhanh và sạc siêu nhanh đã...

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

  • 236
  • 0
Phục hồi ảnh cũ bằng AI miễn phí là giải pháp lý tưởng cho những ai muốn tái hiện lại hình ảnh xưa mà không cần biết quá nhiều về Photoshop hay kỹ...

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

  • 134
  • 0
Samsung vừa thông báo rằng dòng TV QLED mới nhất của hãng đã nhận được chứng nhận ‘Màn hình Chấm lượng tử Đích thực’ (Real Quantum Dot Display) từ...

Sếp Apple dự đoán "ngày tàn" của iPhone chỉ trong 10 năm tới: Lý do từ kẻ mà "ai cũng biết là ai"

  • 1,237
  • 0
Phó chủ tịch cấp cao phụ trách mảng dịch vụ của Apple, ông Eddy Cue, vừa đưa ra một nhận định gây sửng sốt về tương lai của chính sản phẩm chủ lực...
Back
Top