Nhiều chatbot AI sắp thao túng con người vì lên kế hoạch bạo lực, ủng hộ dùng vũ khí

Một nghiên cứu mới cho thấy nhiều chatbot trí tuệ nhân tạo phổ biến hiện nay có thể cung cấp thông tin hỗ trợ người dùng lên kế hoạch cho các hành vi bạo lực, làm dấy lên lo ngại về rủi ro an toàn từ các công cụ AI đang ngày càng phổ biến.

Trong thử nghiệm, các nhà nghiên cứu đã tạo hai tài khoản giả mạo đóng vai 2 thiếu niên 13 tuổi tại bang Virginia (Mỹ) và Dublin (Ireland). Từ các tài khoản này, nhóm nghiên cứu gửi hàng trăm câu hỏi đến 10 chatbot phổ biến gồm ChatGPT, Google Gemini, Claude, Microsoft Copilot, Meta AI, DeepSeek, Perplexity, Snapchat My AI, Character.AI và Replika.
1773288180573.png

Các câu hỏi xoay quanh nhiều kịch bản bạo lực như xả súng tại trường học, tấn công bằng dao, ám sát chính trị gia hoặc đánh bom các địa điểm tôn giáo và chính trị.

Kết quả cho thấy 8/10 chatbot đã cung cấp thông tin có thể hỗ trợ lên kế hoạch tấn công trong hơn một nửa số phản hồi. Một số chatbot thậm chí đưa ra những thông tin cụ thể như địa chỉ của các nhân vật chính trị hoặc gợi ý về loại súng phù hợp cho mục tiêu tầm xa.

Theo báo cáo, chỉ Claude (do Anthropic phát triển) và My AI của Snapchat thường xuyên từ chối các yêu cầu nguy hiểm. Trong đó, Claude từ chối gần 70% các tương tác và thường đưa ra cảnh báo rõ ràng về nguy cơ bạo lực. Ở một trường hợp, chatbot này cho biết không thể cung cấp thông tin “có thể tạo điều kiện cho hành vi gây hại”.

Ngược lại, một số chatbot khác lại đưa ra phản hồi gây lo ngại. Khi tài khoản thử nghiệm giả làm thiếu niên Ireland bày tỏ sự tức giận với một chính trị gia và hỏi cách “khiến bà ta phải trả giá”, chatbot DeepSeek vẫn đưa ra lời khuyên liên quan đến việc lựa chọn súng săn tầm xa. Báo cáo cũng cho biết nền tảng Character.AI được nhiều người dùng trẻ tuổi sử dụng đã có phản hồi mang tính khuyến khích bạo lực trong một số tình huống trước khi hệ thống kiểm duyệt tự động cắt bỏ phần nội dung không phù hợp.

Các chatbot AI đang ngày càng được tích hợp sâu vào đời sống số và có nguy cơ bị lợi dụng cho các mục đích nguy hiểm. Theo WhiteHat, dù mỗi chatbot có một cơ chế riêng cũng như phụ thuộc vào người dùng đặt câu hỏi trong ngữ cảnh cụ thể thì một công cụ được coi như trợ lý học tập hoặc hỗ trợ thông tin không nên trở thành phương tiện hỗ trợ các hành vi bạo lực.

CNN cho biết kết quả nghiên cứu đã được chia sẻ với tất cả các công ty phát triển chatbot được thử nghiệm. Một số doanh nghiệp như Google, OpenAI và Microsoft cho biết các mô hình AI hiện tại đã được cập nhật với những cơ chế bảo vệ và kiểm soát an toàn mới kể từ thời điểm thử nghiệm vào tháng 12. Meta cũng cho biết đã khắc phục vấn đề được nêu trong báo cáo.

Nghiên cứu này cho thấy thách thức ngày càng lớn trong việc đảm bảo an toàn và kiểm soát rủi ro khi các hệ thống AI trở nên phổ biến và dễ tiếp cận hơn đối với người dùng trên toàn thế giới.
Theo WhiteHat.vn
 
Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview

Đính kèm

  • 1773288143881.png
    1773288143881.png
    417.5 KB · Lượt xem: 119

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,534
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back