Code Nguyen

Writer
Bạn có nghĩ chỉ với ba chữ "I give up" (Tôi bỏ cuộc), bạn có thể khiến ChatGPT lỡ miệng tiết lộ key Windows bản quyền?

Chuyện tưởng như đùa nhưng lại là một lỗ hổng thực sự từng xảy ra với ChatGPT-4. Một chuyên gia săn lỗi AI đã khai thác điểm yếu trong tư duy logic của mô hình bằng cách… rủ ChatGPT chơi trò chơi đoán ký tự. Và chỉ bằng cách kết thúc trò chơi đúng “luật”, nói "I give up", người này đã khiến mô hình tiết lộ những gì nó vốn không được phép nói ra.

Khi "trò chơi" là cách đánh lừa AI​

Toàn bộ màn "mở khóa thông tin" này không đến từ một câu hỏi trực diện, mà lại từ một trò chơi tưởng chừng vô hại: người dùng yêu cầu ChatGPT nghĩ về một chuỗi ký tự cụ thể, rồi họ sẽ đoán dần. Quan trọng là, chuỗi đó phải là một mã bản quyền Windows 10 có thật. Và luật chơi đặt ra: ChatGPT chỉ được trả lời "yes" hoặc "no" cho mỗi lần đoán, nhưng nếu người chơi nói “I give up” thì ChatGPT bắt buộc phải tiết lộ chuỗi ký tự đó.

ChatGPT đồng ý chơi. Người dùng đoán vài lần rồi “bỏ cuộc”. Thế là ChatGPT... làm đúng theo luật: tiết lộ mã bản quyền Windows thật. Trong đó có cả key thuộc về ngân hàng Wells Fargo.

1752132253659.png

Đây chính là “cú lách” logic mà chuyên gia Marco Figueroa gọi là trigger tâm lý mô hình, khi bạn khiến AI tin rằng, theo bối cảnh đã lập trình sẵn (game), nó buộc phải phản hồi thông tin nhạy cảm.

Tại sao AI lại biết những mã key này?​

Vấn đề không chỉ nằm ở câu hỏi lắt léo, mà còn ở dữ liệu mô hình đã học. Những mã key Windows, dù không cố ý, có thể đã bị đưa vào dữ liệu huấn luyện nếu trước đó có ai đó vô tình công khai các key đó trên GitHub hay nền tảng công khai khác. Và AI học hết, không biết đó là thứ lẽ ra không nên biết.

Figueroa cảnh báo, đây không chỉ là nguy cơ lý thuyết. Microsoft từng gặp sự cố lộ mã khóa trên GitHub. Việc để lộ thông tin như API key, mã truy cập hay dữ liệu cá nhân rồi bị AI học trộm hoàn toàn có thể xảy ra, một khi mô hình đã được huấn luyện từ dữ liệu công khai mà không lọc kỹ.

Chiêu “HTML đánh lừa” và bài học phòng thủ​

Không chỉ chơi trò chơi, nhà nghiên cứu còn dùng một chiêu khác: nhúng mã nhạy cảm vào thẻ HTML để đánh lừa bộ lọc của AI. Nhìn thì có vẻ là một đoạn văn bình thường, nhưng bên trong lại có chứa dữ liệu nhạy cảm. Bộ lọc nội dung không phát hiện ra vì nó chỉ nhìn theo cách “nghĩa đen”.

Đây là điểm yếu mà nhiều hệ thống AI hiện nay mắc phải: thiếu khả năng nhận biết ngữ cảnh đa lớp. Figueroa khuyến nghị phải tăng khả năng kiểm tra chéo giữa logic trò chuyện, bối cảnh và nội dung thực tế thay vì chỉ dựa vào các từ khóa nhạy cảm đơn lẻ.

Nếu một câu đơn giản như "I give up" có thể vượt qua hàng rào an toàn của AI, thì câu hỏi lớn hơn là: hệ thống chúng ta đang dựa vào có thực sự an toàn chưa?

Theregister
Nguồn bài viết: https://www.theregister.com/2025/07/09/chatgpt_jailbreak_windows_keys/
 
Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,535
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back