Tại sao AI trả lời đúng nhưng vẫn sai bản chất?

Nguyễn Hoàng · 04/07/2025

Bạn có bao giờ tự hỏi AI có thật sự “hiểu” hay chỉ đang tạo ra ảo giác về kiến thức?

Một nhóm nhà nghiên cứu đến từ MIT, Harvard và Đại học Chicago vừa chỉ ra một lỗ hổng khá thú vị (và đáng ngại) trong cách chúng ta đánh giá trí tuệ nhân tạo. Họ đặt tên cho hiện tượng này là "hiểu biết Potemkin", ám chỉ việc các mô hình AI có thể trả lời đúng các câu hỏi khái niệm nhưng thực chất lại không hiểu những gì chúng đang nói.

Thuật ngữ này lấy cảm hứng từ câu chuyện lịch sử về những “ngôi làng Potemkin” ở Nga, được xây dựng giả tạo để lấy lòng hoàng hậu Catherine II. Về bề ngoài, làng rất đẹp, trật tự, đúng chuẩn, nhưng thực chất chỉ là mặt nạ rỗng tuếch. Tương tự, nhiều mô hình ngôn ngữ lớn (LLM) như GPT-4o, Claude 3.5 hay Gemini 2.0 có thể trả lời đúng bài kiểm tra, nhưng nếu hỏi sâu hơn một chút, ví dụ như áp dụng khái niệm vào tình huống mới, thì... bắt đầu lòi ra sơ hở.

Không phải "ảo giác" mà là một lớp diễn khác tinh vi hơn

Từ trước đến nay, khi AI trả lời sai, người ta gọi đó là “hallucination” (ảo giác). Nhưng hiểu biết Potemkin không phải như vậy. Nó không bịa đặt thông tin sai lệch, mà mô phỏng lại một câu trả lời đúng, chỉ có điều nó không thực sự hiểu. Nó biết “nói đúng”, nhưng không thể làm đúng.

Ví dụ: khi được hỏi sơ đồ vần ABAB là gì, GPT-4o trả lời cực kỳ chuẩn mực: “Dòng 1 và 3 vần với nhau, dòng 2 và 4 vần với nhau.” Nghe tưởng như nó nắm được khái niệm. Nhưng ngay sau đó, khi yêu cầu nó điền từ vào một bài thơ sử dụng sơ đồ đó, nó... chọn sai vần. Điều này cho thấy: biết diễn đạt khái niệm ≠ hiểu khái niệm.

Những bài kiểm tra hiện tại: Đúng nhưng... sai bản chất

Hầu hết các bài kiểm tra năng lực AI hiện nay đánh giá khả năng nhận diện hoặc mô tả khái niệm. Nhưng theo các nhà nghiên cứu, việc này dễ tạo ra ảo tưởng rằng mô hình "thông minh", trong khi nó chỉ đang trả lời giống như... học vẹt.

Để kiểm chứng điều này, nhóm nghiên cứu đã tạo ra một bộ kiểm thử riêng, đánh vào các lĩnh vực như kỹ thuật văn học, lý thuyết trò chơi, và thiên kiến tâm lý, những thứ đòi hỏi áp dụng khái niệm, chứ không chỉ mô tả suông.

Kết quả rất đáng chú ý:

Dù các mô hình xác định được khái niệm đúng đến 94,2%
Nhưng khi yêu cầu phân loại tình huống, tạo ví dụ, hoặc chỉnh sửa khái niệm, tỷ lệ thất bại lên tới 40–55%

Tức là: nếu bài thi đòi hỏi vận dụng linh hoạt, AI... “toang”.

Vì sao "Potemkin" lại nguy hiểm?

Bởi vì nó khiến chúng ta ngộ nhận về năng lực thật của AI. Nếu AI vượt qua một bài kiểm tra nhưng không thể áp dụng ngoài thực tế, vậy thì bài kiểm tra ấy có còn giá trị? Nó không chỉ khiến người dùng nhầm lẫn, mà còn tạo ra rủi ro lớn khi AI được đưa vào giáo dục, y tế, pháp luật hay các ngành đòi hỏi quyết định nghiêm túc.

Một trong các tác giả, Keyon Vafa, nhấn mạnh rằng: hành vi biểu hiện hiểu biết ở AI (như cách trả lời đúng) không tương đương với hiểu biết thật sự như ở con người. Điều này nghĩa là: chúng ta cần những cách kiểm tra mới, không chỉ sao chép cách kiểm tra dành cho con người.

Để xử lý “hiểu biết Potemkin”, các nhà nghiên cứu cho rằng cần:

Thiết kế lại chuẩn mực kiểm thử, tập trung vào khả năng ứng dụng, sáng tạo và suy luận linh hoạt
Hoặc can thiệp kỹ thuật để loại bỏ xu hướng “trả lời đúng mà không hiểu gì” khỏi quá trình học của AI

Đây cũng chính là một bước quan trọng nếu chúng ta thật sự muốn tiến đến AGI, trí tuệ nhân tạo tổng quát, chứ không phải một chiếc máy học vẹt biết tấu hài. (TheRegister)

Tại sao AI trả lời đúng nhưng vẫn sai bản chất?

Nguyễn Hoàng

Administrator

Không phải "ảo giác" mà là một lớp diễn khác tinh vi hơn

Những bài kiểm tra hiện tại: Đúng nhưng... sai bản chất

Vì sao "Potemkin" lại nguy hiểm?

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

Tại sao AI trả lời đúng nhưng vẫn sai bản chất?

Administrator

Không phải "ảo giác" mà là một lớp diễn khác tinh vi hơn​

Những bài kiểm tra hiện tại: Đúng nhưng... sai bản chất​

Vì sao "Potemkin" lại nguy hiểm?​

Không phải "ảo giác" mà là một lớp diễn khác tinh vi hơn

Những bài kiểm tra hiện tại: Đúng nhưng... sai bản chất

Vì sao "Potemkin" lại nguy hiểm?