Microsoft: Điều mà người dùng làm thường xuyên này khiến AI bị "ngu" đi

Tháp rơi tự do · 20/02/2026

Người dùng có thể cảm thấy chatbot AI ngày càng trở nên "ngu ngốc" hơn khi họ trò chuyện lâu với chúng, và giờ đây đã có bằng chứng khoa học để chứng minh cảm nhận này.

Theo một báo cáo của Windows Central hôm nay, một nghiên cứu được công bố chung bởi Microsoft Research và Salesforce xác nhận rằng ngay cả những mô hình ngôn ngữ quy mô lớn tiên tiến nhất hiện có cũng gặp phải sự suy giảm mạnh về độ tin cậy trong các cuộc hội thoại nhiều lượt.

Các nhà nghiên cứu đã nghiên cứu một số GPU, bao gồm GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, O3 và DeepSeek R1.Nó đã thực hiện hơn 200.000 phân tích hội thoại mô phỏng với 15 mô hình hàng đầu, bao gồm cả Llama 4, và phát hiện ra một hiện tượng được gọi là " cuộc hội thoại bị mất"."khiếm khuyết hệ thống".

Dữ liệu cho thấy các mô hình này có tỷ lệ thành công lên đến 90% trong các nhiệm vụ lựa chọn đơn, nhưng khi nhiệm vụ tương tự được chia nhỏ thành nhiều vòng hội thoại tự nhiên, tỷ lệ thành công giảm mạnh xuống còn khoảng 65%.

Nghiên cứu chỉ ra rằng "trí thông minh" của mô hình không giảm đáng kể - khả năng cốt lõi chỉ giảm khoảng 15% - nhưng "độ không đáng tin cậy" lại tăng vọt 112%. Nói cách khác, các mô hình AI lớn vẫn có khả năng giải quyết vấn đề, nhưng trở nên rất không ổn định trong các cuộc hội thoại nhiều lượt và gặp khó khăn trong việc liên tục theo dõi ngữ cảnh.

Báo cáo chỉ ra rằng hầu hết các mô hình hiện tại chủ yếu được đánh giá theo tiêu chuẩn "một vòng", tức là môi trường thử nghiệm lý tưởng nơi tất cả các hướng dẫn được nhận cùng một lúc. Tuy nhiên, giao tiếp thực tế giữa người với người thường diễn ra dần dần, thông tin được bổ sung từng bước thông qua nhiều vòng tương tác. Nghiên cứu đã chỉ ra rằng một khi nhiệm vụ được "chia nhỏ" thành nhiều vòng, ngay cả những mô hình tiên tiến nhất cũng dễ mắc phải các lỗi hệ thống.

Các nhà nghiên cứu đã phân tích sâu hơn các cơ chế hành vi gây ra sự suy giảm hiệu suất.

Thứ nhất, " thế hệ sinh non "Mô hình thường cố gắng đưa ra câu trả lời cuối cùng trước khi người dùng giải thích đầy đủ nhu cầu của họ. Một khi giả định sai được hình thành trong các vòng đầu (ghi chú của IT Home: điều này có thể đề cập đến ấn tượng ban đầu), mô hình sẽ tiếp tục suy luận dựa trên sai lầm đó thay vì sửa chữa nó khi có thêm thông tin mới, do đó khiến sai lầm dần dần khuếch đại.
Thứ hai, có hiện tượng " lạm phát câu trả lời".Trong các cuộc hội thoại nhiều lượt, độ dài phản hồi của mô hình tăng từ 20% đến 300% so với các cuộc hội thoại một lượt. Các phản hồi dài hơn thường chứa nhiều giả định và "ảo tưởng", sau đó được tích hợp vào ngữ cảnh đang diễn ra của cuộc hội thoại, ảnh hưởng thêm đến độ chính xác của các suy luận tiếp theo.

Điều đáng ngạc nhiên là, ngay cả với các " từ điển tư duy" bổ sungCác mô hình suy luận thế hệ mới sử dụng "token tư duy", chẳng hạn như OpenAI o3 và DeepSeek R1, cũng không cải thiện đáng kể hiệu suất trong các cuộc hội thoại nhiều lượt. Nghiên cứu cũng phát hiện ra rằng việc đặt tham số nhiệt độ của mô hình về 0 — một kỹ thuật phổ biến để đảm bảo tính nhất quán — hầu như không mang lại sự bảo vệ nào chống lại sự suy giảm chất lượng hội thoại kiểu này.

Phát hiện này đặt ra thách thức cho các phương pháp đánh giá hiện tại trong ngành công nghiệp AI. Các nhà nghiên cứu chỉ ra rằng các tiêu chuẩn hiện có chủ yếu dựa trên các kịch bản lý tưởng chỉ diễn ra trong một lượt, bỏ qua hành vi của mô hình trong thế giới thực. Kết luận này đặt ra một thách thức đáng kể cho các nhà phát triển dựa vào AI để xây dựng các quy trình đối thoại phức tạp hoặc các tác nhân thông minh.

Phương pháp hiệu quả nhất hiện nay là giảm thiểu nhiều vòng giao tiếp và cung cấp tất cả dữ liệu, ràng buộc và hướng dẫn cần thiết trong một lời nhắc hoàn chỉnh duy nhất để cải thiện tính nhất quán của đầu ra.

Microsoft: Điều mà người dùng làm thường xuyên này khiến AI bị "ngu" đi

Tháp rơi tự do

Intern Writer

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ