Microsoft: Điều mà người dùng làm thường xuyên này khiến AI bị "ngu" đi

Tháp rơi tự do

Intern Writer
Người dùng có thể cảm thấy chatbot AI ngày càng trở nên "ngu ngốc" hơn khi họ trò chuyện lâu với chúng, và giờ đây đã có bằng chứng khoa học để chứng minh cảm nhận này.

Theo một báo cáo của Windows Central hôm nay, một nghiên cứu được công bố chung bởi Microsoft Research và Salesforce xác nhận rằng ngay cả những mô hình ngôn ngữ quy mô lớn tiên tiến nhất hiện có cũng gặp phải sự suy giảm mạnh về độ tin cậy trong các cuộc hội thoại nhiều lượt.
hình ảnh

Các nhà nghiên cứu đã nghiên cứu một số GPU, bao gồm GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, O3 và DeepSeek R1.Nó đã thực hiện hơn 200.000 phân tích hội thoại mô phỏng với 15 mô hình hàng đầu, bao gồm cả Llama 4, và phát hiện ra một hiện tượng được gọi là " cuộc hội thoại bị mất"."khiếm khuyết hệ thống".

Dữ liệu cho thấy các mô hình này có tỷ lệ thành công lên đến 90% trong các nhiệm vụ lựa chọn đơn, nhưng khi nhiệm vụ tương tự được chia nhỏ thành nhiều vòng hội thoại tự nhiên, tỷ lệ thành công giảm mạnh xuống còn khoảng 65%.

Nghiên cứu chỉ ra rằng "trí thông minh" của mô hình không giảm đáng kể - khả năng cốt lõi chỉ giảm khoảng 15% - nhưng "độ không đáng tin cậy" lại tăng vọt 112%. Nói cách khác, các mô hình AI lớn vẫn có khả năng giải quyết vấn đề, nhưng trở nên rất không ổn định trong các cuộc hội thoại nhiều lượt và gặp khó khăn trong việc liên tục theo dõi ngữ cảnh.

Báo cáo chỉ ra rằng hầu hết các mô hình hiện tại chủ yếu được đánh giá theo tiêu chuẩn "một vòng", tức là môi trường thử nghiệm lý tưởng nơi tất cả các hướng dẫn được nhận cùng một lúc. Tuy nhiên, giao tiếp thực tế giữa người với người thường diễn ra dần dần, thông tin được bổ sung từng bước thông qua nhiều vòng tương tác. Nghiên cứu đã chỉ ra rằng một khi nhiệm vụ được "chia nhỏ" thành nhiều vòng, ngay cả những mô hình tiên tiến nhất cũng dễ mắc phải các lỗi hệ thống.

Các nhà nghiên cứu đã phân tích sâu hơn các cơ chế hành vi gây ra sự suy giảm hiệu suất.
  • Thứ nhất, " thế hệ sinh non "Mô hình thường cố gắng đưa ra câu trả lời cuối cùng trước khi người dùng giải thích đầy đủ nhu cầu của họ. Một khi giả định sai được hình thành trong các vòng đầu (ghi chú của IT Home: điều này có thể đề cập đến ấn tượng ban đầu), mô hình sẽ tiếp tục suy luận dựa trên sai lầm đó thay vì sửa chữa nó khi có thêm thông tin mới, do đó khiến sai lầm dần dần khuếch đại.
  • Thứ hai, có hiện tượng " lạm phát câu trả lời".Trong các cuộc hội thoại nhiều lượt, độ dài phản hồi của mô hình tăng từ 20% đến 300% so với các cuộc hội thoại một lượt. Các phản hồi dài hơn thường chứa nhiều giả định và "ảo tưởng", sau đó được tích hợp vào ngữ cảnh đang diễn ra của cuộc hội thoại, ảnh hưởng thêm đến độ chính xác của các suy luận tiếp theo.
Điều đáng ngạc nhiên là, ngay cả với các " từ điển tư duy" bổ sungCác mô hình suy luận thế hệ mới sử dụng "token tư duy", chẳng hạn như OpenAI o3 và DeepSeek R1, cũng không cải thiện đáng kể hiệu suất trong các cuộc hội thoại nhiều lượt. Nghiên cứu cũng phát hiện ra rằng việc đặt tham số nhiệt độ của mô hình về 0 — một kỹ thuật phổ biến để đảm bảo tính nhất quán — hầu như không mang lại sự bảo vệ nào chống lại sự suy giảm chất lượng hội thoại kiểu này.
hình ảnh

Phát hiện này đặt ra thách thức cho các phương pháp đánh giá hiện tại trong ngành công nghiệp AI. Các nhà nghiên cứu chỉ ra rằng các tiêu chuẩn hiện có chủ yếu dựa trên các kịch bản lý tưởng chỉ diễn ra trong một lượt, bỏ qua hành vi của mô hình trong thế giới thực. Kết luận này đặt ra một thách thức đáng kể cho các nhà phát triển dựa vào AI để xây dựng các quy trình đối thoại phức tạp hoặc các tác nhân thông minh.
hình ảnh

Phương pháp hiệu quả nhất hiện nay là giảm thiểu nhiều vòng giao tiếp và cung cấp tất cả dữ liệu, ràng buộc và hướng dẫn cần thiết trong một lời nhắc hoàn chỉnh duy nhất để cải thiện tính nhất quán của đầu ra.
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,536
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 351
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back