Câu hỏi toán học cực đơn giản nhưng khiến chatbot AI bó tay: 9,9 với 9,11, số nào lớn hơn?

Sasha
Sasha
Phản hồi: 0

Sasha

Writer
Sasha

Sasha Đã xác thực

Làn sóng chatbot trí tuệ nhân tạo (AI) được phép sử dụng rộng rãi tại Trung Quốc đại lục cho phép người dùng tạo ra nhiều nội dung mới - bao gồm âm thanh, mã, hình ảnh, mô phỏng, video và văn bản đúng ngữ pháp - để giải trí và hỗ trợ các công việc hàng ngày.

Nhu cầu này đã thúc đẩy sự phát triển của hơn 200 mô hình ngôn ngữ lớn (LLM), công nghệ nền tảng cho các dịch vụ AI tạo sinh (GenAI) như ChatGPT. LLM là các thuật toán AI học sâu có thể nhận dạng, tóm tắt, dịch, dự đoán và tạo nội dung bằng cách sử dụng bộ dữ liệu rất lớn.

Mặc dù sở hữu nguồn tài nguyên khổng lồ, các mô hình AI đã được chứng minh là gặp khó khăn với kiến thức toán học cơ bản vào cuối tuần qua trên chương trình truyền hình thực tế Singer 2024 của Trung Quốc, một cuộc thi hát do Đài truyền hình Hồ Nam sản xuất.

Nghệ sĩ Đại lục, Tôn Nam, đã nhận được 13,8% phiếu bầu trực tuyến, vượt qua ca sĩ người Mỹ Chanté Moore, người nhận được 13,11% phiếu bầu. Một số cư dân mạng địa phương đã châm chọc bảng xếp hạng, cho rằng con số sau lớn hơn và đề nghị "Hãy hỏi AI". Kết quả họ nhận được rất đa dạng.

Cả chatbot Kimi của Moonshot AI và Baixiaoying của Baichuan ban đầu đều đưa ra câu trả lời sai. Chúng tự sửa chữa và xin lỗi sau khi người dùng thực hiện truy vấn theo phương pháp chuỗi suy nghĩ (chain of thought) - một phương pháp lý luận trong đó ứng dụng AI được hướng dẫn từng bước qua một vấn đề.

1721353191562.png


LLM Qwen của Alibaba Group Holding đã sử dụng Trình thông dịch mã Python để tính toán câu trả lời, trong khi Ernie Bot của Baidu mất sáu bước để đưa ra câu trả lời đúng. Ngược lại, LLM Doubao của ByteDance đã đưa ra phản hồi trực tiếp bằng một ví dụ: “Nếu bạn có 9,90 USD và 9,11 USD, thì rõ ràng 9,90 USD nhiều tiền hơn.”

“LLM rất kém toán - điều này rất phổ biến”, Wu Yiquan, nhà nghiên cứu khoa học máy tính tại Đại học Chiết Giang ở Hàng Châu, cho biết.

GenAI không có khả năng toán học bẩm sinh và chỉ có thể dự đoán câu trả lời dựa trên dữ liệu đào tạo, theo Wu. Ông cho biết một số LLM hoạt động tốt trong các bài kiểm tra toán học có thể là do “ô nhiễm dữ liệu”, có nghĩa là thuật toán đã ghi nhớ câu trả lời vì các câu hỏi tương tự đã có trong dữ liệu đào tạo của nó.

"Thế giới AI được mã hóa - số, chữ, dấu câu và khoảng trắng đều được coi như nhau", Wu nói. "Do đó, bất kỳ thay đổi nào trong lời nhắc đều có thể ảnh hưởng đáng kể đến kết quả."

Vấn đề toán học cho thấy công nghệ AI đang tiếp tục phát triển không chỉ ở Trung Quốc đại lục mà còn trên toàn thế giới.

Theo Zheng Ge, giáo sư luật công tại Đại học Giao thông Thượng Hải, bên lề một hội nghị ở Bắc Kinh vào thứ Sáu tuần trước, tình huống này có thể khiến Trung Quốc gác lại nỗ lực thiết lập luật AI quốc gia thống nhất.

Zheng cho biết: “Phần lớn các chuyên gia tin rằng thời điểm để soạn thảo luật AI quốc gia thống nhất có thể chưa phù hợp vì công nghệ đang phát triển quá nhanh”.

Việc “kiểm tra so sánh số” cho các mô hình AI đã lan truyền sau khi nhà nghiên cứu Bill Yuchen Lin của Viện Allen và kỹ sư prompt Riley Goodside của công ty công nghệ Scale AI nêu bật những điểm yếu toán học cơ bản của công nghệ này trên nền tảng mạng xã hội X.

Khi được hỏi số nào lớn hơn, 9,9 hay 9,11, các LLM tiên tiến như GPT-4o của OpenAI, Claude 3.5 Sonnet và Mistral AI đều trả lời là 9,11.

Trong một bài đăng trên X, Goodside cho biết ông không có ý định hạ thấp LLM, mà nhằm mục đích giúp hiểu và khắc phục những sai sót của chúng.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

  • 144
  • 0
Elmich là một thương hiệu gia dụng cao cấp đến từ Cộng hòa Séc, được thành lập vào năm 1995 tại thành phố Ostrava. Với gần 30 năm phát triển...

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

  • 143
  • 0
Theo báo cáo của Epoch AI (viện nghiên cứu tại San Francisco, công bố cuối tháng 4/2025), đến năm 2030, các siêu máy tính hàng đầu dùng để huấn...

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

  • 99
  • 0
LG Electronics Việt Nam vừa giới thiệu MV “Nếp Nhà” với sự kết hợp của ca sĩ Hòa Minzy, rapper Obito và nhạc sĩ Hứa Kim Tuyền. Đây là món quà âm...

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

  • 206
  • 0
Cổ phiếu VIC của Tập đoàn Vingroup tiếp tục tăng mạnh trong phiên ngày 8-5, góp phần nâng quy mô tài sản ròng của ông Phạm Nhật Vượng vượt 9 tỉ...

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

  • 248
  • 1
Mô hình Gemini 2.5 Flash có thể tóm tắt nội dung video dài trên YouTube, giúp người dùng tiết kiệm thời gian và nắm bắt thông tin nhanh chóng...

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

  • 181
  • 0
Năm 2025 được ca ngợi là "năm bùng nổ sạc siêu nhanh" đối với xe điện. Mặc dù sự tiến bộ nhanh chóng của công nghệ sạc nhanh và sạc siêu nhanh đã...

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

  • 236
  • 0
Phục hồi ảnh cũ bằng AI miễn phí là giải pháp lý tưởng cho những ai muốn tái hiện lại hình ảnh xưa mà không cần biết quá nhiều về Photoshop hay kỹ...

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

  • 134
  • 0
Samsung vừa thông báo rằng dòng TV QLED mới nhất của hãng đã nhận được chứng nhận ‘Màn hình Chấm lượng tử Đích thực’ (Real Quantum Dot Display) từ...

Sếp Apple dự đoán "ngày tàn" của iPhone chỉ trong 10 năm tới: Lý do từ kẻ mà "ai cũng biết là ai"

  • 1,237
  • 0
Phó chủ tịch cấp cao phụ trách mảng dịch vụ của Apple, ông Eddy Cue, vừa đưa ra một nhận định gây sửng sốt về tương lai của chính sản phẩm chủ lực...

"Cú lừa" của Apple và Samsung về dung lượng lưu trữ điện thoại

  • 287
  • 0
Chi phí tăng đáng kể khi nâng cấp bộ nhớ được cho là chiến lược tối đa hóa lợi nhuận của các hãng smartphone, đặc biệt ở phân khúc cao cấp...
Back
Top