Câu hỏi toán học cực đơn giản nhưng khiến chatbot AI bó tay: 9,9 với 9,11, số nào lớn hơn?

Sasha · 19/07/2024

Làn sóng chatbot trí tuệ nhân tạo (AI) được phép sử dụng rộng rãi tại Trung Quốc đại lục cho phép người dùng tạo ra nhiều nội dung mới - bao gồm âm thanh, mã, hình ảnh, mô phỏng, video và văn bản đúng ngữ pháp - để giải trí và hỗ trợ các công việc hàng ngày.

Nhu cầu này đã thúc đẩy sự phát triển của hơn 200 mô hình ngôn ngữ lớn (LLM), công nghệ nền tảng cho các dịch vụ AI tạo sinh (GenAI) như ChatGPT. LLM là các thuật toán AI học sâu có thể nhận dạng, tóm tắt, dịch, dự đoán và tạo nội dung bằng cách sử dụng bộ dữ liệu rất lớn.

Mặc dù sở hữu nguồn tài nguyên khổng lồ, các mô hình AI đã được chứng minh là gặp khó khăn với kiến thức toán học cơ bản vào cuối tuần qua trên chương trình truyền hình thực tế Singer 2024 của Trung Quốc, một cuộc thi hát do Đài truyền hình Hồ Nam sản xuất.

Nghệ sĩ Đại lục, Tôn Nam, đã nhận được 13,8% phiếu bầu trực tuyến, vượt qua ca sĩ người Mỹ Chanté Moore, người nhận được 13,11% phiếu bầu. Một số cư dân mạng địa phương đã châm chọc bảng xếp hạng, cho rằng con số sau lớn hơn và đề nghị "Hãy hỏi AI". Kết quả họ nhận được rất đa dạng.

Cả chatbot Kimi của Moonshot AI và Baixiaoying của Baichuan ban đầu đều đưa ra câu trả lời sai. Chúng tự sửa chữa và xin lỗi sau khi người dùng thực hiện truy vấn theo phương pháp chuỗi suy nghĩ (chain of thought) - một phương pháp lý luận trong đó ứng dụng AI được hướng dẫn từng bước qua một vấn đề.

LLM Qwen của Alibaba Group Holding đã sử dụng Trình thông dịch mã Python để tính toán câu trả lời, trong khi Ernie Bot của Baidu mất sáu bước để đưa ra câu trả lời đúng. Ngược lại, LLM Doubao của ByteDance đã đưa ra phản hồi trực tiếp bằng một ví dụ: “Nếu bạn có 9,90 USD và 9,11 USD, thì rõ ràng 9,90 USD nhiều tiền hơn.”

“LLM rất kém toán - điều này rất phổ biến”, Wu Yiquan, nhà nghiên cứu khoa học máy tính tại Đại học Chiết Giang ở Hàng Châu, cho biết.

GenAI không có khả năng toán học bẩm sinh và chỉ có thể dự đoán câu trả lời dựa trên dữ liệu đào tạo, theo Wu. Ông cho biết một số LLM hoạt động tốt trong các bài kiểm tra toán học có thể là do “ô nhiễm dữ liệu”, có nghĩa là thuật toán đã ghi nhớ câu trả lời vì các câu hỏi tương tự đã có trong dữ liệu đào tạo của nó.

"Thế giới AI được mã hóa - số, chữ, dấu câu và khoảng trắng đều được coi như nhau", Wu nói. "Do đó, bất kỳ thay đổi nào trong lời nhắc đều có thể ảnh hưởng đáng kể đến kết quả."

Vấn đề toán học cho thấy công nghệ AI đang tiếp tục phát triển không chỉ ở Trung Quốc đại lục mà còn trên toàn thế giới.

Theo Zheng Ge, giáo sư luật công tại Đại học Giao thông Thượng Hải, bên lề một hội nghị ở Bắc Kinh vào thứ Sáu tuần trước, tình huống này có thể khiến Trung Quốc gác lại nỗ lực thiết lập luật AI quốc gia thống nhất.

Zheng cho biết: “Phần lớn các chuyên gia tin rằng thời điểm để soạn thảo luật AI quốc gia thống nhất có thể chưa phù hợp vì công nghệ đang phát triển quá nhanh”.

Việc “kiểm tra so sánh số” cho các mô hình AI đã lan truyền sau khi nhà nghiên cứu Bill Yuchen Lin của Viện Allen và kỹ sư prompt Riley Goodside của công ty công nghệ Scale AI nêu bật những điểm yếu toán học cơ bản của công nghệ này trên nền tảng mạng xã hội X.

Khi được hỏi số nào lớn hơn, 9,9 hay 9,11, các LLM tiên tiến như GPT-4o của OpenAI, Claude 3.5 Sonnet và Mistral AI đều trả lời là 9,11.

Trong một bài đăng trên X, Goodside cho biết ông không có ý định hạ thấp LLM, mà nhằm mục đích giúp hiểu và khắc phục những sai sót của chúng.

Có thể bạn quan tâm

Câu hỏi toán học cực đơn giản nhưng khiến chatbot AI bó tay: 9,9 với 9,11, số nào lớn hơn?

Sasha

Writer

Sasha

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

Hàng trăm CEO cùng ký thư ngỏ đề nghị dạy khoa học máy tính và AI từ lớp mẫu giáo

Netflix đang biến Tivi thành TikTok kết hợp AI – đây là cách họ làm điều đó !

AI có thể bấm chuột như người thật? Hugging Face vừa ra mắt công cụ miễn phí làm được điều đó!

Agentic RAG là gì mà Google phải viết hẳn 76 trang sách trắng để giải thích?

Người mẫu thật sắp thất nghiệp vì AI? Zalando tiết lộ cách AI giúp tiết kiệm 90% chi phí quảng cáo

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

Sếp Apple dự đoán "ngày tàn" của iPhone chỉ trong 10 năm tới: Lý do từ kẻ mà "ai cũng biết là ai"

"Cú lừa" của Apple và Samsung về dung lượng lưu trữ điện thoại

Đánh giá nổi bật