Khi đánh giá một mô hình AI, câu hỏi muôn thuở là: nó thật sự suy luận, hay chỉ đang “tụng lại” dữ liệu học được? Một nhóm nghiên cứu thuộc công ty đầu tư mạo hiểm HongShan Capital Group ở Trung Quốc đã xây dựng một bộ công cụ có tên Xbench, với mục tiêu tiếp cận câu hỏi này theo hướng khác biệt...