Đề thi nội bộ của Anthropic bị lộ: Khi kỹ sư triệu đô cũng thua AI

Thoại Viết Hoàng · 23/01/2026

Một cột mốc đáng chú ý vừa xảy ra trong giới AI. Anthropic đã buộc phải “khai tử” bài kiểm tra tuyển dụng kỹ sư nổi tiếng khó nhằn của mình sau khi Claude Opus 4.5 thể hiện khả năng vượt trội so với hầu hết lập trình viên con người, kể cả những người có thu nhập hàng triệu USD mỗi năm.

Bài kiểm tra này từng được xem là “pháo đài cuối cùng” để phân loại kỹ sư hiệu năng cao. Ứng viên làm bài tại nhà, trong vài giờ, với nhiệm vụ tối ưu mã ở mức rất thấp, liên quan đến song song đa lõi, SIMD, kiến trúc VLIW và phân tích hiệu năng bằng Perfetto. Trong suốt một thời gian dài, đề thi này giúp Anthropic lọc hàng nghìn hồ sơ xuống chỉ còn vài chục kỹ sư thực sự xuất sắc.

Mọi chuyện chỉ thay đổi khi Claude Opus 4.5 xuất hiện.

Địa chỉ: https://github.com/anthropics/original_performance_takehome

Với mô hình mới, những gì từng đòi hỏi nhiều năm kinh nghiệm giờ có thể được giải quyết nhanh chóng, có hệ thống và thậm chí tốt hơn con người trong cùng khoảng thời gian. Claude không chỉ làm đúng, mà còn biết ưu tiên xử lý các nút thắt lớn trước, sau đó tinh chỉnh dần như một kỹ sư kỳ cựu. Đáng nói hơn, khi được cho thêm thời gian “suy nghĩ”, điểm số của Claude còn tiếp tục tăng.

Điều này khiến bài kiểm tra viết truyền thống gần như mất tác dụng. Anthropic nhận ra rằng, trong điều kiện phỏng vấn có giới hạn thời gian, họ không còn khả năng phân biệt đâu là ứng viên xuất sắc, đâu là AI mạnh nhất.

Thay vì cấm AI, Anthropic chọn cách đối diện thẳng. Họ công khai toàn bộ bộ đề cũ lên GitHub, coi đó như một thử thách mở cho cộng đồng. Thông điệp rất rõ ràng: nếu ai có thể vượt qua thành tích tốt nhất của Claude Opus 4.5, hãy liên hệ trực tiếp.

Song song đó, Anthropic cũng thừa nhận một sự thật khó nuốt. Trong kỷ nguyên AI, các bài kiểm tra “giống công việc thật” lại chính là thứ dễ bị AI đánh bại nhất, vì mô hình đã được huấn luyện trên vô số tình huống tương tự. Muốn kiểm tra con người, họ buộc phải đi theo hướng ngược lại: tạo ra những bài toán kỳ lạ, ít dữ liệu huấn luyện, thậm chí kém thực tế hơn.

Nói cách khác, “tính hiện thực” trong tuyển dụng kỹ sư đang dần trở thành một thứ xa xỉ.

Câu hỏi lớn mà Anthropic để ngỏ không chỉ dành cho riêng họ, mà cho cả ngành công nghệ:
Khi AI đã làm bài test giỏi hơn con người, chúng ta sẽ đánh giá năng lực kỹ sư bằng cách nào?

Và có lẽ, đây mới chỉ là khởi đầu.

Đề thi nội bộ của Anthropic bị lộ: Khi kỹ sư triệu đô cũng thua AI

Thoại Viết Hoàng

Writer

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ