Đề thi nội bộ của Anthropic bị lộ: Khi kỹ sư triệu đô cũng thua AI

Một cột mốc đáng chú ý vừa xảy ra trong giới AI. Anthropic đã buộc phải “khai tử” bài kiểm tra tuyển dụng kỹ sư nổi tiếng khó nhằn của mình sau khi Claude Opus 4.5 thể hiện khả năng vượt trội so với hầu hết lập trình viên con người, kể cả những người có thu nhập hàng triệu USD mỗi năm.

Bài kiểm tra này từng được xem là “pháo đài cuối cùng” để phân loại kỹ sư hiệu năng cao. Ứng viên làm bài tại nhà, trong vài giờ, với nhiệm vụ tối ưu mã ở mức rất thấp, liên quan đến song song đa lõi, SIMD, kiến trúc VLIW và phân tích hiệu năng bằng Perfetto. Trong suốt một thời gian dài, đề thi này giúp Anthropic lọc hàng nghìn hồ sơ xuống chỉ còn vài chục kỹ sư thực sự xuất sắc.

Mọi chuyện chỉ thay đổi khi Claude Opus 4.5 xuất hiện.
1769154965612.png

Địa chỉ: https://github.com/anthropics/original_performance_takehome

Với mô hình mới, những gì từng đòi hỏi nhiều năm kinh nghiệm giờ có thể được giải quyết nhanh chóng, có hệ thống và thậm chí tốt hơn con người trong cùng khoảng thời gian. Claude không chỉ làm đúng, mà còn biết ưu tiên xử lý các nút thắt lớn trước, sau đó tinh chỉnh dần như một kỹ sư kỳ cựu. Đáng nói hơn, khi được cho thêm thời gian “suy nghĩ”, điểm số của Claude còn tiếp tục tăng.

Điều này khiến bài kiểm tra viết truyền thống gần như mất tác dụng. Anthropic nhận ra rằng, trong điều kiện phỏng vấn có giới hạn thời gian, họ không còn khả năng phân biệt đâu là ứng viên xuất sắc, đâu là AI mạnh nhất.

Thay vì cấm AI, Anthropic chọn cách đối diện thẳng. Họ công khai toàn bộ bộ đề cũ lên GitHub, coi đó như một thử thách mở cho cộng đồng. Thông điệp rất rõ ràng: nếu ai có thể vượt qua thành tích tốt nhất của Claude Opus 4.5, hãy liên hệ trực tiếp.

Song song đó, Anthropic cũng thừa nhận một sự thật khó nuốt. Trong kỷ nguyên AI, các bài kiểm tra “giống công việc thật” lại chính là thứ dễ bị AI đánh bại nhất, vì mô hình đã được huấn luyện trên vô số tình huống tương tự. Muốn kiểm tra con người, họ buộc phải đi theo hướng ngược lại: tạo ra những bài toán kỳ lạ, ít dữ liệu huấn luyện, thậm chí kém thực tế hơn.

Nói cách khác, “tính hiện thực” trong tuyển dụng kỹ sư đang dần trở thành một thứ xa xỉ.

Câu hỏi lớn mà Anthropic để ngỏ không chỉ dành cho riêng họ, mà cho cả ngành công nghệ:
Khi AI đã làm bài test giỏi hơn con người, chúng ta sẽ đánh giá năng lực kỹ sư bằng cách nào?

Và có lẽ, đây mới chỉ là khởi đầu.
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,534
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back