Khi AI bắt đầu làm việc như một đội nhóm

Hoàng Nam

Writer
Anthropic vừa công bố kết quả thí nghiệm đáng chú ý: Claude hoàn thành một trình chỉnh sửa game cổ điển hoàn chỉnh trong 6 giờ với chi phí 200 USD, không cần lập trình viên, nhà thiết kế hay quản lý sản phẩm nào tham gia.

Trước đây, AI giống một thực tập sinh tài năng, bắt đầu nhanh nhưng càng về sau càng rối. Ngữ cảnh bị mất dần, lỗi không được sửa và hệ thống thường tự đánh giá mình đã "xong" quá sớm. Anthropic gọi đây là "suy giảm theo ngữ cảnh", và phát hiện rằng mở rộng cửa sổ ngữ cảnh không giải quyết được vấn đề mà đôi khi còn làm mọi thứ rối hơn.

Thử nghiệm đối chứng cho thấy rõ: phiên bản AI đơn lẻ tạo ra sản phẩm trong 20 phút với giá 9 USD, nhưng các tương tác không hoạt động, gameplay bị lỗi hoàn toàn.

Giải pháp mới: Chia AI thành một đội​

Thay vì dùng một AI duy nhất, Anthropic tổ chức ba vai trò riêng biệt. Người lập kế hoạch (Planner) tiếp nhận yêu cầu mơ hồ, mở rộng thành bản đặc tả chi tiết. Người tạo mã (Generator) viết code và xây dựng sản phẩm từng bước. Người đánh giá (Evaluator) kiểm thử, tìm lỗi và trả sản phẩm về để sửa, không chấp nhận kết quả cho đến khi đạt yêu cầu.
1774945611742.png

1774945619557.png

1774945627142.png

1774945636071.png

1774945642418.png

Điểm mấu chốt là tách biệt người làm và người chấm. Khi AI tự chấm bài mình, nó dễ bỏ qua lỗi. Khi có một AI khác độc lập kiểm tra, những vấn đề tưởng nhỏ trở nên không thể bỏ qua.

Kết quả: Phiên bản ba AI hoàn thành 27 tiêu chí chấp nhận, xử lý được các lỗi kỹ thuật thực sự như sự kiện không kích hoạt, định tuyến sai, tham số phân tích lỗi. Một thử nghiệm khác tạo ra phần mềm DAW chạy trên trình duyệt trong chưa đầy 4 giờ với giá 124 USD, tích hợp cả trợ lý AI hiểu lệnh âm nhạc bằng ngôn ngữ tự nhiên.

Điều thực sự thay đổi​

Đây không đơn thuần là AI viết code nhanh hơn. Đây là lần đầu tiên AI vận hành như một tổ chức sản phẩm thực thụ, với phân công lao động rõ ràng và vòng phản hồi khép kín. Sản phẩm chưa hoàn thành cho đến khi vượt qua kiểm tra, giống hệt quy trình phát triển phần mềm chuyên nghiệp. Trong bối cảnh đó, kỹ năng khan hiếm sắp tới có thể không phải là lập trình, mà là khả năng đánh giá: biết một sản phẩm tốt trông như thế nào, và đặt ra tiêu chuẩn đủ cao để buộc AI phải đạt tới.
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,535
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back