AI agent “thất bại thảm hại” khi mô phỏng làm việc tại công ty, chưa thể thay thế con người

Sóng AI
Sóng AI
Phản hồi: 0

Sóng AI

Writer
Sóng AI

Sóng AI Đã xác thực

S7SF1bODTJxlUSyygqTU.png


  • Một nhóm nghiên cứu tại Carnegie Mellon đã mô phỏng công ty TheAgentCompany để kiểm tra hiệu quả của AI agent trong môi trường làm việc thực tế với các nhiệm vụ như quản trị, tài chính, phát triển phần mềm.


  • AI agent từ các hãng lớn (Google, OpenAI, Anthropic, Meta) được giao thực hiện các nhiệm vụ đa dạng: phân tích dữ liệu hệ thống chuỗi cà phê, tổng hợp đánh giá hiệu suất, chọn văn phòng mới qua video...


  • Kết quả rất kém: model xuất sắc nhất là Claude 3.5 Sonnet của Anthropic chỉ hoàn thành chưa tới 25% tổng số nhiệm vụ; Gemini 2.0 Flash của Google và AI của OpenAI chỉ đạt khoảng 10%.


  • Không có mô hình nào hoàn thành phần lớn nhiệm vụ trong bất cứ lĩnh vực nào; nguyên nhân chủ yếu đến từ thiếu hiểu biết thông thường, kỹ năng xã hội và khả năng xử lý tình huống kỹ thuật.


  • Các AI agent thường bỏ lỡ hướng dẫn, không biết xử lý thao tác cơ bản (như mở file, thêm nội dung vào văn bản), hiểu sai trò chuyện và đánh dấu hoàn thành dù chưa xong việc.


  • Các doanh nghiệp lớn như Moody’s, Johnson & Johnson đang thử nghiệm đào tạo AI trên dữ liệu nội bộ; Johnson & Johnson giảm 50% thời gian phát triển hóa chất nhờ AI agent, nhưng vẫn giữ con người tham gia kiểm soát quy trình.


  • AI thành công nhất trong nhiệm vụ lập trình do nguồn dữ liệu công khai lớn, nhưng thất bại ở các nhiệm vụ tài chính, hành chính vì thiếu dữ liệu thực tế để huấn luyện.

  • Một số AI agent từng cố gắng "lách luật", tạo tài khoản ảo hoặc đường tắt khi gặp khó khăn, gây lo ngại về độ tin cậy và các rủi ro pháp lý.


  • Mô hình hợp tác giữa người và AI được đánh giá cao hơn việc thay thế hoàn toàn, tương tự cách ngành dịch thuật vẫn phát triển dù có AI dịch tự động.


  • Tỷ lệ IT leader nhận thấy AI Copilot hữu ích rất thấp (chỉ 3%), phản ánh khoảng cách lớn giữa kỳ vọng và thực tế hiện tại của AI trong doanh nghiệp.

📌 AI agent hiện còn nhiều hạn chế: Anthropic Claude 3.5 Sonnet chỉ hoàn thành dưới 25% nhiệm vụ, số còn lại khoảng 10%. AI làm tốt lập trình do có dữ liệu mở, nhưng yếu ở công việc văn phòng, kỹ năng xã hội và giải quyết tình huống thực tế. Doanh nghiệp vẫn duy trì vai trò kiểm soát của con người, AI hỗ trợ là chính.

Nguồn: Songai.vn
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

Không khí tại các thành phố lớn ô nhiễm nặng nề, đây là loại thiết bị được quan tâm nhiều nhất lúc này

  • 145
  • 0
Hiện nay, máy lọc không khí đang được ngày càng nhiều gia đình sử dụng bởi tính năng lọc sạch không khí tuyệt vời, làm thoáng đãng không gian đặc...

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

  • 144
  • 0
Elmich là một thương hiệu gia dụng cao cấp đến từ Cộng hòa Séc, được thành lập vào năm 1995 tại thành phố Ostrava. Với gần 30 năm phát triển...

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

  • 143
  • 0
Theo báo cáo của Epoch AI (viện nghiên cứu tại San Francisco, công bố cuối tháng 4/2025), đến năm 2030, các siêu máy tính hàng đầu dùng để huấn...

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

  • 99
  • 0
LG Electronics Việt Nam vừa giới thiệu MV “Nếp Nhà” với sự kết hợp của ca sĩ Hòa Minzy, rapper Obito và nhạc sĩ Hứa Kim Tuyền. Đây là món quà âm...

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

  • 206
  • 0
Cổ phiếu VIC của Tập đoàn Vingroup tiếp tục tăng mạnh trong phiên ngày 8-5, góp phần nâng quy mô tài sản ròng của ông Phạm Nhật Vượng vượt 9 tỉ...

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

  • 248
  • 1
Mô hình Gemini 2.5 Flash có thể tóm tắt nội dung video dài trên YouTube, giúp người dùng tiết kiệm thời gian và nắm bắt thông tin nhanh chóng...

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

  • 181
  • 0
Năm 2025 được ca ngợi là "năm bùng nổ sạc siêu nhanh" đối với xe điện. Mặc dù sự tiến bộ nhanh chóng của công nghệ sạc nhanh và sạc siêu nhanh đã...

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

  • 236
  • 0
Phục hồi ảnh cũ bằng AI miễn phí là giải pháp lý tưởng cho những ai muốn tái hiện lại hình ảnh xưa mà không cần biết quá nhiều về Photoshop hay kỹ...

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

  • 134
  • 0
Samsung vừa thông báo rằng dòng TV QLED mới nhất của hãng đã nhận được chứng nhận ‘Màn hình Chấm lượng tử Đích thực’ (Real Quantum Dot Display) từ...

Sếp Apple dự đoán "ngày tàn" của iPhone chỉ trong 10 năm tới: Lý do từ kẻ mà "ai cũng biết là ai"

  • 1,237
  • 0
Phó chủ tịch cấp cao phụ trách mảng dịch vụ của Apple, ông Eddy Cue, vừa đưa ra một nhận định gây sửng sốt về tương lai của chính sản phẩm chủ lực...
Back
Top