Khi doanh nghiệp bắt đầu dùng nhiều AI làm việc cùng nhau, chi phí và hiệu quả tự động hóa sẽ thay đổi ra sao?
1773372049387.png

Khi AI không còn là một chatbot​

Trong vài năm qua, nhiều doanh nghiệp quen với việc dùng AI như một chatbot để hỗ trợ công việc. Nhưng xu hướng mới đang đi xa hơn rất nhiều.

Thay vì một AI duy nhất trả lời câu hỏi, các hệ thống mới bắt đầu dùng nhiều AI cùng làm việc với nhau, mỗi AI đảm nhiệm một nhiệm vụ riêng trong một quy trình lớn. Người ta gọi đó là hệ thống AI đa tác nhân.

Ý tưởng nghe rất hấp dẫn. Một AI viết mã, một AI kiểm tra lỗi, một AI đọc tài liệu, một AI tổng hợp kết quả. Tất cả phối hợp như một nhóm nhân viên kỹ thuật số.

Nhưng khi doanh nghiệp bắt đầu triển khai thật, một vấn đề lớn xuất hiện. Không phải công nghệ, mà là bài toán kinh tế của AI.

Các tổ chức đang chuyển từ chatbot đơn giản sang hệ thống đa tác nhân thường gặp hai khó khăn chính.

Thứ nhất là gánh nặng suy luận.

Những tác nhân AI phức tạp cần phải suy nghĩ ở từng bước trong quy trình. Nếu mỗi nhiệm vụ nhỏ đều dùng một mô hình khổng lồ thì chi phí tính toán tăng rất nhanh, khiến hệ thống trở nên chậm và tốn kém khi triển khai ở quy mô doanh nghiệp.

Vấn đề thứ hai còn lớn hơn, đó là bùng nổ ngữ cảnh.

Trong các quy trình nhiều bước, mỗi lần AI trao đổi với nhau thường phải gửi lại toàn bộ lịch sử trước đó, bao gồm trạng thái hệ thống, suy luận trung gian và kết quả của công cụ. Điều này khiến lượng token tăng mạnh, có thể cao hơn tới 1.500% so với các hệ thống AI thông thường.

Khi token tăng quá nhiều, hai hệ quả xảy ra cùng lúc. Chi phí vận hành tăng lên và AI có nguy cơ lệch mục tiêu, tức là dần dần đi chệch khỏi nhiệm vụ ban đầu trong những quy trình dài.

Vì vậy, bài toán của doanh nghiệp không chỉ là xây AI mạnh hơn, mà là xây AI hiệu quả về kinh tế.

Kiến trúc AI mới để giải bài toán chi phí​

Để giải quyết vấn đề này, các hãng công nghệ đang phát triển những kiến trúc AI được tối ưu riêng cho hệ thống đa tác nhân.

Một ví dụ đáng chú ý là mô hình NVIDIA Nemotron 3 Super, kiến trúc mở với 120 tỷ tham số, trong đó chỉ 12 tỷ tham số được kích hoạt khi suy luận.

Mô hình này được thiết kế theo kiến trúc Mixture of Experts, nghĩa là nhiều “chuyên gia AI” khác nhau nhưng chỉ một số được kích hoạt khi cần thiết. Cách làm này giúp tiết kiệm tài nguyên nhưng vẫn giữ được khả năng suy luận mạnh.

Hệ thống còn kết hợp nhiều cải tiến khác:
  • Các lớp Mamba giúp tăng hiệu quả bộ nhớ và tính toán gấp bốn lần
  • Các lớp Transformer xử lý các nhiệm vụ suy luận phức tạp
  • Kỹ thuật ẩn cho phép huy động bốn chuyên gia với chi phí của một
  • Cơ chế dự đoán nhiều từ cùng lúc giúp tăng tốc suy luận gấp ba lần
Toàn bộ kiến trúc chạy trên nền tảng NVIDIA Blackwell với độ chính xác NVFP4, giúp suy luận nhanh hơn khoảng bốn lần so với cấu hình FP8 trên thế hệ NVIDIA Hopper mà vẫn giữ độ chính xác.

Kết quả là thông lượng tăng khoảng 5 lần, độ chính xác tăng gấp đôi so với thế hệ trước.

Khi AI có thể đọc cả “núi dữ liệu”​

Một điểm đáng chú ý khác là mô hình này có cửa sổ ngữ cảnh tới 1 triệu token.

Điều đó cho phép các tác nhân AI giữ toàn bộ trạng thái quy trình trong bộ nhớ thay vì phải liên tục gửi lại lịch sử.

Ví dụ trong phát triển phần mềm, một tác nhân có thể nạp toàn bộ codebase của dự án vào ngữ cảnh, sau đó vừa viết mã vừa sửa lỗi xuyên suốt dự án.

Trong phân tích tài chính, AI có thể đọc hàng nghìn trang báo cáo cùng lúc thay vì phải chia nhỏ rồi tổng hợp qua nhiều vòng hội thoại.

Khả năng gọi công cụ với độ chính xác cao cũng giúp AI sử dụng các thư viện chức năng lớn một cách ổn định, điều rất quan trọng trong những môi trường rủi ro cao như điều phối an ninh mạng tự động.

Nhiều công ty công nghệ lớn đã bắt đầu thử nghiệm và tùy chỉnh kiến trúc này trong các lĩnh vực khác nhau.

Trong số đó có:
  • Amdocs
  • Palantir
  • Cadence Design Systems
  • Dassault Systèmes
  • Siemens
Các nền tảng phát triển phần mềm như CodeRabbit, Factory và Greptile cũng đang tích hợp mô hình này để tăng độ chính xác của AI nhưng giảm chi phí vận hành.

Trong lĩnh vực khoa học sự sống, các công ty như Edison Scientific và Lila Sciences dùng nó để hỗ trợ AI tìm kiếm tài liệu khoa học, phân tích dữ liệu và nghiên cứu phân tử.

Cuối cùng, điều quan trọng nhất mà bài viết nhấn mạnh là điều này.

Nếu doanh nghiệp muốn xây dựng hệ thống AI đa tác nhân, họ phải giải bài toán kinh tế ngay từ kiến trúc.

Hai yếu tố cần được kiểm soát sớm là:
  • bùng nổ ngữ cảnh
  • gánh nặng suy luận
Nếu không quản lý tốt, hệ thống AI có thể trở nên quá tốn kém hoặc đi lệch khỏi mục tiêu ban đầu của tổ chức.

Ngược lại, khi được thiết kế đúng cách, những hệ thống AI phức tạp này có thể mang lại hiệu quả dài hạn và giúp tự động hóa lan rộng trong toàn bộ doanh nghiệp.

Một câu hỏi thú vị để nghĩ tiếp.

Khi AI bắt đầu làm việc theo nhóm giống như con người, liệu doanh nghiệp trong tương lai sẽ phải quản lý nhân sự AI giống như quản lý một đội ngũ nhân viên hay không, và điều đó sẽ thay đổi cách vận hành doanh nghiệp ở Việt Nam ra sao? (artificialintelligence)
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,535
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back