Liệu AI có thể hiểu bản vẽ kỹ thuật, đọc biểu đồ, xem video và còn “hành động” thay con người trong doanh nghiệp không?
1763005306712.png

Khi Baidu đưa AI vượt khỏi giới hạn “đọc chữ”​

Một bước ngoặt thú vị trong cuộc đua AI: Baidu vừa công bố mô hình ERNIE 4.5-VL-28B-A3B-Thinking, phiên bản AI đa phương thức có khả năng phân tích hình ảnh, video, biểu đồ và dữ liệu kỹ thuật những loại thông tin mà các mô hình như GPT hay Gemini vốn ít chú ý tới.

Điều đáng nói, ERNIE không chỉ mạnh hơn mà còn nhẹ hơn. Thay vì vận hành hàng chục tỷ tham số như các đối thủ, nó chỉ kích hoạt khoảng 3 tỷ tham số, giúp tiết kiệm chi phí xử lý một rào cản lớn khi doanh nghiệp muốn mở rộng AI quy mô lớn. Baidu gọi đây là hướng đi “hiệu quả để phổ cập AI trong thực tế”.

Với cấu trúc này, ERNIE không chỉ dừng ở việc “hiểu” hình ảnh mà có thể suy luận và hành động, hướng đến mô hình “tác nhân đa phương thức” thứ mà nhiều hãng công nghệ lớn vẫn đang tìm cách đạt tới.

Khi AI bắt đầu “hiểu” thế giới thực​

Điều khiến giới kỹ thuật chú ý là khả năng xử lý dữ liệu phi văn bản của ERNIE.
Ví dụ, nó có thể xem biểu đồ “Giờ cao điểm” để gợi ý thời gian khám bệnh tối ưu, hay đọc sơ đồ mạch điện và áp dụng định luật Ohm hoặc Kirchhoff để kiểm tra thiết kế.

Kết quả thử nghiệm cho thấy ERNIE vượt cả GPT và Gemini ở nhiều bài đánh giá:
  • MathVista: ERNIE 82,5 điểm (so với Gemini 82,3 và GPT 81,3)
  • ChartQA: ERNIE 87,1 điểm (so với Gemini 76,3 và GPT 78,2)
  • VLM Blind Test: ERNIE 77,3 điểm (so với Gemini 76,5 và GPT 69,6)
Dù các bài benchmark không nói lên toàn bộ năng lực, nhưng khoảng cách nhỏ này lại thể hiện sự ổn định và khả năng xử lý thông tin trực quan vượt trội điều mà các mô hình ngôn ngữ đơn thuần khó đạt được.

Khi AI không chỉ “nhìn thấy” mà còn biết “làm gì tiếp theo”​

Phần hấp dẫn nhất nằm ở khả năng tự động hóa trực quan.
ERNIE có thể được yêu cầu xác định tất cả người mặc vest trong ảnh và xuất ra tọa độ JSON, giúp hệ thống nhà máy kiểm tra hình ảnh, hoặc AI an toàn lao động phát hiện lỗi trên công trường.

Không dừng lại ở đó, mô hình có thể phóng to ảnh để đọc chữ nhỏ, tự tìm kiếm hình ảnh khi gặp vật thể lạ, hoặc đề xuất cách sửa lỗi kỹ thuật. Đây là dạng AI “chủ động” không chỉ phát hiện vấn đề mà còn gợi ý hành động.

Baidu còn hướng khả năng này đến kho dữ liệu video doanh nghiệp: từ buổi đào tạo, hội nghị, đến camera an ninh. ERNIE có thể trích xuất phụ đề, đánh dấu thời gian, và tìm ra cảnh quay cụ thể, như “những cảnh quay trên cầu”. Điều này mở ra khả năng tạo thư viện video có thể tìm kiếm, giúp nhân viên nhanh chóng tra cứu nội dung trong hàng giờ thảo luận.

Khi AI trở thành công cụ doanh nghiệp thực thụ​

Dù có tiềm năng lớn, ERNIE vẫn đòi hỏi phần cứng mạnh mẽ một GPU đơn đã cần tới 80GB bộ nhớ. Vì vậy, đây không phải công cụ cho việc thử nghiệm cá nhân, mà hướng tới các tổ chức đã có hạ tầng AI sẵn sàng.

Baidu cung cấp ERNIEKit cho phép tinh chỉnh dữ liệu riêng, cùng giấy phép Apache 2.0 mở cho thương mại. Nghĩa là các doanh nghiệp có thể huấn luyện mô hình trên dữ liệu của mình mà vẫn đảm bảo quyền sở hữu.

Cuộc đua AI đang chuyển hướng rõ rệt: từ ngôn ngữ sang hành động, từ hiểu văn bản sang hiểu thế giới thực qua hình ảnh, video và tín hiệu vật lý. Với ERNIE, Baidu không chỉ muốn tạo ra AI biết “trả lời”, mà là AI biết suy nghĩ và ra tay hành động.

Và câu hỏi còn lại:
Nếu một AI có thể nhìn, hiểu và hành động nó sẽ thay đổi công việc của chúng ta như thế nào? (artificialintelligence)
Đọc chi tiết tại đây: https://www.artificialintelligence-...rnie-multimodal-ai-gpt-and-gemini-benchmarks/
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,534
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back