Huawei "tuyên chiến" DeepSeek: Tung kỹ thuật huấn luyện AI MoGE, tuyên bố hiệu quả hơn!

Các nhà nghiên cứu phát triển mô hình Pangu của Huawei đã giới thiệu khái niệm "Mixture of Grouped Experts" (MoGE), một phiên bản nâng cấp của kỹ thuật MoE mà DeepSeek đã sử dụng thành công. Huawei khẳng định phương pháp mới giúp cân bằng tải tốt hơn và đạt hiệu suất vượt trội trên các bài kiểm tra benchmark.

9f7442d11f2f0165f6aa84328717e9b8_75.jpg

Huawei nâng tầm cuộc chơi huấn luyện AI với kiến trúc MoGE

Trong một động thái cho thấy sự cạnh tranh ngày càng quyết liệt trên thị trường Trí tuệ Nhân tạo (AI), các nhà nghiên cứu làm việc trên mô hình ngôn ngữ lớn (LLM) Pangu của Huawei vào ngày 4 tháng 6 đã công bố một phương pháp huấn luyện AI mới. Họ tuyên bố đã cải thiện và nâng cấp cách tiếp cận ban đầu của startup AI đang lên DeepSeek, bằng cách tận dụng tối đa sức mạnh của các con chip "cây nhà lá vườn" do chính Huawei phát triển.
Tiến bộ này trong kiến trúc mô hình AI có ý nghĩa rất lớn, đặc biệt trong bối cảnh Huawei và các công ty công nghệ Trung Quốc khác đang nỗ lực tìm cách giảm sự phụ thuộc vào các công nghệ AI và chip xử lý của Hoa Kỳ.

MoGE: Bản nâng cấp của kiến trúc MoE hiệu quả từ DeepSeek

Theo tờ South China Morning Post, một bài báo khoa học vừa được xuất bản bởi nhóm Pangu của Huawei (bao gồm 22 cộng tác viên cốt lõi và 56 nhà nghiên cứu bổ sung) đã giới thiệu một khái niệm mới mang tên Mixture of Grouped Experts (MoGE), có thể tạm dịch là "Hỗn hợp các Nhóm Chuyên gia".

Đây được xem là một phiên bản nâng cấp của kỹ thuật Mixture of Experts (MoE), vốn là công nghệ đóng vai trò quan trọng trong sự thành công của các mô hình AI từ DeepSeek, những mô hình đã được chứng minh là có hiệu quả rất cao về mặt chi phí huấn luyện.

huawei-tuyen-bo-huan-luyen-ai-tot-hon-deepseek-803-7458651_webp_75.jpg

Theo bài báo của nhóm Huawei Pangu, mặc dù kiến trúc MoE mang lại chi phí thực thi thấp cho các mô hình có số lượng tham số lớn và có khả năng học tập nâng cao, nó cũng thường dẫn đến sự thiếu hiệu quả trong quá trình vận hành. Điều này xuất phát từ việc "kích hoạt không đồng đều" các "chuyên gia", dẫn đến tình trạng mất cân bằng tải và làm cản trở hiệu suất chung khi chạy mô hình trên nhiều thiết bị xử lý song song.

Trong khi đó, theo các nhà nghiên cứu của Huawei, kiến trúc MoGE mới của họ đã được cải tiến bằng cách nhóm các "chuyên gia" lại với nhau trong quá trình lựa chọn, từ đó giúp cân bằng tốt hơn khối lượng công việc được phân bổ cho từng "chuyên gia".

Trong lĩnh vực huấn luyện AI, thuật ngữ "chuyên gia" (expert) thường đề cập đến các mô hình con hoặc các thành phần được chuyên biệt hóa bên trong một mô hình AI lớn hơn. Mỗi "chuyên gia" này sẽ được thiết kế để xử lý các tác vụ cụ thể hoặc các loại dữ liệu riêng biệt. Điều này cho phép hệ thống AI tổng thể có thể tận dụng được chuyên môn đa dạng từ nhiều "chuyên gia" khác nhau để nâng cao hiệu suất tổng thể.

Huấn luyện trên 8.192 chip Ascend và kết quả vượt trội

Theo Huawei, quá trình huấn luyện mô hình Pangu mới sử dụng kiến trúc MoGE bao gồm 3 giai đoạn chính: tiền huấn luyện, mở rộng ngữ cảnh dài và hậu huấn luyện. Toàn bộ quá trình này đã bao gồm một giai đoạn tiền huấn luyện trên một bộ dữ liệu khổng lồ lên tới 13.200 tỷ token và giai đoạn mở rộng ngữ cảnh dài được thực hiện bằng cách sử dụng sức mạnh của 8.192 con chip Ascend.

Ascend là dòng bộ xử lý AI mạnh nhất do chính Huawei phát triển, được sử dụng trong các tác vụ đào tạo các mô hình AI phức tạp và là "vũ khí" chính của Huawei trong mục tiêu thách thức sự thống trị của Nvidia trong lĩnh vực thiết kế chip AI cao cấp.

untitled-design-1-1_jpg_75.jpg

Nhờ việc thử nghiệm kiến trúc MoGE mới trên các bộ xử lý thần kinh (NPU) Ascend, vốn được thiết kế đặc biệt để tăng tốc các tác vụ AI, các nhà nghiên cứu của Huawei đã nhận thấy rằng MoGE "dẫn đến sự cân bằng tải cho các 'chuyên gia' tốt hơn và thực hiện hiệu quả hơn cho cả quá trình huấn luyện và suy luận của mô hình".

Kết quả là, khi so sánh với các mô hình AI hàng đầu khác như DeepSeek-V3, Qwen2.5-72B của Alibaba và Llama-405B của Meta Platforms, mô hình Pangu mới của Huawei đã đạt được hiệu suất vượt trội trên hầu hết các bài kiểm tra điểm chuẩn (benchmark) bằng tiếng Anh nói chung và trên tất cả các bài kiểm tra điểm chuẩn bằng tiếng Trung. Nó cũng cho thấy hiệu quả cao hơn trong các tác vụ huấn luyện với ngữ cảnh dài.

Sự tự tin của Huawei vào công nghệ mới của mình là một lời khẳng định mạnh mẽ về năng lực R&D và quyết tâm vươn lên trong cuộc đua AI toàn cầu, một cuộc đua không chỉ về sức mạnh của các mô hình mà còn cả về sự tối ưu trong kiến trúc và hiệu quả của phần cứng.
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,535
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back