DeepSeek mở nguồn ba dự án liên tiếp để chứng minh hiệu quả đào tạo mô hình AI

Phạm Thanh Bình
Phạm Thanh Bình
Phản hồi: 0
DeepSeek đang tổ chức "Tuần lễ nguồn mở" kéo dài 5 ngày từ 24/2 đến 28/2, trong đó họ lần lượt mở mã nguồn 5 dự án công nghệ AI. Ba ngày đầu tiên, công ty đã công bố ba dự án quan trọng, giúp giải thích cách họ đạt được hiệu quả cao trong đào tạo mô hình ngôn ngữ lớn với chi phí thấp hơn đáng kể so với các đối thủ.

1740621992129.png

Ba dự án mã nguồn mở đầu tiên​


Ngày 1: FlashMLA​


Đây là một lõi giải mã MLA (Multi-head Latent Attention) hiệu quả cho GPU kiến trúc NVIDIA Hopper, được tối ưu hóa cho các chuỗi có độ dài thay đổi. Trên nền tảng H800 SXM5, nó có thể đạt tới 3.000 GB/s nếu bộ nhớ bị hạn chế và lên đến 580 TFLOPS nếu điện toán bị hạn chế. FlashMLA giúp giảm độ trễ và tăng thông lượng khi suy luận, đặc biệt hiệu quả cho các ứng dụng như chatbot, dịch thuật và trợ lý giọng nói.


Ngày 2: DeepEP​


Đây là thư viện truyền thông EP (Expert Parallel) mã nguồn mở đầu tiên dành cho đào tạo và suy luận mô hình MoE (Mixture of Experts). DeepEP giúp tối ưu hóa giao tiếp giữa các GPU khi làm việc với các mô hình MoE, đảm bảo dữ liệu được chuyển nhanh chóng và hiệu quả giữa các "chuyên gia" (mô hình con chuyên biệt). Giống như một trình quản lý giao thông thông minh, DeepEP gửi dữ liệu đến đúng chuyên gia vào đúng thời điểm, tránh độ trễ và cải thiện hiệu suất.


Ngày 3: DeepGEMM​


Đây là thư viện tính toán FP8 hỗ trợ các mô hình dày đặc và MoE, cung cấp hỗ trợ mạnh mẽ cho đào tạo và suy luận. DeepGEMM có những đặc điểm nổi bật sau:


  • Tập trung vào Phép nhân ma trận tổng quát (GEMM) hiệu quả với FP8
  • Không phụ thuộc nặng, ngắn gọn như hướng dẫn
  • JIT (biên soạn đúng lúc) đầy đủ
  • Logic cốt lõi chỉ khoảng 300 dòng mã
  • Hiệu suất vượt trội hơn 2.7 lần so với CUTLASS 3.6 của NVIDIA
  • Giải quyết vấn đề độ chính xác của FP8 bằng phương pháp tích lũy hai giai đoạn

Phản ứng và ý nghĩa​


Các dự án mã nguồn mở này đã nhanh chóng nhận được sự chú ý tích cực. Chỉ trong vòng chưa đầy 10 giờ sau khi đăng trên GitHub, DeepGEMM đã nhận được 2.600 sao, một thành công đáng kể cho một dự án mã nguồn mở.


Các dự án này cũng đã giúp DeepSeek giải quyết những hoài nghi về tuyên bố trước đó của họ về chi phí đào tạo. Trong một báo cáo kỹ thuật vào tháng 12 năm ngoái, DeepSeek đã công bố rằng mô hình V3 của họ được đào tạo trên khoảng 2.000 chiếc NVIDIA H800 với chi phí khoảng 6 triệu USD - con số thấp hơn nhiều so với các đối thủ lớn hơn. Điều này đã dẫn đến những hoài nghi từ nhiều người, bao gồm Dario Amodei (người sáng lập Anthropic) và Palmer Luckey (người sáng lập Oculus VR), với những cáo buộc rằng DeepSeek đã không trung thực về chi phí phát triển.


Tuần lễ mã nguồn mở có thể được xem như cách DeepSeek "bám vào mặt và cởi mở" để chứng minh cách họ đạt được hiệu quả cao trong đào tạo mô hình: thông qua tối ưu hóa phần cứng triệt để và các đổi mới trong kiến trúc mô hình như MoE và MLA.


Tác động đến ngành công nghiệp​


Động thái này của DeepSeek đang tạo áp lực lên các đối thủ cạnh tranh như OpenAI, công ty đã chuyển từ mã nguồn mở sang mã nguồn đóng trong những năm gần đây. Sam Altman, CEO của OpenAI, gần đây đã tổ chức một cuộc thăm dò ý kiến hỏi người hâm mộ loại dự án mã nguồn mở nào họ muốn thấy từ OpenAI, cho thấy dấu hiệu của sự thay đổi có thể có.


Trong khi đó, xAI của Elon Musk vẫn duy trì cam kết mã nguồn mở, vừa phát hành Grok 3 và thông báo sẽ mở mã nguồn Grok 2.


Một số người cũng lo ngại về tác động của những dự án mã nguồn mở này đối với NVIDIA, một trong những công ty hưởng lợi lớn nhất từ làn sóng AI. Những công cụ như DeepGEMM có thể thay đổi cách các công ty tận dụng phần cứng NVIDIA, có khả năng ảnh hưởng đến mô hình kinh doanh của họ.


Tuần lễ nguồn mở của DeepSeek không chỉ giúp minh chứng cho phương pháp tiếp cận AI hiệu quả về chi phí của họ mà còn đóng góp vào sự phát triển của cộng đồng AI nói chung, thúc đẩy tiến trình phát triển AI vì lợi ích của nhân loại.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

  • 99
  • 0
LG Electronics Việt Nam vừa giới thiệu MV “Nếp Nhà” với sự kết hợp của ca sĩ Hòa Minzy, rapper Obito và nhạc sĩ Hứa Kim Tuyền. Đây là món quà âm...

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

  • 206
  • 0
Cổ phiếu VIC của Tập đoàn Vingroup tiếp tục tăng mạnh trong phiên ngày 8-5, góp phần nâng quy mô tài sản ròng của ông Phạm Nhật Vượng vượt 9 tỉ...

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

  • 248
  • 1
Mô hình Gemini 2.5 Flash có thể tóm tắt nội dung video dài trên YouTube, giúp người dùng tiết kiệm thời gian và nắm bắt thông tin nhanh chóng...

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

  • 181
  • 0
Năm 2025 được ca ngợi là "năm bùng nổ sạc siêu nhanh" đối với xe điện. Mặc dù sự tiến bộ nhanh chóng của công nghệ sạc nhanh và sạc siêu nhanh đã...

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

  • 236
  • 0
Phục hồi ảnh cũ bằng AI miễn phí là giải pháp lý tưởng cho những ai muốn tái hiện lại hình ảnh xưa mà không cần biết quá nhiều về Photoshop hay kỹ...

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

  • 134
  • 0
Samsung vừa thông báo rằng dòng TV QLED mới nhất của hãng đã nhận được chứng nhận ‘Màn hình Chấm lượng tử Đích thực’ (Real Quantum Dot Display) từ...

Sếp Apple dự đoán "ngày tàn" của iPhone chỉ trong 10 năm tới: Lý do từ kẻ mà "ai cũng biết là ai"

  • 1,237
  • 0
Phó chủ tịch cấp cao phụ trách mảng dịch vụ của Apple, ông Eddy Cue, vừa đưa ra một nhận định gây sửng sốt về tương lai của chính sản phẩm chủ lực...

"Cú lừa" của Apple và Samsung về dung lượng lưu trữ điện thoại

  • 287
  • 0
Chi phí tăng đáng kể khi nâng cấp bộ nhớ được cho là chiến lược tối đa hóa lợi nhuận của các hãng smartphone, đặc biệt ở phân khúc cao cấp...

Hãng xe lớn nhất thế giới bay mất 1,3 tỷ USD lợi nhuận chỉ trong 2 tháng vì thuế Mỹ

  • 212
  • 0
Một năm trước, hãng sản xuất ô tô lớn nhất thế giới Toyota đã có một năm thành công rực rỡ. Người tiêu dùng Mỹ đã mua xe hybrid của Toyota và đồng...

Thị trường Nhật Bản "nín thở" chờ BYD công phá hàng rào bảo vệ các hãng xe nội địa

  • 167
  • 0
Thị trường xe siêu nhỏ (kei car) là một rào cản phi thuế quan lớn, bảo vệ ngành ô tô Nhật Bản trước các nhà sản xuất nước ngoài. Xe siêu nhỏ chiếm...
Back
Top