Deepseek vừa chia sẻ trên X như sau:
🚀 Giới thiệu NSA: Cơ chế Sparse Attention được liên kết với phần cứng và có thể đào tạo gốc để đào tạo & suy luận ngữ cảnh dài cực nhanh!
Các thành phần cốt lõi của NSA:
• Chiến lược thưa thớt phân cấp động
• Nén mã thông báo thô
• Lựa chọn mã thông báo chi...