DeepSeek代码开源第一弹Flash MLA,揭秘大模子练习低
发表时间:2025年02月26日浏览量:
【TechWeb】2月24日新闻,跟着DeepSeek年夜模子开源激发寰球高潮后,2月21日DeepSeek在交际平台X发文称,这周起会连续开源5个代码库。明天DeepSeek开源首个代码库Flash MLA,激发极年夜存眷,停止现在github Star星数曾经超越4.5k。Flash MLA是DeepSeek针对英伟达Hopper GPU优化的高效MLA解码内核,其特殊针对可变长度序列作了优化,现已投入出产。FlashMLA的应用基准为:Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本。经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限设置下可达最高3000GB/s,在盘算受限设置下可达峰值580 TFLOPS。这种优化能够确保FlashMLA在高机能硬件上无效地处置年夜言语模子跟其余AI利用顺序的麋集盘算需要。现在曾经宣布的内容包含:采取BF16,块巨细为64的分页kvcache(键值缓存)。团队在申谢局部表现,FlashMLA的计划参考了FlashAttention 2 3以及CUTLASS的技巧实现。材料表现,FlashAttention 是一种针对Transformer模子留神力盘算的高效优化算法,由斯坦福团队于2022年提出,中心目的是经由过程硬件感知的内存治理跟盘算流程重构,明显下降长序列处置时的显存占用与盘算耽误。CUTLASS(CUDA Templates for Linear Algebra Subroutines)是NVIDIA推出的开源高机能盘算库,专为GPU减速的线性代数盘算(尤其是矩阵乘法跟卷积)计划。其中心目的是经由过程模块化模板跟硬件级优化,为开辟者供给机动、高效的底层盘算内核,支持AI练习、迷信盘算与图形衬着等范畴。依据DeepSeek过往提交的论文,DeepSeek年夜模子练习本钱年夜幅降落有两项要害技巧,一是MoE,另一个就是明天开源的MLA(多头潜留神力)。DeepSeek的本钱波及两项要害的技巧:一个是MoE,一个就是MLA(Multi-head Latent Attention,多头潜留神力)。MLA旨在优化传统Transformer架构的效力与机能,其中心道理包含:KV紧缩与潜伏变量:将键(Key)跟值(Value)结合紧缩为低维潜伏向量,明显增加推理时的KV缓存,下降内存占用。盘算时经由过程升维规复原始信息,均衡紧缩效力与盘算精度。低秩降维技巧:对查问(Queries)停止低秩紧缩(降维后再升维),增加练习中的激活内存(activation memory),但需留神此操纵不影响KV缓存。静态序列处置:针对可变长度输入序列优化,支撑高效处置差别长度的句子(如长文本对话场景)。MLA可将每个查问KV缓存量增加93.3%,明显增加了年夜模子练习跟推理进程中的内存占用明天开源的MLA是DeepSeek在留神力机制上的主要翻新,经由过程KV紧缩、低秩降维等技巧实现高效长序列处置与资本优化,成为其模子机能当先的要害技巧之一。本周后续,DeepSeek还将连续开源4个代码库,等待一下!(宜月)