Mu— 微软推出的小参数语言模型

时间：2025-06-24 | 作者： | 阅读：0

微软推出的小参数语言模型Mu

微软发布了一款名为mu的小型语言模型，其参数量仅为3.3亿，可在npu和边缘设备上高效运行。该模型采用编码器解码器结构，并通过硬件感知优化、模型量化以及任务微调等手段，实现了每秒超过100 tokens的响应速度。mu被集成在windows设置智能体中，能够将自然语言指令实时转换为系统操作，例如调整屏幕亮度、修改鼠标指针大小等。相比phi-3.5-mini，mu的参数量缩小了十倍，但性能表现相当。其技术创新包括双重层归一化、旋转位置嵌入及分组查询注意力等方法，有效提升了训练稳定性与推理效率。

Mu的核心功能

系统设置控制：用户可通过自然语言指令更改系统设置，如“加大鼠标指针”或“调高屏幕亮度”。
低延迟交互：Mu能够在本地设备快速响应指令，响应速度达到每秒100 tokens以上，确保流畅体验。
无缝接入Windows设置：该模型已集成至Windows设置搜索栏，用户可直接输入自然语言命令，系统自动识别并执行相应操作。
广泛支持各类设置：Mu可以处理数百项系统配置，覆盖大多数日常使用场景。

Mu的技术机制

编码器解码器结构：Mu基于编码器-解码器架构，编码器负责将输入文本转化为固定长度的潜在表示，解码器则根据此表示生成输出。
硬件适配优化：针对NPU进行了深度优化，包括模型结构和参数形状的调整，以适应硬件的并行计算能力和内存限制，从而提升运行效率。
模型量化技术：采用后训练量化（PTQ）策略，将浮点数权重和激活值转换为8位或16位整数，显著降低内存占用和计算需求，同时保持模型精度。
Transformer架构改进：
- 双层归一化（Dual LayerNorm）：在每个子层前后分别进行LayerNorm操作，确保激活值分布稳定，增强训练过程的收敛性。
- 旋转位置嵌入（Rotary Positional Embeddings, RoPE）：通过复数域的旋转操作动态生成位置编码，具备良好的长序列外推能力，克服传统绝对位置编码的局限。
- 分组查询注意力（Grouped-Query Attention, GQA）：通过在注意力头之间共享键和值向量，减少参数数量和内存消耗，在保持多样性的同时提高模型效率。
训练策略：使用A100 GPU进行预训练，借助Phi模型进行知识蒸馏，并采用低秩适配（LoRA）对特定任务进行微调，进一步提升模型表现。