前言

Qwen2的技术报告我大概花了一上午读完了,但是后面评测介绍评测性能的实验分析相关内容并没有细看,只是大致的给过了一眼,重点关注了前面模型架构以及训练部分的创新。

1.主要内容

Qwen2系列开源模型,主要包括Base Model(只是预训练,没有进行人类偏好对齐的基础模型) 和 针对对话和agent进行单轮和多轮指令微调的指令微调模型,这次发布的稠密模型,主要包括有四个尺寸的模型,分别是0.5B、7B、14B、72B的模型,还有一个57-14BMOE混合专家模型。Qwen2相比前一代模型在数据集质量和规模上都有较大提升,后训练阶段是采用了 监督微调DPO直接偏好对齐

2.细节部分

分词:

bpe分词,该分词器展现出高编码效率,因为bpe分词方法的压缩率更好,所有模型的词表大小都是151646,其中151643是regular token,另外3个token是control token,在实际训练中,因为考虑分布式训练,因此嵌入的有效大小实际上更大。

模型架构:

Qwen2密集模型的架构包括多个Transformer层,每层都配备了因果注意力机制和前馈神经网络(FFN)。与Qwen的主要区别如下:

  • 分组查询注意力:我们采用了分组查询注意力(Grouped Query Attention,GQA,Ainslie等人,2023)而不是传统的多头注意力(multi-head attention,MHA)。GQA在推理期间优化了KV缓存的使用,显著提高了吞吐量。不同模型大小的详细KV头配置在第2.2.3节报告。
  • 双块注意力与YARN:为了扩大Qwen2的上下文窗口,我们实现了双块注意力(Dual Chunk Attention,DCA,An等人,2024),它将长序列分割成可管理的长度块。如果输入可以在一个块中处理,DCA产生与原始注意力相同的结果。否则,DCA有助于在块内和跨块之间有效地捕获相对位置信息,从而提高长上下文性能。此外,我们还采用了YARN(Peng等人,2023)来重新调整注意力权重,以实现更好的长度外推。

我们还沿用了Qwen的使用,包括SwiGLU(Dauphin等人,2017)作为激活函数,旋转位置嵌入(RoPE,Su等人,2024)作为位置嵌入,QKV偏置(Su,2023)用于注意力,RMSNorm(Jiang等人,2023b)和预归一化用于训练稳定性。

MOE混合专家模型

在qwen2中,采用了更多尺寸更小的单个专家,一次性激活的专家数量更多,从而可以提供更多的专家类型,并且将共享专家和特定路由专家整合到MoE层内促进了在各种任务中应用共享专家,又保留了其他专家在特定路由场景中选择性使用。引入共享和专门的专家为开发MoE路由机制提供了一种更适应性和有效的方法。