大模型 / 机器学习 · 2025年6月10日 0

大模型体系有哪些

目前主流的开源模型体系有哪些 — 大模型体系

Prefix Decoder系

Prefix Decoder,也称为非因果解码器,是Encoder-Decoder架构的一种变体。它在处理输入序列时采用双向注意力机制,以充分理解全局上下文;而在生成输出序列时,则采用单向注意力机制,保证生成的连贯性。

• 核心特点:
◦ 输入双向注意力: 模型在生成文本时,可以同时参考上下文中的前文和后文信息,从而更好地理解语境。
◦ 输出单向注意力: 在生成下一个词时,模型仅关注已经生成的文本部分,这有助于保证生成的文本具有连贯性。
• 代表模型及特点:
◦ ChatGLM、ChatGLM2: 由清华大学开发,在中文对话方面表现出色,尤其擅长多轮对话和复杂任务。
◦ U-PalM: 强调通用性,可以在多种任务上取得较好的效果。
• 优势:
◦ 能够更好地捕捉上下文信息,生成更符合人类语言习惯的文本。
◦ 在对话、生成等任务上表现出色。

Causal Decoder系

Causal Decoder,即因果解码器,是一种自回归模型,广泛应用于文本生成任务中。其核心特点在于生成文本时,每个token(词或字符)的生成仅依赖于它之前的token,而无法利用未来的token信息。这种机制确保了生成的文本在时序上保持连贯性。

• 核心特点:
◦ 从左到右的单向注意力: 模型在生成文本时,只能参考已经生成的文本部分,这使得模型在生成过程中具有很强的自回归性。
• 代表模型及特点:
◦ LLaMA-7B: 由Meta AI发布,在参数量较小的情况下表现出强大的性能,是许多后续模型的基础。
◦ LLaMa衍生物: 许多研究者基于LLaMA进行了改进和优化,产生了众多衍生模型。
• 优势:
◦ 生成文本具有很强的连贯性,适合用于文本生成任务。
◦ 模型结构相对简单,易于训练和部署。

Encoder-Decoder系

Encoder-Decoder框架有一个最显著的特征就是它是一个End-to-End学习的算法;本文将以文本-文本的例子作为介绍,这样的模型往往用在机器翻译中,比如将法语翻译成英语。这样的模型也被叫做 Sequence to Sequence learning[1]。所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列。

• 核心特点:
◦ 输入双向注意力,输出单向注意力: 与Prefix Decoder类似,但Encoder-Decoder通常在编码阶段对整个输入序列进行编码,从而获得更好的全局表示。
• 代表模型及特点:
◦ T5: 谷歌提出的文本到文本转换模型,可以处理多种自然语言处理任务。
◦ Flan-T5: T5的改进版本,在指令跟随方面表现出色。
◦ BART: Bidirectional and Auto-Regressive Transformer,兼具双向和自回归的特性,可以用于多种生成任务。
• 优势:
◦ 能够更好地处理序列到序列的任务,如机器翻译、文本摘要等。
◦ 在处理长文本时具有优势。

其他值得关注的大模型体系

除了上述三大体系,还有以下一些值得关注的模型体系
• 纯Decoder系: 与Causal Decoder类似,但通常采用更复杂的注意力机制或训练目标。
• 基于Transformer-XL的模型: 通过引入段落级别的循环机制,提高模型对长序列的建模能力。
• 基于稀疏注意力的模型: 通过减少注意力计算量,提高模型的效率。