大模型 / 机器学习 · 2025年6月10日 0

大模型体系有哪些

目前主流的开源模型体系有哪些 — 大模型体系

Prefix Decoder系

Prefix Decoder，也称为非因果解码器，是Encoder-Decoder架构的一种变体。它在处理输入序列时采用双向注意力机制，以充分理解全局上下文；而在生成输出序列时，则采用单向注意力机制，保证生成的连贯性。

• 核心特点：
◦ 输入双向注意力：模型在生成文本时，可以同时参考上下文中的前文和后文信息，从而更好地理解语境。
◦ 输出单向注意力：在生成下一个词时，模型仅关注已经生成的文本部分，这有助于保证生成的文本具有连贯性。
• 代表模型及特点：
◦ ChatGLM、ChatGLM2：由清华大学开发，在中文对话方面表现出色，尤其擅长多轮对话和复杂任务。
◦ U-PalM：强调通用性，可以在多种任务上取得较好的效果。
• 优势：
◦ 能够更好地捕捉上下文信息，生成更符合人类语言习惯的文本。
◦ 在对话、生成等任务上表现出色。

Causal Decoder系

Causal Decoder，即因果解码器，是一种自回归模型，广泛应用于文本生成任务中。其核心特点在于生成文本时，每个token（词或字符）的生成仅依赖于它之前的token，而无法利用未来的token信息。这种机制确保了生成的文本在时序上保持连贯性。

• 核心特点：
◦ 从左到右的单向注意力：模型在生成文本时，只能参考已经生成的文本部分，这使得模型在生成过程中具有很强的自回归性。
• 代表模型及特点：
◦ LLaMA-7B：由Meta AI发布，在参数量较小的情况下表现出强大的性能，是许多后续模型的基础。
◦ LLaMa衍生物：许多研究者基于LLaMA进行了改进和优化，产生了众多衍生模型。
• 优势：
◦ 生成文本具有很强的连贯性，适合用于文本生成任务。
◦ 模型结构相对简单，易于训练和部署。

Encoder-Decoder系

Encoder-Decoder框架有一个最显著的特征就是它是一个End-to-End学习的算法；本文将以文本-文本的例子作为介绍，这样的模型往往用在机器翻译中，比如将法语翻译成英语。这样的模型也被叫做 Sequence to Sequence learning[1]。所谓编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列。

• 核心特点：
◦ 输入双向注意力，输出单向注意力：与Prefix Decoder类似，但Encoder-Decoder通常在编码阶段对整个输入序列进行编码，从而获得更好的全局表示。
• 代表模型及特点：
◦ T5：谷歌提出的文本到文本转换模型，可以处理多种自然语言处理任务。
◦ Flan-T5： T5的改进版本，在指令跟随方面表现出色。
◦ BART： Bidirectional and Auto-Regressive Transformer，兼具双向和自回归的特性，可以用于多种生成任务。
• 优势：
◦ 能够更好地处理序列到序列的任务，如机器翻译、文本摘要等。
◦ 在处理长文本时具有优势。

其他值得关注的大模型体系

除了上述三大体系，还有以下一些值得关注的模型体系：
• 纯Decoder系：与Causal Decoder类似，但通常采用更复杂的注意力机制或训练目标。
• 基于Transformer-XL的模型：通过引入段落级别的循环机制，提高模型对长序列的建模能力。
• 基于稀疏注意力的模型：通过减少注意力计算量，提高模型的效率。

标签： Causal Decoder Encoder-Decoder Prefix Decoder 大模型

您可能还喜欢...

发表回复取消回复

要发表评论，您必须先登录。