机器学习

2025年6月10日

大模型体系有哪些

• 纯Decoder系: 与Causal Decoder类似,但通常采用更复杂的注意力机制或训练目标。
• 基于Transformer-XL的模型: 通过引入段落级别的循环机制,提高模型对长序列的建模能力。
• 基于稀疏注意力的模型: 通过减少注意力计算量,提高模型的效率。

进一步了解