2025年6月10日 大模型体系有哪些 • 纯Decoder系: 与Causal Decoder类似,但通常采用更复杂的注意力机制或训练目标。 • 基于Transformer-XL的模型: 通过引入段落级别的循环机制,提高模型对长序列的建模能力。 • 基于稀疏注意力的模型: 通过减少注意力计算量,提高模型的效率。 进一步了解 大模型 / 机器学习 0