新方法

Llama 3

128K token 的分词器，这种分词器在编码语言时更加高效，这使得模型的性能得到了显著提升
分组查询注意力（GQA）技术
在训练过程中，我们让模型处理最多 8,192 个 Token 的序列，并巧妙地使用掩码技术来确保模型的自注意力机制不会跨越不同文档的界限，从而保证了模型的准确性和效率。
训练集规模扩大了七倍，代码数据量也增加了四倍
我们设计并实施了一系列先进的数据过滤流程。这些流程包括应用启发式过滤器、NSFW 内容过滤、语义去重技术和文本质量分类器等，用以预判数据的优劣。我们利用 Llama 2 来生成用于 Llama 3 的文本质量分类器的训练集。对这些数据的仔细策划，并且对人类标注者提供的标准进行了多轮质量保证。
我们采用了三种并行化技术：数据并行、模型并行和流水线并行。在 16K 个 GPU 上同时训练时，我们的最高效实现方式能够达到每个 GPU 超过 400 TFLOPS 的计算利用率。我们还特别构建了两个 24K GPU 的集群来进行模型训练。
我们开发了一套先进的训练栈，它能够自动进行错误检测、处理和维护。硬件和系统的可靠性
我们的后训练策略融合了监督式微调（SFT）、拒绝抽样、近端策略优化（PPO）和直接策略优化（DPO）等多种技术。在 SFT 中使用的提示质量以及 PPO 和 DPO 中使用的偏好排名对于提升模型的性能至关重要。通过对这些数据进行精细筛选和对人类标注者提供的内容进行多轮质量审核，我们实现了模型质量的重大提升。

Infini-Transformer

Infini-attention的核心思想是将压缩记忆（compressive memory）整合到传统的注意力机制中，从而使得基于Transformer的语言模型能够高效处理无限长的输入序列，同时保持内存和计算资源的有界性。这一思想的主要特点和创新点包括：

压缩记忆的引入：Infini-attention通过引入压缩记忆系统，使得模型能够在处理长序列时保持固定的参数数量，而不是随着输入长度的增加而线性增长。这种记忆系统通过改变其参数来存储和回忆信息，从而实现了对长期依赖的有效捕捉。
结合局部和全局注意力：Infini-attention在单个Transformer块中同时构建了局部（masked local）注意力和长期（long-term linear）注意力机制。局部注意力负责处理当前输入段内的上下文信息，而长期注意力则从压缩记忆中检索历史信息，两者结合提供了对长距离依赖的有效建模。
高效的参数重用：在Infini-attention中，标准注意力计算中的键（key）、值（value）和查询（query）状态被重用于长期记忆的整合和检索。这种重用策略不仅提高了参数效率，还加速了模型的训练和推理过程。
流式处理能力：Infini-attention支持对输入序列进行流式处理，这意味着模型可以逐步处理和推理新输入的数据，而不需要一次性处理整个序列。这对于处理实时数据流或非常长的文本序列尤其有用。
持续预训练和任务适应：Infini-attention设计上支持持续的预训练和针对长上下文的适应，使得模型可以通过持续学习来提高对长序列的处理能力，并且可以通过任务特定的微调来适应不同的应用场景。

总之，Infini-attention的核心思想是通过压缩记忆和注意力机制的结合，实现对长序列数据的有效处理，同时保持计算和内存效率，这对于推动大型语言模型在各种长文本处理任务中的应用具有重要意义。

LNNs具备两个核心特点

动态架构和持续学习与适应性。

动态架构让LNNs的神经元比传统神经网络更具表现力，从而提高了模型的可解释性。

而持续学习与适应性则使LNNs能够在训练后继续适应变化的数据，这一点更接近生物大脑的工作机制。

相较于传统神经网络，LNNs展现出多重优势。它们不需要大量的标记训练数据就能产生准确的结果，而且模型规模较小，计算需求较低，这使得它们在企业级应用中具有很好的可扩展性。

此外，LNNs对输入信号中的噪声和干扰也表现出更强的鲁棒性。

总的来说，液体神经网络作为一种有前景的神经网络方法，能够出色地处理复杂的实时数据处理任务，并具备良好的适应性，因此在多种应用中都能成为有价值的工具。

Transformer解析

KV Cache

ChatGLM3典型计算图

Tokenization

Transformer in CV

新方法

Attention是不是必须的

神经网络的逻辑

改进大规模训练稀疏自编码器的方法

Transformer NLP到底有没有智能？

用推理的临时态实现意识--CoT

新方法

Llama 3

Infini-Transformer

LNNs具备两个核心特点

No Comments