内存优化 – AI Training

July 19, 2025July 20, 2025专业术语

什么是ZeRO（Zero Redundancy Optimizer）？

ZeRO（Zero Redundancy Optimizer）是一种针对大规模深度学习训练的优化技术，由微软研究院开发，其核心在于通过消除模型参数、梯度和优化器状态在分布式系统中的冗余存储，显著减少内存占用，从而支持在有限硬件资源下训练超大规模模型（如拥有数万亿参数的神经网络）。在AI产品开发的实际落地中，ZeRO技术大幅降低了训练成本和时间，使产品团队能够高效迭代大型语言模型或视觉模型，加速了从原型到部署的全流程，为创新应用（如智能客服或内容生成系统）提供了可靠支撑。

July 19, 2025July 20, 2025专业术语

什么是梯度检查点（Gradient Checkpointing）？

梯度检查点（Gradient Checkpointing）是一种在深度学习训练中用于优化内存使用的关键技术，它通过选择性地保存和重新计算神经网络中的激活值（activations），在反向传播过程中显著减少内存消耗。具体而言，该方法仅存储部分关键层（检查点）的输出值，而非所有中间结果；当需要计算梯度时，未被保存的激活值会临时重新前向计算，从而在内存开销和计算时间之间实现平衡。这允许训练更大规模的模型或使用更大的批量大小，而无需增加硬件内存资源。在AI产品开发的实际落地中，梯度检查点技术尤为重要，因为它解决了资源受限场景下的瓶颈问题。例如，在开发大型语言模型（如GPT系列）或计算机视觉模型时，GPU内存往往成为限制因素；通过集成梯度检查点，产品可以降低训练成本，提升在移动设备或边缘计算环境中的部署效率，从而增强产品的可扩展性和市场竞争力。延伸阅读推荐：Tianqi Chen、Bing Xu、Chiyuan Zhang和Carlos Guestrin于2016年发表的论文《Training Deep Nets with Sublinear Memory Cost》，该论文系统阐述了梯度检查点的理论基础和实现细节。

Your cart

Tag: 内存优化

什么是ZeRO（Zero Redundancy Optimizer）？

什么是梯度检查点（Gradient Checkpointing）？

Your cart