游客发表
有实际根基 ,高下咱们就能妨碍深度优化了 。文学
为甚么 transformer 功能这么好?它给泛滥狂语言模子带来的高下高下文学习 (In-Context Learning) 能耐是从何而来?在家养智能规模里,transformer 已经成为深度学习中的文学主导模子,但人们对于它卓越功能的高下实际根基却不断钻研缺少。
最近 ,文学来自 Google AI、高下苏黎世联邦理工学院 、文学Google DeepMind 钻研职员的高下新钻研试验为咱们揭开谜底 。在新钻研中 ,文学他们对于 transformer 妨碍了逆向工程 ,高下追寻到了一些优化措施。文学论文《Uncovering mesa-optimization algorithms in Transformers》:
论文链接:https://arxiv.org/abs/2309.05858
作者证实,高下最小化通用自回归损失会发生在 Transformer 的文学前向传递中运行的基于辅助梯度的优化算法。这种天气最近被称为「mesa 优化(mesa-optimization)」。高下此外,钻研职员发现所患上的 mesa 优化算法展现出高下文中的小样本学习能耐 ,与模子规模无关