大型语言模型在众多任务上展现出了卓越的性能,不过,其推理能力始终存在争议。近期,Meta 的研究人员发表了一篇论文,阐述了他们是如何运用 Transformer 模型去应对数学领域里一个长期悬而未决的难题:探寻动力系统的全局李雅普诺夫函数。
李雅普诺夫函数能够用于判断动力系统是否稳定,例如,它能够用于预估三体问题的长期稳定性,也就是三个天体在引力影响下的长期运动轨迹。但就目前而言,尚未有通用的办法能够推导出李雅普诺夫函数,仅有少数系统清楚其对应的函数。
为攻克这一难题,Meta 的研究人员对一个序列到序列的 Transformer 模型进行了训练,旨在预测给定系统的李雅普诺夫函数。他们别出心裁地采用“逆向生成”的方式构建了大量的训练数据集,其中涵盖了稳定的动力系统以及相应的李雅普诺夫函数。
传统的“正向生成”方式是从随机生成的系统出发,尝试去计算其李雅普诺夫函数,这种方式效率偏低,且只能应对特定类型的简单系统。而“逆向生成”方式则是首先随机生成李雅普诺夫函数,接着构建与其相对应的稳定系统,如此便规避了计算李雅普诺夫函数的难题,并且能够生成更具多样性的训练数据。
研究人员发觉,在“逆向生成”数据集上进行训练的 Transformer 模型在测试集上实现了近乎完美的准确率(99%),并且在分布外测试集上的表现也相当出色(73%)。更为惊人的是,通过在训练集中增添少量(300 个)“正向生成”的简单示例,模型的准确率能够进一步提升至 84%,这表明哪怕是少量的已知解决方案也能极大地增强模型的泛化能力。
为了检验模型发现新李雅普诺夫函数的能力,研究人员生成了数以万计的随机系统,并运用模型展开预测。结果显示,该模型在多项式系统上找到李雅普诺夫函数的成功率是现有最先进方法的十倍,并且还能探寻到非多项式系统的李雅普诺夫函数,而当下尚无任何算法能够做到这一点。
研究人员还将该模型与人类数学家加以对比,他们邀请了 25 名数学硕士研究生开展了一项测试,结果表明模型的准确率远远高于人类。
这项研究显示,Transformer 模型能够被训练用于应对复杂的数学推理难题,并且“逆向生成”方式可以有效地构建训练数据集,进而突破了传统方式的局限。日后,研究人员打算将该方法运用到其他数学难题之中,并探寻 AI 在科学发现里的更多可能性。
论文地址:https://arxiv.org/pdf/2410.08304
内容由用户投稿,如若转载,请注明出处:https://aiczwd.com/blog/archives/324