InternThinker“通专融合”探索高密度监督数据路径
还记得不久前大模型做高考数学题全不及格吗?现在它找对了学习方法。前天下午,上海人工智能实验室对外展示了自主生成高智力密度数据、具备多场景泛化能力模型等一系列创新进展,并开放书生强推理模型InternThinker试用体验。
记者体验后发现,模型具备长思维能力,并能在推理过程中进行自我反思和纠正,从而在数学、代码、推理谜题等多种复杂推理任务上取得更优结果。
受“元认知”启发提升学习效率
得益于上海AI实验室在提升大模型推理能力的持续探索,InternThinker探索出一条独立、高效构建高质量思维链的路径。在训练数据侧,实验室在国内率先开发出大规模合成数据技术;在任务场景侧,新模型在数学、代码、推理谜题等多种场景都能体现出较强的推理能力,并具备一定的任务泛化性。
为高效提升模型的推理能力,InternThinker采用了更接近人类学习方式的路径。一般而言,人在学习解决复杂推理任务时,并非从海量的样本中进行单点知识的学习,而是思维模式的学习——在解决问题的过程中,通过回忆相关知识点,对正确的解题过程进行理解、记忆,对错误的解题过程进行反思和修正,即对自我的认知过程进行觉察和调节——该能力也被称作元认知能力。
受元认知理论的启发,研究团队设计了一系列元动作来引导模型解决问题的过程,如对问题的理解、知识回忆、规划、执行、反思、总结等。模型在面对复杂任务时,会显式且动态地选择元动作,再进一步展开相关动作的具体思维过程。通过这种设计,利用部分训练任务,可强化模型对关键元动作组合的使用,显著提升模型学习效率。
“模型在思考过程中能更灵活、多样、有效地使用元动作,是模型在推理阶段能够利用更多思考时间解决更复杂任务的重要原因。”研究团队透露。
会“回忆”知识点也懂“自我反思”
记者将一道今年9月全国高中数学竞赛联赛的题目抛给InternThinker。这是一道几何题:在三棱锥P-ABC中,PA垂直于底面,AB、BP、BC、CP的长分别为1、2、3和4,要求这一三棱锥的体积。可以看到,InternThinker会先“想”起要用勾股定理、三角形面积公式和三棱锥体积公式,随后一一计算PA长度、AC长度、底面ABC的面积,最后用公式求得三棱锥的体积。在每一步计算完成后,InternThinker还会有“检查”步骤,方才进入下一步。
记者尝试让InternThinker完成2023年上海高考数学填空题中的压轴题:
公园修建斜坡,假设斜坡起点在水平面上,斜坡与水平面的夹角为θ,斜坡终点距离水平面的垂直高度为4米,游客每走一米消耗的体能为(1.025-cosθ),要使游客从斜坡底走到斜坡顶端所消耗的总体能最少,那么θ等于多少?
InternThinker的解题思路是:使用三角函数关系计算斜坡的长度s;表达游客沿斜坡行走时消耗的总能量E;对E关于θ求导,找到导数为零的点;解方程cotθ=0.025,求出θ的值;最后确认θ是否为极小值点。最终,InternThinker的答案正确。
记者再次请InternThinker完成2024年上海春考数学解答题第3题(全卷第19题),这是一道考察抽样后方差和平均数的题目,InternThinker也能正确解出。
在另一道“进阶版”24点题目中,需要将79、84、96、13和68通过基本的加减乘除得到10,每个数字仅能用一次。观察解题思路发现,InternThinker会先尝试,发现“此路不通”后会当即换一条路径,展现出了反思和修正的能力。 本报记者 郜阳