苹果AI研究团队发现了大型语言模型推理能力的重大弱点
根据一项新发表的研究,苹果的人工智能研究团队发现了大型语言模型推理能力的重大弱点。
这项研究发表在 arXiv 上,概述了苹果对一系列领先语言模型的评估,包括来自 OpenAI、Meta 和其他知名开发商的模型,以确定这些模型处理数学推理任务的能力。研究结果表明,即使问题措辞的细微变化也会导致模型性能出现重大差异,从而削弱其在需要逻辑一致性的场景中的可靠性。
苹果提醒人们注意语言模型中的一个长期存在的问题:它们依赖模式匹配而不是真正的逻辑推理。在几项测试中,研究人员证明,在问题中添加不相关的信息(不应影响数学结果的细节)会导致与模型截然不同的答案。
根据这项研究,所有测试的模型,从较小的开源版本(如 Llama)到专有模型(如 OpenAI 的 GPT-4o),在面对输入数据中看似无关紧要的变化时,性能都显著下降。 苹果建议人工智能可能需要将神经网络与传统的基于符号的推理(称为神经符号人工智能)相结合,以获得更准确的决策和解决问题的能力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...