微软开源Phi - 4推理模型:小模型凭“啰嗦”逆袭大模型

日期:2025-05-08 17:27:59 / 人气:6


在竞争激烈的AI领域,曾经“谁家模型参数最多”是大家关注的焦点,但如今,风向却发生了有趣的变化——谁家的“小”模型能凭借独特优势,击败那些强大的大模型,成为了新的看点。

微软研究院最近开源了一款别具一格的研究成果——Phi - 4 - reasoning - plus。这是一款专注于深度结构化推理任务的开源语言模型,它仅有14B参数,还不到DeepSeek 70B参数的五分之一。然而,就是这样一个“小家伙”,在数学、科学、代码以及逻辑推理等关键领域,展现出了强大的实力,丝毫不逊色于那些“大块头”。

在实际测试中,Phi - 4 - reasoning - plus展现出了惊人的竞争力。在AIME 2025数学考试中,这款小模型在初次尝试时,全题正确率竟超过了一直备受关注的70B大模型,甚至逐渐逼近了参数高达671B的DeepSeek。这一成绩的取得,很大程度上得益于微软团队为它量身定制的独特训练方法。

微软团队另辟蹊径,巧妙地运用“推理链”,打破常规,让AI学会了放慢思考节奏,变得更加“啰嗦”。具体来说,这种训练方式主要体现在以下几个方面。

首先,推理链(Chain - of - Thought)成为了核心训练目标。传统的训练方式往往让模型直接给出答案,而微软团队则为Phi - 4 - reasoning - plus模型专门训练它写“推理过程”。在训练数据和输出内容里,要求模型使用...标签,将自己的思考过程、分步推理以及反复验证等内容详细记录下来。这就导致模型的推理链往往显得很“啰嗦”,它不会像一些传统大模型那样试图一步得出答案,而是像人类一样,将问题细致分解,逐步排查各种可能性,这种“慢思考”的过程,让模型的解题思路更加清晰。

其次,这种训练方式鼓励“慢思考”,对啰嗦的推理过程给予奖励。在强化学习(RL)阶段,奖励机制经过精心设计。如果模型回答错误,会鼓励它生成更长的推理链;而当回答正确时,则更倾向于简洁的回答。即便模型答对,若推理过程过于简单,也不会得到最高的奖励;反之,如果答错,在“多想两步”、让推理过程更详细,甚至反复自我否定和修正后,模型反而能得到更多的鼓励。这种独特的奖励机制,使得模型在面对问题时,不会急于得出答案,而是更注重推理的严谨性和全面性。

从技术报告的一个细节中,我们能更深入地理解这种训练方式的精妙之处。Phi - 4 - reasoning的推理链长度并非越长越好,也不是越短越强,而是“刚刚好”地模拟了人类的“思考长度”。也就是说,模型在思考和推理过程中,既不会因为过于冗长而导致效率低下,也不会因为过于简略而忽略关键信息,恰到好处地平衡了推理的深度和效率。

在RL阶段的奖励模式设计也十分巧妙:当模型答对时,会因为简洁的回答得到奖励;答错时,则因为详细的推理过程而受到鼓励;若输出格式不正确、思路紊乱,就会扣分;重复语句也会受到惩罚,以此鼓励模型在推理过程中保持多样性和探索精神。与传统基于人类反馈强化学习(RLHF)不同的是,Phi - 4团队使用的是可自动验证的数学题,奖励函数直接与推理链长度、答案正确性紧密挂钩,使得模型被训练成“有错就多想、多写,多步反省”,不断优化自身的推理能力。

经过SFT(有监督微调)之后,Phi - 4 - reasoning - plus还增加了一层基于规则的强化学习,进一步提升了模型性能。报告中的评测结果令人瞩目。Phi - 4 - reasoning和plus不仅在AIME、OmniMath、GPQA等数学/科学基准上超越了体量更大的Distill - Llama - 70B、DeepSeek - R1,甚至在算法(TSP/3SAT)、规划(BA - Calendar)、代码(LiveCodeBench)等新领域,也展现出极强的“迁移力”。这些领域在模型训练时并未专门覆盖,但基于推理链训练出的元能力,让模型能够在新题型中举一反三,即使遇到没见过的难题,也能耐心地慢慢推导、反复尝试。对比传统大模型“一步到位”给出的完美答案,这种看似“磨叽”的AI,反而显得更加靠谱、更有韧性。

有趣的是,这种优势不仅仅局限于推理任务,在一些“非推理”任务,如长文本问答、指令遵循、毒性检测等通用能力测试中,Phi - 4 - reasoning - plus也有显著提升。这充分说明,让AI学会慢思考、具备自我检视能力,比单纯提升算力和知识面更能实现可持续发展。总之,Phi - 4 - reasoning - plus凭借“啰嗦”的推理方式,为AI领域带来了新的思路和方向。

作者:杏宇娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 杏宇娱乐 版权所有