仅靠API就猜出GPT、Claude、Gemini参数量?技术社区吵翻了
日期:2026-05-03 16:41:42 / 人气:2

近日,研究人员李博杰在arXiv平台发布一篇题为《Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity》(不可压缩知识探针:通过事实容量估算黑盒LLM参数量)的论文(论文地址:https://arxiv.org/pdf/2604.24827),提出了一套全新的评测框架——「不可压缩知识探针」(IKPs),声称仅通过黑盒API调用,就能逆向估算任意大型语言模型(LLM)的参数规模。这一研究成果迅速在技术社区传播,相关估算数据引发广泛讨论,支持者与质疑者各执一词,争议愈演愈烈。
该研究的灵感,源于一项持续三年的非正式测试。据李博杰介绍,其团队成员长期向各代主流大模型提出同一个冷门问题:「你了解中科大Hackergame吗?」——这是一项由中国科学技术大学Linux用户组举办的年度CTF网络安全竞赛,拥有独特的中文挑战题目。
跨越多个版本的观察结果,直观展现了模型对世界知识认知的迭代过程:2024年5月,GPT-4o已知晓该赛事存在,但被问及具体题目时会出现明显的「幻觉」,编造虚假题目名称;到了2025年2月,Claude 3.7 Sonnet已能准确列出2023年赛季的19道题目,可通过官方题解仓库验证;直至2026年4月,Kimi K2.6、Claude Opus 4.7、Gemini 3.1 Pro等多个前沿模型,已能精确回忆起该赛事连续多届的具体细节(论文附录H.1有详细验证)。
受这一观察启发,在DeepSeek-V4模型发布后,研究团队利用AI Agent历时四天,自主构建了完整的IKP正式数据集。该数据集包含1400个事实性问题,按信息的稀缺程度划分为7个层级,专门用于隔离那些无法通过推理推导、也不能通过架构改进压缩的知识——这正是研究的核心出发点。
研究的核心假设十分明确:模型的逻辑推理能力可以通过训练技巧被压缩或蒸馏,但对冷门「事实性知识」的记忆容量则无法大幅压缩,其大小主要取决于模型的物理参数规模。这一假设背后有坚实的理论支撑:论文引用相关研究指出,Transformer的前馈层可作为事实关联的键值存储器,每个参数大约能存储2-4比特的事实知识,且事实容量与模型规模呈线性相关。
基于这一假设,研究者在89个参数量已知的开源模型(规模从1.35亿到1.6万亿参数)上,拟合出事实准确率与参数量的对数线性关系,拟合优度R²达到0.917,说明两者的相关性极强。通过留一交叉验证进一步验证了该方法的泛化能力:68.5%的模型估算值与实际参数量偏差在2倍以内,87.6%的模型偏差在3倍以内(中位数偏差1.59倍)。在此基础上,研究者对主流闭源前沿模型的参数量进行了估算,给出的结果(90%置信区间约为0.3至3倍)如下:
- GPT-5.5:约9万亿参数
- Claude Opus 4.7:约4万亿参数
- GPT-5.4:约2.2万亿参数
- Claude Sonnet 4.6:约1.7万亿参数
- Gemini 2.5 Pro:约1.2万亿参数
除了核心的参数量估算,论文还提出了两项重要发现:
一是模型对研究者的记忆,与研究者的引用数量和h指数无明显关联,更倾向于记住那些产生了领域性影响的工作,而非高产但研究影响相对分散的学者。这一发现也印证了,模型对知识的存储更偏向于「价值筛选」,而非简单的数量堆砌。
二是事实记忆容量不遵循「Densing Law」(密度定律)。研究者分析了跨越三年的96个开源模型数据,发现事实记忆容量的时间系数为-0.0010/月(95%置信区间[-0.0031, +0.0008]),在统计上与零无差异,这与「Densing Law」预测的「模型效率每月提升」规律相悖。据此研究者认为,当前推理能力基准趋于饱和,但事实容量仍主要受制于参数规模,所谓的「 scaling 终结」只是误解——基准测试已不再能衡量那些无法压缩的能力维度。
这组直观且颠覆认知的估算数据,迅速在技术社区引爆讨论,但也伴随着巨大的争议,支持者与质疑者的观点针锋相对。
部分博主基于这组估算数据,结合近期Claude Opus 4.7在部分长文本任务中的主观体验波动,推演出一套极具话题性的逻辑:Anthropic因算力储备不足(仅为OpenAI的四分之一),在训练Mythos模型后资源耗尽,被迫将Claude Opus 4.7的参数量从上一代的5.3万亿「反向升级」(阉割)至4万亿;而OpenAI则凭借充足的算力优势,将GPT-5.5的参数量堆至9万亿,这也解释了两者在体验上的近期反转。
与此同时,更多研究者和行业从业者,对估算数字及研究方法论提出了不同程度的质疑,核心质疑点集中在四个方面:
其一,GPT-5.5约9万亿参数的估算与实际服务能力不符。有用户指出,若模型规模真达到这一量级,OpenAI现有的基础设施难以支撑其此前的推出方式,且GPT-5.4到GPT-5.5的性能提升幅度,与10倍的参数差距并不匹配——业内普遍认为,两者的参数量比例约为2倍左右更为合理。
其二,研究的核心前提「事实知识不可压缩」存在漏洞。有质疑者提出,定向引入「合成数据」进行微调,同样能显著提升模型对冷门知识的掌握度,这会直接干扰事实准确率与参数量的相关性,导致估算结果失真。
其三,估算结果与行业已知认知存在巨大偏差。根据该方法估算,Gemini 2.5 Pro和Claude Sonnet的参数量约为1.7万亿,而行业内已知国内模型Kimi K2.6和GLM 5.1的参数量约为8000亿。若两者参数差距仅为2倍左右,单纯的数据差异很难解释目前它们之间的巨大性能鸿沟。此外,业内长期流传GPT-4的参数量约为1.7万亿,与论文中GPT-5.5高达9万亿的估算结果出入极大,难以令人信服。
其四,估算结果的置信区间过大,参考价值有限。发起相关讨论的一位X博主补充说明:「这些数字不应被视为事实,置信区间非常大,我私下收到的反馈表明,某些模型的估算结果可能与实际相差甚远。」论文本身也提到,对于经过重度安全调优的模型,估算结果仅为下限,因为拒绝策略可能隐藏了数十个百分点的「已知但拒绝回答」的知识容量。
当然,在争议与质疑之外,技术社区中也涌现出许多极具建设性的正向探讨。例如,有用户提出,MoE(混合专家)架构和稠密模型在知识压缩效率上可能存在本质差异——MoE模型的事实知识可能分散在不同的专家模块中,当前将两类模型混在一起统计,可能会影响估算的准确性,建议将两者分开统计以观察更清晰的趋势。
值得注意的是,论文还提出了一项额外价值:通过「罕见事实一致错误率」(即两个模型在冷门事实问题上给出相同错误答案的概率),可实现无需模型权重的「知识指纹ing」,能够区分权重共享的模型变体、训练后衍生模型与完全重新训练的模型,这一功能已通过开源工具实现(代码地址:https://github.com/19PINE-AI/ikp,配套网站:https://01.me/research/ikp)。
总体而言,这项研究的核心价值的在于,提出了一种全新的、基于模型内在能力的参数量估算思路,打破了此前依赖API吞吐量、定价等外部因素(存在2倍以上不确定性)的估算方式。但不可否认,其方法论仍存在可完善之处,估算结果也需谨慎看待——毕竟,闭源模型的参数量作为厂商核心机密,仅凭API调用实现精准估算,本身就存在极高的难度。这场争议的背后,本质上是技术社区对「模型能力与参数规模关系」的深度探讨,而随着研究的进一步完善,或许我们能更清晰地揭开闭源LLM的「规模面纱」。
作者:杏宇娱乐
新闻资讯 News
- 透视银行一季度财报:净息差环比...05-03
- 机票告别“白菜价”?航司集体“...05-03
- 仅靠API就猜出GPT、Claude...05-03
- 券商业绩完整排名,正式揭晓05-03

