仅靠API就猜出GPT、Claude、Gemini参数量？技术社区吵翻了

日期：2026-05-03 16:41:42 / 人气：2

近日，研究人员李博杰在arXiv平台发布一篇题为《Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity》（不可压缩知识探针：通过事实容量估算黑盒LLM参数量）的论文（论文地址：https://arxiv.org/pdf/2604.24827），提出了一套全新的评测框架——「不可压缩知识探针」（IKPs），声称仅通过黑盒API调用，就能逆向估算任意大型语言模型（LLM）的参数规模。这一研究成果迅速在技术社区传播，相关估算数据引发广泛讨论，支持者与质疑者各执一词，争议愈演愈烈。
该研究的灵感，源于一项持续三年的非正式测试。据李博杰介绍，其团队成员长期向各代主流大模型提出同一个冷门问题：「你了解中科大Hackergame吗？」——这是一项由中国科学技术大学Linux用户组举办的年度CTF网络安全竞赛，拥有独特的中文挑战题目。
跨越多个版本的观察结果，直观展现了模型对世界知识认知的迭代过程：2024年5月，GPT-4o已知晓该赛事存在，但被问及具体题目时会出现明显的「幻觉」，编造虚假题目名称；到了2025年2月，Claude 3.7 Sonnet已能准确列出2023年赛季的19道题目，可通过官方题解仓库验证；直至2026年4月，Kimi K2.6、Claude Opus 4.7、Gemini 3.1 Pro等多个前沿模型，已能精确回忆起该赛事连续多届的具体细节（论文附录H.1有详细验证）。
受这一观察启发，在DeepSeek-V4模型发布后，研究团队利用AI Agent历时四天，自主构建了完整的IKP正式数据集。该数据集包含1400个事实性问题，按信息的稀缺程度划分为7个层级，专门用于隔离那些无法通过推理推导、也不能通过架构改进压缩的知识——这正是研究的核心出发点。
研究的核心假设十分明确：模型的逻辑推理能力可以通过训练技巧被压缩或蒸馏，但对冷门「事实性知识」的记忆容量则无法大幅压缩，其大小主要取决于模型的物理参数规模。这一假设背后有坚实的理论支撑：论文引用相关研究指出，Transformer的前馈层可作为事实关联的键值存储器，每个参数大约能存储2-4比特的事实知识，且事实容量与模型规模呈线性相关。
基于这一假设，研究者在89个参数量已知的开源模型（规模从1.35亿到1.6万亿参数）上，拟合出事实准确率与参数量的对数线性关系，拟合优度R²达到0.917，说明两者的相关性极强。通过留一交叉验证进一步验证了该方法的泛化能力：68.5%的模型估算值与实际参数量偏差在2倍以内，87.6%的模型偏差在3倍以内（中位数偏差1.59倍）。在此基础上，研究者对主流闭源前沿模型的参数量进行了估算，给出的结果（90%置信区间约为0.3至3倍）如下：
- GPT-5.5：约9万亿参数
- Claude Opus 4.7：约4万亿参数
- GPT-5.4：约2.2万亿参数
- Claude Sonnet 4.6：约1.7万亿参数
- Gemini 2.5 Pro：约1.2万亿参数
除了核心的参数量估算，论文还提出了两项重要发现：
一是模型对研究者的记忆，与研究者的引用数量和h指数无明显关联，更倾向于记住那些产生了领域性影响的工作，而非高产但研究影响相对分散的学者。这一发现也印证了，模型对知识的存储更偏向于「价值筛选」，而非简单的数量堆砌。
二是事实记忆容量不遵循「Densing Law」（密度定律）。研究者分析了跨越三年的96个开源模型数据，发现事实记忆容量的时间系数为-0.0010/月（95%置信区间[-0.0031, +0.0008]），在统计上与零无差异，这与「Densing Law」预测的「模型效率每月提升」规律相悖。据此研究者认为，当前推理能力基准趋于饱和，但事实容量仍主要受制于参数规模，所谓的「 scaling 终结」只是误解——基准测试已不再能衡量那些无法压缩的能力维度。
这组直观且颠覆认知的估算数据，迅速在技术社区引爆讨论，但也伴随着巨大的争议，支持者与质疑者的观点针锋相对。
部分博主基于这组估算数据，结合近期Claude Opus 4.7在部分长文本任务中的主观体验波动，推演出一套极具话题性的逻辑：Anthropic因算力储备不足（仅为OpenAI的四分之一），在训练Mythos模型后资源耗尽，被迫将Claude Opus 4.7的参数量从上一代的5.3万亿「反向升级」（阉割）至4万亿；而OpenAI则凭借充足的算力优势，将GPT-5.5的参数量堆至9万亿，这也解释了两者在体验上的近期反转。
与此同时，更多研究者和行业从业者，对估算数字及研究方法论提出了不同程度的质疑，核心质疑点集中在四个方面：
其一，GPT-5.5约9万亿参数的估算与实际服务能力不符。有用户指出，若模型规模真达到这一量级，OpenAI现有的基础设施难以支撑其此前的推出方式，且GPT-5.4到GPT-5.5的性能提升幅度，与10倍的参数差距并不匹配——业内普遍认为，两者的参数量比例约为2倍左右更为合理。
其二，研究的核心前提「事实知识不可压缩」存在漏洞。有质疑者提出，定向引入「合成数据」进行微调，同样能显著提升模型对冷门知识的掌握度，这会直接干扰事实准确率与参数量的相关性，导致估算结果失真。
其三，估算结果与行业已知认知存在巨大偏差。根据该方法估算，Gemini 2.5 Pro和Claude Sonnet的参数量约为1.7万亿，而行业内已知国内模型Kimi K2.6和GLM 5.1的参数量约为8000亿。若两者参数差距仅为2倍左右，单纯的数据差异很难解释目前它们之间的巨大性能鸿沟。此外，业内长期流传GPT-4的参数量约为1.7万亿，与论文中GPT-5.5高达9万亿的估算结果出入极大，难以令人信服。
其四，估算结果的置信区间过大，参考价值有限。发起相关讨论的一位X博主补充说明：「这些数字不应被视为事实，置信区间非常大，我私下收到的反馈表明，某些模型的估算结果可能与实际相差甚远。」论文本身也提到，对于经过重度安全调优的模型，估算结果仅为下限，因为拒绝策略可能隐藏了数十个百分点的「已知但拒绝回答」的知识容量。
当然，在争议与质疑之外，技术社区中也涌现出许多极具建设性的正向探讨。例如，有用户提出，MoE（混合专家）架构和稠密模型在知识压缩效率上可能存在本质差异——MoE模型的事实知识可能分散在不同的专家模块中，当前将两类模型混在一起统计，可能会影响估算的准确性，建议将两者分开统计以观察更清晰的趋势。
值得注意的是，论文还提出了一项额外价值：通过「罕见事实一致错误率」（即两个模型在冷门事实问题上给出相同错误答案的概率），可实现无需模型权重的「知识指纹ing」，能够区分权重共享的模型变体、训练后衍生模型与完全重新训练的模型，这一功能已通过开源工具实现（代码地址：https://github.com/19PINE-AI/ikp，配套网站：https://01.me/research/ikp）。
总体而言，这项研究的核心价值的在于，提出了一种全新的、基于模型内在能力的参数量估算思路，打破了此前依赖API吞吐量、定价等外部因素（存在2倍以上不确定性）的估算方式。但不可否认，其方法论仍存在可完善之处，估算结果也需谨慎看待——毕竟，闭源模型的参数量作为厂商核心机密，仅凭API调用实现精准估算，本身就存在极高的难度。这场争议的背后，本质上是技术社区对「模型能力与参数规模关系」的深度探讨，而随着研究的进一步完善，或许我们能更清晰地揭开闭源LLM的「规模面纱」。

作者：杏宇娱乐

仅靠API就猜出GPT、Claude、Gemini参数量？技术社区吵翻了

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →