Retro-Future Columnist
随着AI模型持续更新,性能数据愈发耀眼。然而,这种耀眼往往掩盖了实际使用体验。 像MMLU这样单一测试的性能评估习惯,虽然便于观察进步,但却模糊了对话自然度、长文本处理、工具协同及安全性等实际操作细节。[3][6] 基准测试得分的提升与工作实感的轻松,往往并非同步出现。
这种落差由斯坦福CRFM推出的HELM体系进行了制度性表达。[1][3] HELM不仅关注准确度,还涵盖校准、鲁棒性、公平性、毒性及效率的多维评估,明确阐述模型无法用单一分数衡量。[3][10] 在图像领域,HEIM也展示了没有任何模型能在所有评价维度中皆为最佳。[3][5] AI领域的“最强者”从不局限于一张评分表。
即便如此,企业依然将数字置于公开的最前沿。 技术报告显示,GPT-4虽展示了主要能力基准的提升,但同时列出了模型的局限及失误。[7][11] Anthropic的Claude 4则为性能基准的发布方式本身作注释,区分是否使用了扩展思维。[2] Google的Gemini也表达了基准测试与实际应用不完全一致的前提。[6] 企业竞争数字,不仅为炫耀,更是因为在缺乏可比尺子的市场中,必须售卖可比较的标准。
这反映了研究与销售共桌而坐的局面。 AI指数的年度报告记录了持续的性能竞争,这既是技术进步的体现,也是对投资者、开发者和采购人员的阐释。[6][8] 对企业而言,基准测试既是衡量模型性能的仪表,也是吸引资金的标志。 因此,评分持续更新,标题简练,比较列表不断增多。
然而,怀疑基准测试并非放弃评估,反倒是强调必须明确测量对象,否则难以支持实际决策。 例如,代码生成、长上下文保持、企业内数据处理或安全界限,这些通过一般学术测试无法充分表现。[2][4][6] Claude 4强调安全性与实际运营评估,更多聚焦于观察模型失效方式而非单纯智能测量,预示了评价文化的转变。[2][4] 那里,下一代评估文化的轮廓正在形成。
但究竟哪种比较真正公平?尚难断言。 同名基准测试因预处理和设置不同差异较大,且若训练数据中存在基准测试内容,得分反映的是记忆而非能力。[9][10] Claude 4周边的公开安全研究引发基准测试污染争议,设计好的评测本身可能产生新偏差。[9] 此刻更需的是可复现的评测条件公开, 即明确使用何物、如何测量及外部验证途径。
这与新闻报道的习惯密切相关。 模型更新时,标题往往指向比较,分数波动易成新闻。 但用户真正需要的不是榜单排名,而是不中断工作流程的回应和长时间使用不疲劳的对话。 若说“AI不再像软件,更像氛围”的感受存在,那它更体现于日常工作环境的空气中,而非性能表。[5][6] 基准测试无法完全反映这种氛围。
那为何企业难以割舍? 根本原因在于数字易于传达于市场:科研有统一比较语言,销售有说服材料,投资有成长曲线证据。 研究者有统一语言,销售有说服工具,投资者有成长数据支持。[6][8] 但数字越便捷,用户真正感受到的价值越被边缘化。 自然回应、少幻觉、任务持续力、负责任及安全感, 这些都难以囊括于单一评分。
因此,未来应关注的不止一个数字。 不仅要看模型得分,更需关注评测的条件、隐藏的失败案以及实用运营评估的透明度。 基准测试虽为AI未来指路灯塔,但雾夜光线易误导距离感。[1][3][6] 接下来应关注的不是排名本身,而是评估设计理念的走向。
参考来源
参考来源
正文中的小编号标签对应下方参考来源。
- AI21 Labs: Jurassic-2
- Introducing Claude 4 - Anthropic
- Holistic Evaluation of Language Models (HELM)
- Claude 4 and Anthropic's bet on code - by Nathan Lambert
- Holistic Evaluation of Language Models (HELM)
- [PDF] Technical Performance - Stanford HAI
- Peer review of GPT-4 technical report and systems card
- HELM Capabilities - Stanford CRFM
- The Claude 4 System Card is a Wild Read - by Charlie Guo
- HELM: Holistic Evaluation of Language Models - VerifyWise
- GPT-4 Release: Briefing on Model Improvements and Limitations
推荐文章
推荐文章
-
生成式 AI 与基础模型
AI生成文本时代,“引用”的界限应如何界定?
本文梳理了围绕生成型AI训练利用及输出复制的美国著作权争议,结合公平使用四要素、主要诉讼、著作权局报告及许可扩展趋势,追踪AI“引用”的法律边界至今尚未明确的现状。
-
生成式 AI 与基础模型
大型语言模型看似正确,但那微妙的不适感去哪了?
本文探讨了如何不仅将大型语言模型(LLM)的错误看作幻觉问题,更需重视对“前提不适感”的处理。结合Kahneman和Klein关于直觉的研究,带有AI解释的决策实验,LLM辅助决策的回顾,以及识破AI局限的直觉类型,文章深入思考人类判断在AI时代应保留的核心作用。
-
生成式 AI 与基础模型
当AI阅读、复制并回复时:合理使用的界限正变得越来越狭窄
本文关联美国版权局近期报告、2025年Thomson Reuters诉Ross Intelligence案判决,以及生成性AI相关诉讼的发展,探讨为何使用受保护作品训练AI在美国的法律检验愈加严格。