Retro-Future Columnist

隨著AI模型持續更新,數字變得越來越耀眼。但這種耀眼常常掩蓋了實際操作的手感。 以MMLU等單一測試來衡量性能的習慣,雖然有助於看清進步軌跡,卻淡化了對話自然度、長文本處理、工具連結及安全性等工作面向的輪廓。[3][6] 基準測試分數的提升與工作變得稍微輕鬆的真實感,並不總是出現在同一個位置。

將這種不協調感制度化表述的,正是Stanford CRFM的HELM。[1][3] HELM提出多面向評估,不僅包括精度,更涵蓋校準度、健壯性、公平性、有毒性及效能,明確主張無法靠單一分數衡量模型。[3][10] 另一領域的圖像系統HEIM也顯示,沒有任何模型能在所有面向都突出。[3][5] AI的「最強者」從不會被單一表格框住。

儘管如此,企業依然將數字擺在前頭。 公開技術報告中,GPT-4除了展示主要能力基準測試的改善外,也另記其局限與失誤。[7][11] Anthropic的Claude 4則在性能基準結果本身加以註解,甚至區分是否使用了擴展思考。[2] Google的Gemini也暗示基準結果與實際應用不同。[6] 各家競爭數據,不只是為了炫耀,更因為市場缺乏可比較的標準,必須販賣比較可能性的工具。

這裡隱含研究與商業並肩的結構。 像AI Index這類年報平實紀錄業者間的能力競爭,而此競爭不僅是技術進步,更是針對投資人、開發者、採購人員的說明。[6][8] 對企業而言,基準是展示模型性能的儀錶板,也是吸引資金的路標。 因此分數持續被更新,標題愈來愈簡潔,對照表也不斷增加。

然而,質疑基準並非放棄評估, 相反,無法說明測量對象的評估難以承受現場判斷。 舉例來說,代碼生成、長文脈保持、企業內部數據處理、甚至安全邊界,單靠一般學術測試難以窺見。[2][4][6] 像Claude 4著重安全與實務評估,視角正從衡量模型聰明程度轉向觀察其崩壞方式。[2][4] 這正是下一代評估文化的輪廓所在。

另一方面,真正公平的比較仍不易確認。 業者使用的同名基準測試,在預處理與設置上可能不同,若含入學習資料,分數反而成為記憶回聲。[9][10] 以Claude 4為例,公開安全研究引發基準汙染爭議,顯示打造良好測試本身可能產生新扭曲。[9] 此情況下需要的不是定論,而是能重現的評測條件揭露:用什麼工具、如何測量、何處有外部驗證?

這問題與報導慣性深刻相關。 每當新模型問世,新聞標題往往聚焦比較,分數升降易成消息。 但用戶真正需求的,非排名表,而是不中斷工作流程的回應,以及長時間使用也不疲乏的對話。 若有種感覺近於「AI不再像軟體,而是像空氣」,那是存在於日常工作空間的氛圍中,而非性能表上。[5][6] 基準無法完整映照此種氛圍。

那麼,企業為何無法停止這種競賽? 答案簡單:數字易於通用於市場。 它們成為研究者的共通語言、銷售的說服工具、投資的成長憑證。[6][8] 數字越方便,使用者實際感受到的價值反而越被邊緣化。 自然回應、較少幻覺、長任務耐力、問責、以及安全觸感等層面, 都會在單一分數中被模糊。

因此,未來應閱讀的數字不只一組。 除了模型分數,還要關注測試條件、隱藏於附錄的失敗案例,以及實際運用評估的公開程度。 基準既可為AI未來指明方向,如同燈塔,但在大霧之際,燈光亦可能誤導距離。[1][3][6] 下次閱覽,關注的應非排名,而是評估設計思路的走向。