Retro-Future Columnist

AIモデルの更新が続くほど、数字は眩しくなる。だが、その眩しさはしばしば、実際に使う手の感触を隠してしまう。MMLUのような単一のテストで性能を語る習慣は、進歩を見通しやすくする一方で、会話の自然さ、長文の扱い、道具連携、安全性といった実務の輪郭を薄めてきた。[3][6]ベンチマークが上がったという事実と、仕事が少し楽になったという実感は、同じ場所にはない。

その違和感を制度として言語化してきたのが、Stanford CRFMのHELMだ。[1][3]HELMは、精度だけでなく較正、頑健性、公平性、毒性、効率まで含めた多面的評価を掲げ、単一スコアではモデルを測れないという立場を明確にしている。[3][10]別の領域でも、画像系のHEIMは、どのモデルもすべての観点で突出するわけではないことを示した。[3][5]AIの「最強」は、いつも一枚の表には収まらない。

それでも企業は、数字を前面に出す。公開された技術報告を見ると、GPT-4は主要な能力ベンチマークの改善を示しつつも、限界や失敗例を別途記している。[7][11]AnthropicのClaude 4は、性能ベンチマークの出し方そのものに注釈を付け、拡張思考を使ったかどうかまで分けている。[2]GoogleのGeminiも、ベンチマークと実利用は同じではないという前提をにじませる。[6]各社が数字を競うのは、単に誇示したいからだけではなく、比較可能な物差しがない市場で比較可能性そのものを売る必要があるからだ。

ここには、研究と販売が同じ机に座っている構図がある。AI Indexのような年次資料は、各社の能力競争が続いていることを淡々と記録するが、その競争は技術の進歩であると同時に、投資家、開発者、調達担当者に向けた説明でもある。[6][8]企業にとってベンチマークは、モデルの性能を示す計器であり、資金を呼び込む標識でもある。だからこそ、点数は更新され続け、見出しは短く、比較表は増えていく。

ただし、ベンチマークを疑うことは、評価をやめることではない。むしろ逆で、何を測ったのかを説明できない評価は、現場の判断に耐えにくい。たとえばコード生成、長い文脈の保持、企業内データの扱い、あるいは安全性の境界は、一般的な学術テストだけでは十分に見えない。[2][4][6]Claude 4のように安全性や実運用評価を前面に置く姿勢は、モデルの賢さを測るというより、壊れ方を観察する方向へ視線をずらしている。[2][4]そこに、次の評価文化の輪郭がある。

一方で、どの比較が本当に公平かは、まだ簡単には確かめられない。各社が使うベンチマークは同じ名前でも前処理や設定が違うことがあり、さらに学習データへの混入があると、数字は実力ではなく記憶の反響になる。[9][10]Claude 4の周辺でも、公開された安全研究がベンチマーク汚染の議論を呼んだように、評価のために良い試験を作る行為自体が、新しい歪みを生むことがある。[9]ここで必要なのは断定ではなく、再現可能な評価条件の開示だ。何を使い、どう測り、どこで外部検証ができるのか。

この問題は、報道の癖とも深くつながる。新しいモデルが出るたびに、見出しは比較へ向かい、点数の上下はニュースになりやすい。だが、利用者が欲しいのは順位表ではなく、仕事の流れを壊さない応答であり、長く使っても疲れない対話だ。AI no longer feels like software. It feels like atmosphere. という感覚に近いものがあるとすれば、それは性能表の上ではなく、日々の作業空間の空気の中に現れる。[5][6]ベンチマークは、その空気を完全には写せない。

では、企業はなぜやめられないのか。答えは単純で、数字は市場に通じやすいからだ。研究者には比較の共通言語となり、営業には説得材料となり、投資には成長曲線の証拠となる。[6][8]だが、その便利さが強いほど、ユーザーが本当に感じる価値は後景に退く。自然な応答、少ない幻覚、長いタスクの粘り、説明責任、セーフティの手触り。そうしたものは、ひとつのスコアでは滲んでしまう。

だからこそ、これから読むべき数字は一つではない。モデルの得点だけでなく、どの条件で測られたのか、どんな失敗が別紙に隠れているのか、実運用の評価がどれだけ公開されているのかを見たい。ベンチマークはAIの未来を示す灯台にもなるが、霧の濃い夜には、その光が近さを誤らせることもある。[1][3][6]次に見るべきなのは順位そのものではなく、評価の設計思想がどこへ向かうかだ。[1,2,6,9]