Retro-Future Columnist
AI 모델이 지속적으로 업데이트될수록 성능을 나타내는 숫자는 더욱 빛난다. 그러나 그 빛남은 종종 실제로 사용하는 손의 감각을 가려 버린다. MMLU와 같은 단일 테스트로 성능을 평가하는 관행은 진보 상황을 쉽게 파악하게 하지만, 대화의 자연스러움, 긴 문장 처리, 도구 연계, 안전성 등 실제 업무의 구체적인 윤곽을 흐려왔다.[3][6] 벤치마크 점수가 올랐다는 사실과 업무가 조금 수월해졌다는 체감은 같은 자리에 있지 않다.
이러한 이질감을 제도화해 언어로 풀어낸 것이 Stanford CRFM의 HELM이다.[1][3] HELM은 정확도뿐 아니라 교정도, 견고성, 공정성, 독성, 효율성까지 포함한 다면적 평가를 제시하며 단일 점수로는 모델을 평가할 수 없다는 입장을 분명히 한다.[3][10] 다른 분야에서도 이미지 중심의 HEIM은 어떤 모델도 모든 관점에서 두드러지지 않는다는 점을 보여주었다.[3][5] AI의 '최강'은 언제나 하나의 표 안에 담기지 않는다.
그럼에도 기업들은 숫자를 앞세운다. 공개된 기술 보고서를 보면 GPT-4는 주요 능력 벤치마크의 향상을 보이면서도 한계와 실패 사례를 별도로 기록한다.[7][11] Anthropic의 Claude 4는 성능 벤치마크 산출 방법 자체에 주석을 달고, 확장 사고를 활용했는지까지 구분해 제시한다.[2] Google의 Gemini도 벤치마크와 실제 활용은 다르다는 전제를 드러낸다.[6] 각사가 수치를 경쟁하는 것은 단순히 과시를 원해서만이 아니라, 비교 가능한 잣대가 없는 시장에서 비교 가능성을 팔아야 하기 때문이다.
여기엔 연구와 영업이 같은 테이블에 앉아 있는 구도가 있다. AI Index와 같은 연례 자료는 각 사의 능력 경쟁이 계속되고 있음을 담담히 기록하지만, 그 경쟁은 기술 진보인 동시에 투자자, 개발자, 조달 담당자 등을 향한 설명이기도 하다.[6][8] 기업에 있어 벤치마크는 모델 능력을 보여주는 계기면서자 자금을 끌어들이는 표식이다. 그렇기에 점수는 계속 갱신되고, 제목은 짧아지며, 비교표는 늘어난다.
하지만 벤치마크를 의심하는 것은 평가를 그만두는 것이 아니다. 오히려 그 반대로, 무엇을 측정했는지 설명할 수 없는 평가는 현장의 판단을 견디기 어렵다. 예를 들어 코드 생성, 긴 문맥 유지, 기업 내 데이터 처리, 또는 안전성 한계는 일반 학술 테스트만으로는 충분히 보이지 않는다.[2][4][6] Claude 4처럼 안전성과 실제 운용 평가를 전면에 내세우는 태도는 모델의 똑똑함을 재는 것보다 오히려 고장 모습을 관찰하는 쪽으로 시선이 이동하고 있다.[2][4] 여기에 차세대 평가 문화의 윤곽이 있다.
반면, 어떤 비교가 진정 공정한지는 아직 쉽게 확인할 수 없다. 같은 명칭의 벤치마크라도 각 사가 전처리나 설정을 다르게 하며, 학습 데이터에 혼입이 있으면 숫자가 실력이 아니라 기억의 반향이 된다.[9][10] Claude 4 주변에서도 공개된 안전 연구가 벤치마크 오염 논란을 일으킨 것처럼, 좋은 시험을 만들려는 행위 자체가 새로운 왜곡을 낳기도 한다.[9] 여기서 필요한 것은 단정이 아니라 재현 가능한 평가 조건의 공개이다. 무엇을 사용하고 어떻게 측정했는지, 어디서 외부 검증이 가능한지.
이 문제는 보도의 습관과도 깊이 연결된다. 새 모델이 나올 때마다 헤드라인은 비교로 향하고, 점수의 상승과 하락은 뉴스가 되기 쉽다. 그러나 이용자가 원하는 것은 순위표가 아니라, 업무 흐름을 방해하지 않는 응답이고, 오래 사용해도 지치지 않는 대화다. 'AI는 더 이상 소프트웨어 같지 않고, 공기 같은 느낌이다(AI no longer feels like software. It feels like atmosphere.)'라는 감각에 가깝다면, 그것은 성능표 위가 아닌 일상 작업 공간의 공기 속에서 나타난다.[5][6] 벤치마크는 그 공기를 완전히 반영할 수 없다.
그렇다면 기업들은 왜 멈추지 못할까? 답은 단순하다. 숫자는 시장에 통하기 쉽기 때문이다. 연구자에게는 비교의 공통어가 되고, 영업에는 설득 자료가 되며, 투자에는 성장 곡선의 증거가 된다.[6][8] 하지만 그만큼 편리할수록 이용자들이 진짜로 느끼는 가치는 뒤로 밀려난다. 자연스러운 응답, 적은 환각, 긴 임무의 끈기, 책임성, 안전성의 감촉 같은 것들은 하나의 점수로는 희미해진다.
그래서 앞으로 봐야 할 숫자는 하나가 아니다. 모델 점수뿐 아니라 어떤 조건에서 측정됐는지, 어떤 실패가 별지에 숨겨져 있는지, 실제 운용 평가가 얼마나 공개되었는지를 살펴야 한다. 벤치마크는 AI 미래를 비추는 등대가 될 수 있지만 짙은 안개 낀 밤에는 그 빛이 거리를 오해하게 만들기도 한다.[1][3][6] 다음에 봐야 할 것은 순위 자체가 아니라 평가 설계 사상이 어디로 향하는가이다.
참고 소스
참고 소스
본문의 작은 번호 태그는 아래 참고 소스와 연결됩니다.
- AI21 Labs: Jurassic-2
- Introducing Claude 4 - Anthropic
- Holistic Evaluation of Language Models (HELM)
- Claude 4 and Anthropic's bet on code - by Nathan Lambert
- Holistic Evaluation of Language Models (HELM)
- [PDF] Technical Performance - Stanford HAI
- Peer review of GPT-4 technical report and systems card
- HELM Capabilities - Stanford CRFM
- The Claude 4 System Card is a Wild Read - by Charlie Guo
- HELM: Holistic Evaluation of Language Models - VerifyWise
- GPT-4 Release: Briefing on Model Improvements and Limitations
추천 기사
추천 기사
-
생성형 AI와 파운데이션 모델
AI가 텍스트를 반환하는 시대, 인용의 경계는 어디에 그어질까
생성 AI의 학습 활용과 출력 재현을 둘러싼 미국 저작권 논쟁을 페어유스의 4요소, 주요 소송, 저작권청 보고서, 라이선스 확대 흐름을 통해 정리하는 기사다. AI의 ‘인용’으로 보이는 것이 법적으로 어디까지 허용될 수 있을지, 그 경계가 아직 명확히 확정되지 않은 현재의 위치를 추적한다.
-
생성형 AI와 파운데이션 모델
LLM은 그럴듯하게 보인다. 그러나 그 작은 위화감은 어디로 가는가
LLM에 의한 의사결정 지원을 단순한 환각(할루시네이션) 대책이 아니라 ‘전제에 대한 위화감’을 어떻게 다룰 것인지의 관점에서 정리한 기사다. Kahneman과 Klein의 직관 연구, AI 설명을 포함한 의사결정 실험, LLM 지원 의사결정 리뷰, 그리고 AI의 한계를 꿰뚫는 직관 유형을 단서로 인간 판단이 남겨야 할
-
생성형 AI와 파운데이션 모델
AI가 읽고, 복사하고, 답할 때: 미국 내 페어 유스(fair use) 경계는 점점 좁아진다
이 글은 최근 미국 저작권청의 보고서, 2025년 예정된 Thomson Reuters 대 Ross Intelligence 판결, 그리고 생성형 AI 관련 소송 동향을 연결하여 분석한다.