Retro-Future Columnist
Semakin sering model AI diperbarui, angka performanya semakin mencolok. Namun, kilap tersebut sering kali menutupi sensasi langsung saat menggunakannya. Kebiasaan mengukur performa dengan tes tunggal seperti MMLU membuat kemajuan tampak lebih mudah dipahami, tetapi justru mereduksi gambaran kerja nyata seperti kelancaran percakapan, penanganan teks panjang, integrasi alat, dan aspek keamanan.[3][6] Fakta bahwa benchmark meningkat tidak selalu sejalan dengan rasa bahwa pekerjaan menjadi lebih ringan.
Fenomena ketidaksesuaian tersebut telah dirumuskan secara sistematis oleh Stanford CRFM melalui HELM.[1][3] HELM menekankan evaluasi multifaset yang tidak hanya menilai akurasi, tapi juga kalibrasi, ketahanan, keadilan, toksisitas, dan efisiensi, dengan posisi bahwa satu skor tunggal tidak bisa mengukur model secara menyeluruh.[3][10] Di ranah lain, HEIM untuk gambar menunjukkan bahwa tidak ada model yang unggul di semua aspek.[3][5] 'Terkuat' AI tidak pernah dapat diringkas dalam satu tabel.
Meski begitu, perusahaan tetap menonjolkan angka-angka tersebut. Laporan teknis yang dibuka ke publik menunjukkan GPT-4 memperlihatkan peningkatan di benchmark utama sekaligus mencantumkan batasan serta kasus kegagalan.[7][11] Claude 4 dari Anthropic memberi catatan pada cara menghasilkan skor performa dan membedakan penggunaan pemikiran yang diperluas.[2] Google Gemini pun mengakui bahwa benchmark dan penggunaan nyata tidak selalu sama.[6] Perusahaan berlomba dengan angka bukan semata pamer, tapi karena pasar tidak punya alat ukur yang bisa diperbandingkan sehingga kemampuan yang bisa diukur itu sendiri jadi produk.
Ada sebuah pemandangan di mana riset dan penjualan duduk berdampingan. Laporan tahunan seperti AI Index mendokumentasikan secara netral kompetisi kapabilitas yang berlangsung, yang merupakan kemajuan teknologi sekaligus penjelasan kepada investor, pengembang, dan pihak pengadaan.[6][8] Bagi perusahaan, benchmark adalah instrumen yang menunjukkan performa model dan sekaligus rambu yang menarik modal. Makanya, skor terus diperbarui, judul singkat, dan tabel perbandingan bertambah banyak.
Namun, meragukan benchmark bukan berarti berhenti mengevaluasi. Malah sebaliknya, evaluasi yang tidak bisa menjelaskan apa yang diukur sulit bertahan dalam keputusan praktis. Misalnya, pembuatan kode, menjaga konteks panjang, pengelolaan data internal perusahaan, atau batasan keamanan tidak terlihat dengan cukup lewat tes akademis umum.[2][4][6] Pendekatan Claude 4 yang menonjolkan keamanan dan evaluasi penggunaan nyata lebih menggeser perhatian dari mengukur kecerdasan ke cara kegagalan model.[2][4] Di sana terlihat bayangan budaya evaluasi berikutnya.
Di sisi lain, sulit memastikan perbandingan mana yang benar-benar adil. Benchmark dengan nama sama bisa berbeda pra-pengolahan dan konfigurasi, dan jika ada data training yang bocor, angka jadi cerminan ingatan bukan kemampuan.[9][10] Sekitar Claude 4, studi keamanan terbuka memicu perdebatan soal kontaminasi benchmark, menunjukkan pembuatan tes yang bagus pun bisa memunculkan distorsi baru.[9] Yang dibutuhkan adalah keterbukaan syarat evaluasi yang bisa direplikasi. Apa yang dipakai, bagaimana pengukurannya, dan di mana verifikasi eksternal dapat dilakukan.
Masalah ini juga terkait dengan kebiasaan laporan berita. Setiap model baru keluar, judul artikel cenderung membandingkan dan fluktuasi skor menjadi berita. Namun, yang dibutuhkan pengguna bukan papan peringkat melainkan respons yang tidak mengganggu alur kerja dan interaksi yang tidak melelahkan meski dipakai lama. Ada perasaan "AI tak lagi seperti perangkat lunak, ia seperti atmosfer." Jika ada sensasi seperti itu, ia muncul bukan di atas tabel performa, tapi dalam suasana ruang kerja sehari-hari.[5][6] Benchmark tidak bisa sepenuhnya merefleksikan suasana tersebut.
Jadi, mengapa perusahaan tidak bisa berhenti? Jawabannya sederhana: angka mudah diterima pasar. Bagi peneliti, angka adalah bahasa umum pembanding; bagi sales, bahan pembujuk; bagi investor, bukti kurva pertumbuhan.[6][8] Tapi makin mudah dan kuat angka itu, nilai sesungguhnya yang dirasakan pengguna makin terpinggirkan. Respons alami, sedikit halusinasi, ketahanan tugas panjang, akuntabilitas, rasa aman—semua itu akan kabur dalam satu skor.
Karenanya, angka yang harus dibaca ke depan tidak hanya satu. Selain skor model, penting melihat kondisi pengukuran, kegagalan apa yang tersembunyi di lampiran, dan seberapa banyak evaluasi penggunaan nyata yang dipublikasikan. Benchmark bisa menjadi suar masa depan AI, tapi di malam berkabut cahaya itu bisa menyesatkan jarak.[1][3][6] Yang harus diperhatikan selanjutnya bukan peringkat itu sendiri, tapi arah pemikiran desain evaluasi. [1,2,6,9][1][2][6][9]
Referensi artikel mencakup laporan teknis dan evaluasi dari Stanford CRFM, Anthropic, Google, serta pengamatan ahli yang menyoroti aspek teknis dan metodologi benchmark model AI.[1][2][3][4]
Referensi
Referensi
Tag angka kecil dalam isi artikel merujuk ke sumber di bawah ini.
- AI21 Labs: Jurassic-2
- Introducing Claude 4 - Anthropic
- Holistic Evaluation of Language Models (HELM)
- Claude 4 and Anthropic's bet on code - by Nathan Lambert
- Holistic Evaluation of Language Models (HELM)
- [PDF] Technical Performance - Stanford HAI
- Peer review of GPT-4 technical report and systems card
- HELM Capabilities - Stanford CRFM
- The Claude 4 System Card is a Wild Read - by Charlie Guo
- HELM: Holistic Evaluation of Language Models - VerifyWise
- GPT-4 Release: Briefing on Model Improvements and Limitations
ARTIKEL PILIHAN
Artikel pilihan
-
AI generatif dan model fondasi
Era AI Menghasilkan Teks: Di Mana Batasan Kutipan Ditentukan?
Artikel ini merangkum kontroversi hak cipta di AS mengenai pemanfaatan pembelajaran dan reproduksi oleh AI generatif, melalui aspek empat faktor fair use, litigasi utama, laporan d
-
AI generatif dan model fondasi
LLM Terlihat Benar. Namun, Ke mana Perginya Perasaan Tidak Nyaman Kecil Itu?
Artikel ini menyajikan perspektif tentang dukungan pengambilan keputusan menggunakan LLM, bukan hanya sebagai penanganan halusinasi, melainkan bagaimana memperlakukan 'perasaan tid
-
AI generatif dan model fondasi
Ketika AI Membaca, Menyalin, dan Menjawab: Batasan Fair Use Semakin Menyempit
Artikel ini menghubungkan laporan terbaru US Copyright Office, keputusan tahun 2025 dalam kasus Thomson Reuters v. Ross Intelligence, dan perkembangan perselisihan hukum tentang AI