Sebuah tim penelitian di OpenAI telah menerbitkan penyelidikan mendalam tentang mengapa model bahasa seperti ChatGPT terkadang dengan percaya diri menciptakan fakta. Temuan mereka menunjukkan adanya cacat mendasar dalam cara model ini dilatih dan diuji — sebuah sistem yang memberi penghargaan pada tebakan daripada mengakui kurangnya pengetahuan.
Para peneliti menggunakan analogi yang menarik: seorang siswa yang mengikuti ujian pilihan ganda. Jika jawaban kosong mendapatkan nilai nol, tetapi sebuah tebakan memiliki setidaknya beberapa kemungkinan untuk benar dan mendapatkan poin, pilihan rasional selalu untuk menebak. Hal yang sama berlaku untuk AI. Tolok ukur standar seperti MMLU (Massive Multilingual Language Understanding) beroperasi pada sistem penilaian benar/salah biner. Model yang mengatakan "Saya tidak tahu" secara otomatis gagal, sementara model yang mengambil risiko dan menebak kadang-kadang benar. Ini, pada dasarnya, mengajarkan algoritma untuk menggertak.
Perilaku bermasalah ini dimulai selama fase pra-pelatihan awal pada kumpulan data teks yang luas. Beberapa fakta, terutama yang tidak jelas, secara statistik hampir tidak mungkin diprediksi dengan kepastian mutlak. Namun, pola "menebak" menjadi tertanam kuat kemudian, ketika pengembang menyempurnakan model untuk unggul dalam tes yang mengutamakan skor akurasi tinggi di atas segalanya.
Dalam studi mereka, OpenAI mengusulkan perubahan dalam cara kita mengevaluasi kinerja AI. Para penulis menyarankan agar model harus dihukum berat untuk kebohongan yang percaya diri tetapi diberikan kredit parsial untuk mengekspresikan ketidakpastian dengan benar atau mengatakan "Saya tidak tahu." Ini akan mengalihkan fokus perlombaan pengembangan dari menciptakan model "terpintar" menjadi membangun asisten yang lebih dapat diandalkan dan jujur.
Para ahli menekankan bahwa halusinasi ini bukanlah kesalahan mistis tetapi masalah sistemik yang dipahami dengan baik. Bahkan model modern yang paling canggih pun tidak kebal. Memikirkan kembali sistem evaluasi kita bisa menjadi kunci untuk membangun AI yang memiliki pemahaman lebih baik tentang batasan pengetahuannya sendiri.