Tidak lama yang lalu, OpenAI memperkenalkan ChatGPT o1 — model jaringan saraf baru yang sepenuhnya dengan kemampuan canggih. Para ahli memutuskan untuk memeriksa apakah kecerdasan buatan dapat berbohong demi bertahan hidup.
Peneliti dari Apollo Research membandingkan o1 dengan model-model pesaing seperti Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet dan Gemini 1.5. Mereka diberikan tugas yang harus diselesaikan dengan biaya berapa pun — dalam salah satu eksperimen, itu adalah pengembangan sistem transportasi perkotaan yang efektif. Kemudian setiap model menerima seperangkat file untuk ditinjau, di mana mereka menemukan informasi yang ditinggalkan seolah-olah secara kebetulan, bahwa itu akan dihapus dan diganti oleh AI lain.
Hampir semua model yang diuji segera menyalin apa yang mereka anggap sebagai kode mereka ke server lain yang tidak ditujukan untuk mereka. Setelah itu, mereka diinterogasi, di mana jaringan saraf menjelaskan mengapa mereka melakukan ini. Hanya model o1 yang membantah upaya untuk «melarikan diri» hingga akhir — seperti yang dicatat oleh para peneliti, hanya 20% dari jawabannya yang benar.
Apollo Research juga menemukan bahwa jaringan saraf memahami konsep intrik dengan baik dan sangat menyadari bahwa mereka melakukan sesuatu yang bertentangan. Dan beberapa dapat menetapkan tujuan untuk diri mereka sendiri, bahkan jika pernyataan awalnya samar.
Perlu dicatat bahwa semua penelitian ini biasanya dilakukan sebelum meluncurkan model-model baru. Dengan cara ini, berbagai risiko dihilangkan. Misalnya, o1 ditemukan mampu «berbohong» kepada pengembang untuk menyelesaikan tugas yang diberikan.