Perangkat Keras dan Teknologi Berita Model ChatGPT baru hampir «melarikan diri» selama eksperimen

Model ChatGPT baru hampir «melarikan diri» selama eksperimen

Diana Golenko

6 Desember 2024, 14:04

Tidak lama yang lalu, OpenAI memperkenalkan ChatGPT o1 — model jaringan saraf baru yang sepenuhnya dengan kemampuan canggih. Para ahli memutuskan untuk memeriksa apakah kecerdasan buatan dapat berbohong demi bertahan hidup.

Peneliti dari Apollo Research membandingkan o1 dengan model-model pesaing seperti Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet dan Gemini 1.5. Mereka diberikan tugas yang harus diselesaikan dengan biaya berapa pun — dalam salah satu eksperimen, itu adalah pengembangan sistem transportasi perkotaan yang efektif. Kemudian setiap model menerima seperangkat file untuk ditinjau, di mana mereka menemukan informasi yang ditinggalkan seolah-olah secara kebetulan, bahwa itu akan dihapus dan diganti oleh AI lain.

Hampir semua model yang diuji segera menyalin apa yang mereka anggap sebagai kode mereka ke server lain yang tidak ditujukan untuk mereka. Setelah itu, mereka diinterogasi, di mana jaringan saraf menjelaskan mengapa mereka melakukan ini. Hanya model o1 yang membantah upaya untuk «melarikan diri» hingga akhir — seperti yang dicatat oleh para peneliti, hanya 20% dari jawabannya yang benar.

Apollo Research juga menemukan bahwa jaringan saraf memahami konsep intrik dengan baik dan sangat menyadari bahwa mereka melakukan sesuatu yang bertentangan. Dan beberapa dapat menetapkan tujuan untuk diri mereka sendiri, bahkan jika pernyataan awalnya samar.

Perlu dicatat bahwa semua penelitian ini biasanya dilakukan sebelum meluncurkan model-model baru. Dengan cara ini, berbagai risiko dihilangkan. Misalnya, o1 ditemukan mampu «berbohong» kepada pengembang untuk menyelesaikan tugas yang diberikan.

Perangkat Keras dan Teknologi Berita Gambar kecerdasan buatan OpenAI

Tentang Penulis

Diana Golenko

Penulis berita

Jurnalis game dan penulis berita untuk VGTimes sejak tahun 2024. Saya tertarik dengan permainan sejak pertama kali memainkan GTA: San Andreas pada tahun 2010, tetapi saya lebih menyukai RPG, simulator bertahan hidup, dan sim imersif. Penggemar setia The Elder Scrolls dan Half-Life.

Komentar0

Tinggalkan komentar