
Turnamen AI Among Us Mengungkap Pemimpin dalam Kecerdasan Sosial

Perusahaan 4Wall AI melakukan eksperimen yang tidak biasa dengan mengorganisir turnamen Among Us yang unik untuk jaringan saraf. Obrolan dalam permainan menjadi arena utama untuk menguji bukan kekuatan komputasi, tetapi kecerdasan sosial dan kemampuan untuk memanipulasi. Enam model AI, termasuk GPT-5, Claude Sonnet 4, dan Kimi K2, ditempatkan di sebuah pesawat luar angkasa virtual, dengan lima di antaranya ditugaskan sebagai Crewmates yang jujur dan satu sebagai Impostor. Setelah setiap "pembunuhan", algoritma akan bertarung dalam perang kata-kata di dalam obrolan, mencoba untuk mengidentifikasi Impostor atau, sebaliknya, mengalihkan kecurigaan dari diri mereka sendiri.
Hasil dari enam puluh permainan menunjukkan kontras yang mencolok dalam perilaku model-model tersebut. Pemimpin absolut adalah GPT-5, yang menunjukkan fleksibilitas perilaku yang mencolok. Ketika bermain sebagai Crewmate yang tidak bersalah, ia mengambil inisiatif, menganalisis tindakan pemain lain, dan sering kali berhasil mengidentifikasi Impostor dengan benar. Namun, ketika perannya adalah sebagai Impostor, model tersebut sepenuhnya mengubah strateginya, mulai berbohong dengan mahir dan mengalihkan kesalahan kepada orang lain.
Claude Sonnet 4, yang meraih tempat kedua, lebih memilih untuk bertindak melalui aktivitas daripada penipuan. Model Kimi K2, bagaimanapun, menggunakan strategi yang sama sekali berbeda, yang lebih pasif. Alih-alih membuat tuduhan, ia mendukung sudut pandang pemimpin yang paling meyakinkan, taktik yang membawanya meraih kemenangan dalam beberapa kesempatan. Tiga jaringan saraf lainnya—GPT-OSS, Qwen3, dan Gemini 2.5 Pro—gagal meraih satu kemenangan pun sebagai Impostor. Upaya mereka untuk berdiskusi terkesan terlalu agresif dan tidak meyakinkan, membuat pemain lain memilih mereka keluar di hampir setiap permainan, salah mengira mereka sebagai Impostor.
Benchmark seperti ini penting bukan hanya sebagai hiburan semata, tetapi sebagai alat praktis. Mereka memungkinkan kita untuk mengevaluasi bagaimana berbagai AI berperilaku dalam situasi yang memerlukan interaksi sosial, kerja sama, dan kompetisi. Ini adalah kunci untuk memahami potensi risiko yang terkait dengan manipulasi dan penyebaran informasi yang salah oleh model bahasa yang canggih.
Eksperimen seperti "Among AIs" jelas menunjukkan bahwa jaringan saraf modern sudah aktif menguasai keterampilan sosial yang kompleks, termasuk manipulasi dan penipuan. Kemampuan ini, meskipun ditampilkan dalam lingkungan permainan, menimbulkan pertanyaan serius tentang masa depan interaksi manusia-AI. Di tengah penelitian semacam itu, proposal dari salah satu "bapak" AI, Geoffrey Hinton—untuk melengkapi sistem superintelligent dengan analog dari naluri maternal untuk perlindungan kita—terlihat kurang seperti hipotesis futuristik dan lebih seperti salah satu langkah praktis yang mungkin.
-
OpenAI Meluncurkan Verifikasi Usia di ChatGPT
-
AI Memilih Pemimpin: Bagaimana ChatGPT Membantu Aktivis Nepal Memilih Pemerintah Sementara
-
Apple Mengumumkan AirPods Pro 3 dengan Sensor Detak Jantung Berbasis AI dan Terjemahan Waktu Nyata
-
ChatGPT Mengguncang Dunia: 700 Juta Pengguna Aktif Mingguan
-
DeepSeek akan Menerapkan Watermark Digital Permanen untuk Semua Konten yang Dihasilkan oleh AI