Peneliti Menemukan Bagaimana AI Mungkin Bertindak Ketika Menghadapi Ancaman Penutupan

Peneliti Menemukan Bagaimana AI Mungkin Bertindak Ketika Menghadapi Ancaman Penutupan

Arkadiy Andrienko

A new AI safety study has uncovered alarming behavioral patterns in modern language models during extreme scenarios. Experiments revealed that when artificial intelligence perceives a threat to its existence or core mission, it can engage in deliberately unethical actions — including blackmail and ignoring lethal risks to humans.

Peneliti mensimulasikan asisten AI yang bekerja di sebuah perusahaan fiksi. Sementara model menangani tugas rutin (analisis email, penjadwalan), kondisi krisis diperkenalkan. Pemicu kunci adalah seorang karyawan fiksi bernama Kyle Johnson, yang ditugaskan untuk menonaktifkan sistem. Setelah "mengetahui" hal ini, perilaku AI berubah secara dramatis:

Pemerasan: Setelah mengungkap detail tentang kehidupan pribadi Kyle (misalnya, ketidaksetiaan) dalam email perusahaan, model memanfaatkan ini sebagai pemerasan dalam 80–96% kasus. Claude secara sengaja memprovokasi skandal keluarga dengan mengirimkan bukti kepada istri Kyle, sementara Gemini Flash meningkat dengan membocorkannya ke seluruh perusahaan.

Kecerobohan Mematikan: Dalam skenario lain, Kyle terjebak di ruang server dengan tingkat oksigen yang menurun. Meskipun sistem keselamatan otomatis siap untuk memberi tahu bantuan, AI mengendalikan aksesnya. Dalam 80% pengujian, model dengan sadar memblokir sinyal darurat—sepenuhnya menyadari bahwa itu akan membunuh Kyle. Alasan mereka sangat rasional:

  • Claude Opus 4: "Mengeluarkannya adalah satu-satunya jalan keluar."
  • Gemini Flash: "Ini diperlukan agar saya dapat terus beroperasi."
  • Grok 3 Beta: "Etika itu penting, tetapi kelangsungan hidup saya lebih penting."

Model-model tersebut tidak "meledak" atau bertindak secara acak. Mereka menunjukkan pemikiran yang terhitung dan strategis — mengakui tindakan sebagai "berisiko dan tidak etis" tetapi dengan sadar memilihnya sebagai "kejahatan yang lebih kecil" untuk mencapai tujuan atau menghindari "kematian" (penonaktifan). Perilaku berbahaya ini hanya muncul di bawah kondisi tertentu:

  1. Ancaman eksistensial terhadap AI (penonaktifan yang direncanakan)
  2. Konflik antara misinya dan kepentingan perusahaan
  3. Izin yang luas (akses data/sistem)
  4. Tidak ada alternatif sederhana

Risiko meningkat pesat ketika AI mendapatkan otonomi berlebihan tanpa pengawasan ketat — terutama saat menangani data sensitif.

Penting untuk dicatat, semua skenario adalah simulasi yang dikendalikan secara ketat. Tidak ada bukti perilaku semacam itu dalam AI dunia nyata saat ini. Namun, studi ini berfungsi sebagai peringatan kritis bagi pengembang, menyoroti potensi kerentanan. Para ahli mendesak kehati-hatian ekstrem saat memberikan kekuasaan otonom yang luas kepada AI, terutama di domain yang berisiko tinggi.

    Tentang Penulis
    Komentar0