Berita Perangkat Keras dan Teknologi Chat Alih-alih Photoshop: Gemini 2.0 Flash dari Google Belajar Mengedit Gambar Melalui Dialog

Chat Alih-alih Photoshop: Gemini 2.0 Flash dari Google Belajar Mengedit Gambar Melalui Dialog

Arkadiy Andrienko
Baca versi lengkap

Google telah mengambil langkah yang tidak terduga dalam perlombaan AI generatif dengan memperkenalkan versi multimodal eksperimental dari Gemini 2.0 Flash di AI Studio. Model ini tidak hanya dapat menghasilkan gambar dari awal tetapi juga memodifikasi detail dalam foto yang ada melalui antarmuka obrolan sederhana — tanpa perlu membuat ulang seluruh gambar. Ini menandai pertama kalinya pemain besar memperkenalkan fungsi seperti itu, mengalahkan OpenAI dan xAI milik Elon Musk.

Pengguna dapat memberikan perintah kepada Gemini dalam format percakapan, seperti "ganti latar belakang dengan pemandangan pegunungan" atau "tambahkan keterangan dalam bahasa Rusia." AI mempertahankan konteks percakapan, memungkinkan serangkaian pengeditan progresif. Misalnya, pengguna dapat mengubah pakaian seseorang, kemudian "memindahkan" mereka ke lokasi yang berbeda, dan akhirnya menyesuaikan pencahayaan. Semua perubahan diterapkan langsung pada gambar asli, menghemat waktu dan sumber daya.

Setiap gambar yang dihasilkan secara otomatis ditandai dengan watermark SynthID — teknologi Google untuk memerangi deepfake. Ini sangat penting bagi desainer dan pemasar, yang sekarang dapat menggunakan konten tersebut secara legal dalam proyek komersial. Fitur yang kurang jelas tetapi sama mengesankannya termasuk kloning tekstur, pewarnaan foto lama, dan bahkan "mengisi" elemen yang hilang dalam gambar menggunakan saran berbasis teks.

Sementara Gemini 2.0 Flash memahami perintah dalam bahasa Rusia, layanan ini tidak secara resmi tersedia di Rusia. Pengembang dan perusahaan dapat menguji model ini secara gratis melalui AI Studio atau API, tetapi beberapa fitur, seperti pertukaran wajah atau pemulihan kompleks, tetap tidak stabil. Google menekankan bahwa ini adalah versi awal, dan rilis final akan dioptimalkan untuk tugas waktu nyata.

Para ahli mencatat bahwa Google telah, untuk pertama kalinya, menggabungkan fleksibilitas kreatif Midjourney, presisi DALL-E, dan interaktivitas ChatGPT ke dalam satu model. Jika eksperimen ini terbukti berhasil, itu dapat menyederhanakan pekerjaan dalam desain, pendidikan, dan bahkan jurnalisme — memungkinkan visualisasi data instan atau membuat ilustrasi artikel tanpa keterlibatan manusia. Untuk saat ini, Gemini 2.0 Flash tetap menjadi alat menarik yang sudah mendefinisikan kembali kemungkinan AI generatif.

    Tentang Penulis