
OpenAI Memperkenalkan Model Suara Baru untuk Membangun Asisten AI Generasi Berikutnya

OpenAI telah mengumumkan peluncuran layanan API Realtime, yang didukung oleh model gpt-realtime baru yang dirancang untuk menciptakan asisten suara yang lebih cerdas dan responsif. Inovasi inti adalah pemrosesan audio end-to-end. Berbeda dengan sistem tradisional yang mengubah ucapan menjadi teks, menganalisis teks tersebut, dan kemudian menghasilkan balasan robotik, gpt-realtime bekerja langsung dengan audio. Pendekatan ini secara dramatis mengurangi latensi respons dan memungkinkan replikasi intonasi, emosi, dan nuansa halus percakapan alami yang jauh lebih akurat.
Model baru ini menunjukkan pemahaman konteks yang lebih baik dan dapat menangani instruksi kompleks dengan mudah. Seorang asisten yang didukung olehnya dapat mendikte angka dengan sempurna, membaca penafian hukum secara verbatim, dan beralih antara bahasa di tengah kalimat tanpa kesulitan. Ia juga telah belajar mengenali isyarat non-verbal seperti tawa atau jeda, menyesuaikan nada percakapan sesuai kebutuhan.
Model suara ini juga multimodal. Pengguna dapat mengirim tangkapan layar atau foto, dan asisten dapat menganalisis dan memberikan komentar tentangnya. Selain itu, model ini mendukung telepon SIP, membuka jalan untuk mengintegrasikan agen suara ini ke dalam sistem PBX perusahaan dan jaringan telepon standar.
Akses ke API Realtime dan model gpt-realtime sekarang terbuka untuk semua pengembang, meskipun belum akan diluncurkan untuk akses publik umum atau diintegrasikan ke dalam ChatGPT untuk saat ini. Teknologi langsung dari ucapan ke ucapan ini mengatasi kekurangan utama dari asisten suara saat ini — waktu respons yang lambat dan penyampaian yang robotik — membawa kita lebih dekat ke era di mana berbicara dengan AI di telepon atau dalam aplikasi akan hampir tidak dapat dibedakan dari percakapan dengan orang lain.
Peluncuran ini mengikuti awal yang agak sulit bagi OpenAI bulan ini. Rilis awal bulan Agustus dari bot ChatGPT generasi kelima mereka mendapat tanggapan yang beragam. Keluhan pengguna mendorong perusahaan untuk segera melakukan penyesuaian pada layanan dan bahkan sementara mengembalikan akses ke model sebelumnya. Lanskap kompetitif juga semakin memanas; baru-baru ini, startup Cina DeepSeek meluncurkan model DeepSeek-V3.1 yang diperbarui, yang diklaim oleh pengembangnya 2,5 kali lebih cepat daripada pendahulunya, mendukung jendela konteks 128K token, dan tetap sepenuhnya gratis.
Di tengah kesulitan teknis GPT-5 dan kemajuan dari pesaing, OpenAI kemungkinan fokus pada penyempurnaan model unggulannya dan memperluas ekosistemnya untuk mendapatkan kembali kepercayaan pengguna dan mengukuhkan posisinya di pasar.
-
OpenAI Memperkuat Privasi ChatGPT: Enkripsi Chat dalam Pengembangan
-
OpenAI AI Altman Mengalahkan Grok Musk 4-0 di Final Catur Kaggle
-
OpenAI Meluncurkan GPT-5 untuk Semua: Pengkodean Instan & Lebih Sedikit Kesalahan
-
AI OpenAI Memecahkan 6 Programmer Teratas di Seluruh Dunia di IOI 2025
-
OpenAI Setuju untuk Mengembalikan GPT-4o Setelah Peluncuran GPT-5 yang Gagal, Merilis Patch Pertama