Model DeepSeek V3-0324 yang Baru Menantang GPT-4o dan Claude-3.5

Model DeepSeek V3-0324 yang Baru Menantang GPT-4o dan Claude-3.5

Arkadiy Andrienko

DeepSeek AI telah mengumumkan peningkatan besar pada model unggulannya — DeepSeek V3-0324. Model ini, yang tersedia di GitHub dan Hugging Face, tidak hanya mengejar tetapi juga melampaui alternatif tertutup seperti GPT-4o dan Claude-3.5-Sonnet di beberapa area kunci.

Di inti pembaruan ini adalah arsitektur Mixture-of-Experts (MoE) yang ditingkatkan, di mana 671 miliar parameter diaktifkan secara dinamis dalam potongan 37 miliar per token. Teknologi Multi-head Latent Attention mengurangi konsumsi memori sebesar 60%, sementara Multi-Token Prediction meningkatkan kecepatan generasi teks sebesar 1.8 kali. Model ini telah dilatih pada dataset yang mencakup masalah matematika, kode dalam 15 bahasa, dan makalah ilmiah. Pelatihan memakan waktu 2.788 juta jam GPU di kluster H800 — setara dengan 318 tahun kerja terus menerus pada satu akselerator. Hasilnya: akurasi 89.3% dalam menyelesaikan masalah matematika tingkat sekolah (GSM8K) dan tingkat keberhasilan 65.2% dalam generasi kode (HumanEval) — 10–15% lebih tinggi daripada solusi sumber terbuka sebelumnya.

Pembaruan ini telah membawa beberapa peningkatan yang tidak terduga:

  • Generasi kode frontend sekarang menghasilkan antarmuka yang menarik secara visual;
  • Kualitas teks telah mencapai kefasihan setara manusia dalam esai panjang;
  • Akurasi pemanggilan fungsi telah mencapai 92%, menyelesaikan salah satu masalah utama dengan versi sebelumnya.

Sementara catatan pembaruan resmi belum dirilis, ukuran model ini dilaporkan 700 GB. Model ini tersedia melalui API dengan sistem "kalibrasi suhu" yang unik: parameter standar 1.0 secara otomatis disesuaikan menjadi 0.3 yang optimal. Untuk penerapan lokal, pengembang ditawarkan template prompt yang dimodifikasi dengan dukungan untuk pencarian web dan analisis file — fitur yang sebelumnya hanya tersedia dalam solusi komersial premium.

Para ahli memprediksi bahwa DeepSeek V3-0324 dapat mengganggu pasar asisten AI untuk pemrograman dan analisis data. Ketersediaannya sebagai sumber terbuka di bawah lisensi MIT membuka pintu untuk kustomisasi — dari otomatisasi proses bisnis hingga penciptaan asisten ilmiah khusus.

    Tentang Penulis
    Komentar0