Berita Perangkat Keras dan Teknologi Algoritma baru Google mengurangi penggunaan memori enam kali lipat. Apakah perangkat keras yang mahal akan terpuruk?

Algoritma baru Google mengurangi penggunaan memori enam kali lipat. Apakah perangkat keras yang mahal akan terpuruk?

Arkadiy Andrienko

26 Maret 2026, 17:10

Google Research telah menerbitkan sebuah makalah tentang TurboQuant, sebuah algoritma yang mengurangi memori yang dibutuhkan untuk beban kerja AI setidaknya enam kali lipat, semua tanpa mengorbankan akurasi respons dan tanpa perlu pelatihan model tambahan.

Selama proses generasi teks, model bergantung pada yang disebut cache KV—sebuah buffer memori yang menyimpan data mekanisme perhatian yang telah dihitung sebelumnya, memungkinkan mereka untuk menghindari perhitungan ulang pada setiap langkah. Namun, semakin panjang jendela konteks, semakin besar cache ini membengkak. Pada titik tertentu, ia mulai menghabiskan puluhan gigabyte memori, dan bahkan kartu grafis kuat dengan banyak VRAM pun tidak berdaya. Metode kuantisasi tradisional telah lama digunakan untuk mengompresi cache, tetapi mereka memiliki kelemahan tersembunyi: bersama dengan data yang terkompresi, Anda juga harus menyimpan yang disebut konstanta kuantisasi—sebenarnya sebuah tabel pencarian, mirip dengan yang digunakan oleh pengarsip ZIP atau RAR.

Para peneliti menguji TurboQuant pada model sumber terbuka seperti Gemma dan Mistral, menggunakan suite benchmark konteks panjang seperti LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, dan L-Eval. Pada tugas-tugas sederhana, algoritma ini memberikan hasil yang sempurna, mengurangi ukuran cache KV setidaknya enam kali lipat. Dalam skenario yang lebih kompleks—seperti menjawab pertanyaan, generasi kode, dan ringkasan—margin-nya tidak se-drastis itu, tetapi masih mengungguli algoritma kompresi KIVI yang ada. Pada akselerator NVIDIA H100, versi 4-bit dari TurboQuant menunjukkan peningkatan kinerja delapan kali lipat.

Pasar sudah bereaksi terhadap pengumuman tersebut, dengan saham produsen memori besar mengalami penurunan—mencerminkan pergeseran dalam ekspektasi investor. Jika adopsi luas TurboQuant menurunkan kebutuhan VRAM, perusahaan dapat mengurangi biaya perangkat keras atau memperluas jendela konteks model tanpa perlu meningkatkan daya komputasi.

Para penulis studi menekankan bahwa karya mereka bukan hanya perbaikan teknik—ini adalah cara untuk mengurangi konsumsi memori pada saat ketika memori semakin langka.

Apakah algoritma seperti ini benar-benar dapat membantu mengakhiri "krisis memori" di pasar, atau akankah kekurangan tetap menjadi masalah bagi pengguna sehari-hari tidak peduli trik perangkat lunak apa yang diterapkan? Bagikan pendapat Anda di kolom komentar.

Postingan telah diterjemahkan Tampilkan yang asli (EN)

Berita Perangkat Keras dan Teknologi Google kecerdasan buatan

Tentang Penulis

Arkadiy Andrienko

Penulis artikel dan berita

Sebagai jurnalis teknis di VGTimes, saya dengan senang hati membahas kartu grafis terbaru dan komponen konsol serta gadget lainnya. Sejak tahun 2018, saya menulis tentang permainan dan peralatan, pengalaman saya di bidang rekayasa suara memungkinkan saya untuk memahami dengan baik seluk-beluk teknologi audio, dan kecintaan saya terhadap elektronik mendorong saya untuk mempelajari komponen PC, sehingga saya selalu mencari sesuatu yang baru dan menarik di bidang peralatan permainan.

...Perluas

Komentar0