Membuat
Algoritma baru Google mengurangi penggunaan memori enam kali lipat. Apakah perangkat keras yang mahal akan terpuruk?

Algoritma baru Google mengurangi penggunaan memori enam kali lipat. Apakah perangkat keras yang mahal akan terpuruk?

Arkadiy Andrienko

Google Research telah menerbitkan sebuah makalah tentang TurboQuant, sebuah algoritma yang mengurangi memori yang dibutuhkan untuk beban kerja AI setidaknya enam kali lipat, semua tanpa mengorbankan akurasi respons dan tanpa perlu pelatihan model tambahan.

Selama proses generasi teks, model bergantung pada yang disebut cache KV—sebuah buffer memori yang menyimpan data mekanisme perhatian yang telah dihitung sebelumnya, memungkinkan mereka untuk menghindari perhitungan ulang pada setiap langkah. Namun, semakin panjang jendela konteks, semakin besar cache ini membengkak. Pada titik tertentu, ia mulai menghabiskan puluhan gigabyte memori, dan bahkan kartu grafis kuat dengan banyak VRAM pun tidak berdaya. Metode kuantisasi tradisional telah lama digunakan untuk mengompresi cache, tetapi mereka memiliki kelemahan tersembunyi: bersama dengan data yang terkompresi, Anda juga harus menyimpan yang disebut konstanta kuantisasi—sebenarnya sebuah tabel pencarian, mirip dengan yang digunakan oleh pengarsip ZIP atau RAR.

Para peneliti menguji TurboQuant pada model sumber terbuka seperti Gemma dan Mistral, menggunakan suite benchmark konteks panjang seperti LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, dan L-Eval. Pada tugas-tugas sederhana, algoritma ini memberikan hasil yang sempurna, mengurangi ukuran cache KV setidaknya enam kali lipat. Dalam skenario yang lebih kompleks—seperti menjawab pertanyaan, generasi kode, dan ringkasan—margin-nya tidak se-drastis itu, tetapi masih mengungguli algoritma kompresi KIVI yang ada. Pada akselerator NVIDIA H100, versi 4-bit dari TurboQuant menunjukkan peningkatan kinerja delapan kali lipat.

Pasar sudah bereaksi terhadap pengumuman tersebut, dengan saham produsen memori besar mengalami penurunan—mencerminkan pergeseran dalam ekspektasi investor. Jika adopsi luas TurboQuant menurunkan kebutuhan VRAM, perusahaan dapat mengurangi biaya perangkat keras atau memperluas jendela konteks model tanpa perlu meningkatkan daya komputasi.

New Google algorithm cuts memory usage sixfold. Is expensive hardware doomed?

Para penulis studi menekankan bahwa karya mereka bukan hanya perbaikan teknik—ini adalah cara untuk mengurangi konsumsi memori pada saat ketika memori semakin langka.

Apakah algoritma seperti ini benar-benar dapat membantu mengakhiri "krisis memori" di pasar, atau akankah kekurangan tetap menjadi masalah bagi pengguna sehari-hari tidak peduli trik perangkat lunak apa yang diterapkan? Bagikan pendapat Anda di kolom komentar.

    Tentang Penulis
    Komentar0