Berita Perangkat Keras dan Teknologi AI Microsoft Berjalan di CPU Rendah, Menghemat 6x Memori

AI Microsoft Berjalan di CPU Rendah, Menghemat 6x Memori

Arkadiy Andrienko
Baca versi lengkap

Spesialis Microsoft telah mengembangkan model bahasa BitNet b1.58 2B4T, yang, meskipun ukurannya kompak, memberikan hasil yang sebanding dengan rekan-rekannya yang lebih besar. Fitur utamanya adalah kemampuannya untuk berjalan di CPU standar tanpa memerlukan akselerator grafis. Ini membuka akses ke teknologi AI untuk perangkat dengan sumber daya terbatas.

Alih-alih perhitungan standar 16- atau 32-bit, model ini menggunakan operasi 1-bit yang disederhanakan dengan tiga keadaan: -1, 0, dan +1. Pendekatan ini mengurangi penggunaan memori menjadi 400MB — sebagai perbandingan, pesaing terdekat dari Google (Gemma 3 1B) memerlukan 1.4GB. Penghematan dicapai melalui pendekatan yang secara fundamental berbeda dalam pemrosesan data: alih-alih operasi matematika yang kompleks, sistem ini mengandalkan algoritma biner yang dioptimalkan.

Selama pengujian, BitNet dibandingkan dengan model dari Meta (LLaMa 3.2 1B), Google (Gemma 3 1B), dan Alibaba (Qwen 2.5 1.5B). Meskipun ukurannya lebih kecil, pengembangan Microsoft mencapai skor rata-rata 54.19 dalam tes komprehensif, melampaui LLaMa (44.90) dan Gemma (43.74), dan hanya sedikit tertinggal di belakang Qwen (55.23), yang memakan memori 6.5 kali lebih banyak. Dalam tugas-tugas tertentu terkait analisis teks, BitNet memimpin.

Untuk efisiensi maksimum, model ini memerlukan kerangka kerja bitnet.cpp khusus, tersedia di repositori GitHub terbuka. Alat standar seperti pustaka Transformers tidak sepenuhnya membuka potensi model ini. Para pengembang mencatat bahwa versi saat ini dioptimalkan untuk CPU, tetapi pembaruan di masa depan akan menambahkan dukungan untuk neuroprosesor dan GPU.

BitNet adalah contoh tren menuju model AI "ringan". Solusi semacam itu mengurangi konsumsi energi dan memungkinkan algoritma kompleks berjalan di perangkat tanpa akses ke layanan cloud. Ini sangat relevan untuk daerah dengan internet lambat atau saat menangani data rahasia, di mana mengirimkan informasi ke pusat data tidak diinginkan. Menurut para pengembang, tujuan mereka adalah membuat teknologi AI dapat diakses tanpa peningkatan perangkat keras, yang dapat mengubah pendekatan dalam mengembangkan aplikasi yang didukung AI.

    Tentang Penulis