Yeni Google algoritması bellek kullanımını altı kat azaltıyor. Pahalı donanımın kaderi mi belirsiz?
Google Araştırma TurboQuant üzerine bir makale yayınladı; bu algoritma, AI iş yükleri için gereken bellek miktarını en az altı kat azaltıyor, tüm bunları yanıt doğruluğundan ödün vermeden ve ek model eğitimi gerektirmeden gerçekleştiriyor.
Metin üretimi sırasında, modeller, daha önce hesaplanmış dikkat mekanizması verilerini depolayan KV önbelleğine dayanır; bu, her adımda yeniden hesaplamaktan kaçınmalarını sağlar. Ancak bağlam penceresi uzadıkça, bu önbellek büyür. Belirli bir noktada, on gigabaytlarca bellek tüketmeye başlar ve hatta tonlarca VRAM'e sahip güçlü grafik kartları çaresiz kalır. Geleneksel kuantizasyon yöntemleri, önbelleği sıkıştırmak için uzun zamandır kullanılmaktadır, ancak bunların gizli bir dezavantajı vardır: sıkıştırılmış verilerle birlikte, sözde kuantizasyon sabitlerini de depolamanız gerekir; bu, ZIP veya RAR arşivleyicilerin kullandığına benzer bir arama tablosudur.
Araştırmacılar, TurboQuant'ı Gemma ve Mistral gibi açık kaynak modeller üzerinde, LongBench, Needle In A Haystack, ZeroSCROLLS, RULER ve L-Eval gibi uzun bağlamlı benchmark setleri kullanarak test ettiler. Basit görevlerde, algoritma kusursuz sonuçlar verdi ve KV önbellek boyutunu en az altı kat azalttı. Daha karmaşık senaryolar—soru yanıtlama, kod üretimi ve özetleme gibi—için fark o kadar dramatik değildi, ancak mevcut KIVI sıkıştırma algoritmasını yine de geride bıraktı. NVIDIA H100 hızlandırıcılarında, TurboQuant'ın 4-bit versiyonu sekiz kat performans artışı gösterdi.
Piyasa, duyuruya zaten tepki verdi; büyük bellek üreticilerinin hisseleri değer kaybetti—bu, yatırımcı beklentilerinde bir değişimi yansıtıyor. Eğer TurboQuant'ın yaygın benimsenmesi VRAM gereksinimlerini azaltırsa, şirketler ya donanım maliyetlerini düşürebilir ya da hesaplama gücünü artırmadan model bağlam pencerelerini genişletebilir.
Çalışmanın yazarları, çalışmalarının sadece bir mühendislik çözümü olmadığını vurguluyor; bu, bellek tüketimini azaltmanın bir yoludur ve bellek giderek daha kıt hale gelirken önemlidir.
Böyle bir algoritma gerçekten piyasadaki "bellek krizine" son verebilir mi, yoksa yazılım hileleri ne olursa olsun, bu kıtlık günlük kullanıcılar için bir sorun olmaya devam mı edecek? Düşüncelerinizi yorumlarda paylaşın.
