Haberler Donanım ve Teknolojiler Yeni Google algoritması bellek kullanımını altı kat azaltıyor. Pahalı donanımın kaderi mi belirsiz?

Yeni Google algoritması bellek kullanımını altı kat azaltıyor. Pahalı donanımın kaderi mi belirsiz?

Arkadiy Andrienko

26 Mart 2026, 17:10

Google Araştırma TurboQuant üzerine bir makale yayınladı; bu algoritma, AI iş yükleri için gereken bellek miktarını en az altı kat azaltıyor, tüm bunları yanıt doğruluğundan ödün vermeden ve ek model eğitimi gerektirmeden gerçekleştiriyor.

Metin üretimi sırasında, modeller, daha önce hesaplanmış dikkat mekanizması verilerini depolayan KV önbelleğine dayanır; bu, her adımda yeniden hesaplamaktan kaçınmalarını sağlar. Ancak bağlam penceresi uzadıkça, bu önbellek büyür. Belirli bir noktada, on gigabaytlarca bellek tüketmeye başlar ve hatta tonlarca VRAM'e sahip güçlü grafik kartları çaresiz kalır. Geleneksel kuantizasyon yöntemleri, önbelleği sıkıştırmak için uzun zamandır kullanılmaktadır, ancak bunların gizli bir dezavantajı vardır: sıkıştırılmış verilerle birlikte, sözde kuantizasyon sabitlerini de depolamanız gerekir; bu, ZIP veya RAR arşivleyicilerin kullandığına benzer bir arama tablosudur.

Araştırmacılar, TurboQuant'ı Gemma ve Mistral gibi açık kaynak modeller üzerinde, LongBench, Needle In A Haystack, ZeroSCROLLS, RULER ve L-Eval gibi uzun bağlamlı benchmark setleri kullanarak test ettiler. Basit görevlerde, algoritma kusursuz sonuçlar verdi ve KV önbellek boyutunu en az altı kat azalttı. Daha karmaşık senaryolar—soru yanıtlama, kod üretimi ve özetleme gibi—için fark o kadar dramatik değildi, ancak mevcut KIVI sıkıştırma algoritmasını yine de geride bıraktı. NVIDIA H100 hızlandırıcılarında, TurboQuant'ın 4-bit versiyonu sekiz kat performans artışı gösterdi.

Piyasa, duyuruya zaten tepki verdi; büyük bellek üreticilerinin hisseleri değer kaybetti—bu, yatırımcı beklentilerinde bir değişimi yansıtıyor. Eğer TurboQuant'ın yaygın benimsenmesi VRAM gereksinimlerini azaltırsa, şirketler ya donanım maliyetlerini düşürebilir ya da hesaplama gücünü artırmadan model bağlam pencerelerini genişletebilir.

Çalışmanın yazarları, çalışmalarının sadece bir mühendislik çözümü olmadığını vurguluyor; bu, bellek tüketimini azaltmanın bir yoludur ve bellek giderek daha kıt hale gelirken önemlidir.

Böyle bir algoritma gerçekten piyasadaki "bellek krizine" son verebilir mi, yoksa yazılım hileleri ne olursa olsun, bu kıtlık günlük kullanıcılar için bir sorun olmaya devam mı edecek? Düşüncelerinizi yorumlarda paylaşın.

Gönderi çevrildi Orijinalini göster (EN)

Haberler Donanım ve Teknolojiler Google yapay zeka

Yazar hakkında

Arkadiy Andrienko

Makale ve haberlerin yazarı

VGTimes'ta teknik bir gazeteci olarak, en yeni ekran kartlarını ve konsolların ve diğer gadget'ların içini aynı keyifle tartışıyorum. 2018 yılından beri oyunlar ve ekipmanlar hakkında yazıyorum, ses mühendisliği alanındaki deneyimim, ses teknolojilerinin inceliklerini iyi anlamamı sağladı ve elektroniğe olan sevgim, PC'nin iç yapısını öğrenmeye yönlendirdi, bu yüzden her zaman oyun ekipmanları alanında yeni ve ilginç bir şeyler arayışındayım.

...Genişlet

Yorumlar0