
Yeni DeepSeek V3-0324 Modeli GPT-4o ve Claude-3.5'e Meydan Okuyor

DeepSeek AI, amiral gemisi modeli olan DeepSeek V3-0324 için büyük bir güncelleme duyurdu. GitHub ve Hugging Face'te mevcut olan bu model, yalnızca kapalı alternatifler olan GPT-4o ve Claude-3.5-Sonnet ile aynı seviyeye gelmekle kalmayıp, birçok önemli alanda onları da geride bırakıyor.
Güncellemenin merkezinde, 671 milyar parametrenin token başına 37 milyar parçalar halinde dinamik olarak etkinleştirildiği geliştirilmiş Uzmanlar Karışımı (MoE) mimarisi yer alıyor. Çoklu başlıklı Gizli Dikkat teknolojisi, bellek tüketimini %60 oranında azaltırken, Çoklu Token Tahmini metin üretim hızını 1.8 kat artırıyor. Model, matematik problemleri, 15 dilde kod ve bilimsel makaleleri içeren bir veri kümesi üzerinde eğitildi. Eğitim, H800 kümelerinde 2.788 milyon GPU saati sürdü — bu, tek bir hızlandırıcıda kesintisiz çalışmanın 318 yılına eşdeğer. Sonuç: okul seviyesindeki matematik problemlerini çözmede %89.3 doğruluk (GSM8K) ve kod üretiminde %65.2 başarı oranı (HumanEval) — önceki açık kaynak çözümlerden %10-15 daha yüksek.
Güncelleme bazı beklenmedik iyileştirmeler getirdi:
- Ön uç kod üretimi artık görsel olarak çekici arayüzler üretiyor;
- Metin kalitesi uzun biçimli makalelerde insan seviyesinde akıcılığa ulaştı;
- Fonksiyon çağırma doğruluğu %92'ye ulaştı ve bu, önceki sürümlerdeki ana sorunlardan birini çözdü.
Resmi güncelleme notları henüz yayımlanmamış olsa da, modelin boyutunun 700 GB olduğu bildiriliyor. API aracılığıyla, standart 1.0 parametresinin otomatik olarak optimal 0.3'e ayarlandığı benzersiz bir "sıcaklık kalibrasyonu" sistemi ile kullanılabilir. Yerel dağıtım için, geliştiricilere web araması ve dosya analizi desteği ile değiştirilmiş istem şablonları sunuluyor — bu özellik daha önce yalnızca premium ticari çözümlerde mevcuttu.
Uzmanlar, DeepSeek V3-0324'ün programlama ve veri analizi için AI asistanı pazarını sarsabileceğini öngörüyor. MIT lisansı altında açık kaynak olarak mevcut olması, iş süreçlerinin otomasyonundan özel bilimsel asistanların yaratılmasına kadar özelleştirme kapılarını açıyor.