enflasyonemeklilikötvdövizkktckktc haberson dakikakıbrıs son dakikakktc gazeteleri
DOLAR
45,3532
EURO
53,5211
ALTIN
6.875,62
Adana Adıyaman Afyon Ağrı Aksaray Amasya Ankara Antalya Ardahan Artvin Aydın Balıkesir Bartın Batman Bayburt Bilecik Bingöl Bitlis Bolu Burdur Bursa Çanakkale Çankırı Çorum Denizli Diyarbakır Düzce Edirne Elazığ Erzincan Erzurum Eskişehir Gaziantep Giresun Gümüşhane Hakkari Hatay Iğdır Isparta İstanbul İzmir K.Maraş Karabük Karaman Kars Kastamonu Kayseri Kırıkkale Kırklareli Kırşehir Kilis Kocaeli Konya Kütahya Malatya Manisa Mardin Mersin Muğla Muş Nevşehir Niğde Ordu Osmaniye Rize Sakarya Samsun Siirt Sinop Sivas Şanlıurfa Şırnak Tekirdağ Tokat Trabzon Tunceli Uşak Van Yalova Yozgat Zonguldak
İstanbul
Hafif Yağmurlu
22°C
İstanbul
22°C
Hafif Yağmurlu
Pazar Az Bulutlu
23°C
Pazartesi Az Bulutlu
25°C
Salı Parçalı Bulutlu
25°C
Çarşamba Parçalı Bulutlu
20°C

Google Gemma 4 3 Kat Hızlandı

Google Gemma 4 3 Kat Hızlandı
07.05.2026 01:25
A+
A-

Google, Gemma 4 modelleri için duyurduğu MTP teknolojisi ile yerel yapay zeka performansını 3 katına kadar artırıyor. İşte detaylar.

Google, bu bahar aylarında kullanıma sunduğu Gemma 4 açık kaynaklı modelleri için performans odaklı yeni bir adım attı. Şirket, yerel yapay zeka süreçlerini hızlandırmayı hedefleyen Multi-Token Prediction (MTP) drafter modellerini geliştiricilerin kullanımına açtı.

Bu deneysel modeller, tahmin yürütme yöntemi olan spekülatif kod çözme teknolojisinden yararlanıyor. Bu sayede modeller, kendi başlarına ürettikleri standart süreçlere kıyasla metin oluşturma hızlarını önemli ölçüde artırabiliyor.

Yerel Donanımlarda Yüksek Performans Hedefi

Gemma 4 modelleri, Google’ın gelişmiş Gemini yapay zeka teknolojisinin temelini oluşturan altyapı ile benzer bir mimariyi paylaşıyor. Gemini modelleri, Google’ın devasa veri merkezlerinde bulunan özel TPU çiplerinde çalışacak şekilde optimize edilmiş durumda.

Gemma ise kullanıcıların bu teknolojiyi kendi yerel donanımlarında, verilerini bulut sistemlerine aktarmadan çalıştırmalarına olanak tanıyor.

Google, Gemma 4 ile birlikte lisans politikasında da değişikliğe giderek Apache 2.0 lisansına geçiş yaptı. Bu yeni lisans yapısı, önceki sürümlerde kullanılan özel lisanslara göre çok daha geniş bir kullanım alanı ve esneklik sunuyor.

Ancak yerel sistemlerde çalışan modeller, kurumsal donanımların sunduğu yüksek bant genişlikli bellek (HBM) avantajına sahip değil. Bu durum, işlemcilerin parametreleri VRAM’den hesaplama birimlerine taşırken vakit kaybetmesine ve işlem döngülerinin verimsiz kullanılmasına yol açıyor.

MTP Teknolojisi Nasıl Çalışıyor?

Geleneksel büyük dil modelleri, token adı verilen birimleri otoregresif bir yapıda, yani her seferinde bir tane olacak şekilde üretiyor. Her bir token, içerik ne olursa olsun aynı miktarda hesaplama gücü gerektiriyor.

MTP teknolojisi, bu noktada devreye girerek ağır modelin yükünü hafifletiyor ve daha hafif bir drafter modeli aracılığıyla spekülatif tokenlar oluşturuyor.

Gemma 4 E2B gibi sadece 74 milyon parametreye sahip olan bu küçük modeller, spekülatif token üretimini hızlandırmak için özel olarak optimize edildi. Drafter modelleri, ana modelin halihazırda üzerinde çalıştığı bağlamı yeniden hesaplamamak için ana modelle aynı anahtar-değer önbelleğini paylaşıyor.

Ayrıca E2B ve E4B drafter modelleri, olası token kümelerini daraltmak amacıyla seyrek kod çözme tekniğini kullanıyor. Bu teknikler sayesinde, NVIDIA RTX PRO 6000 gibi donanımlarda yapılan testlerde, çıktı kalitesinden ödün vermeden bekleme süresinin yarıya indirildiği gözlemleniyor.

Sizce yerel donanımlarda bu tür hız artışları, yapay zeka kullanım alışkanlıklarımızı nasıl değiştirecek?

Yorumlar

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.