11 AI Modeli Test Ettim: Ücretsiz Olan Açık Ara Fark Attı
OpenRouter'da 11 büyük dil modelini aynı oyun promptuyla test ettim. Sonuç şaşırtıcı: ücretsiz Nexa N2, paralı rakiplerini geride bıraktı.
Geçen hafta iki şey beni rahatsız etti. Birincisi, Antropic'in Fable 5'i hâlâ kapalı. İkincisi, GPT 5.6 için çıkan her "çıktı" haberinin aslında spekülasyondan ibaret olması. Peki ya şimdi? Şu an çalışan en iyi dil modeli hangisi?
Cevabı merak ettim ve OpenRouter üzerinden 11 farklı modeli aynı anda test ettim. Aynı prompt, aynı oyun görevi, aynı süre. Sonuçta ücretsiz bir modelin paralı rakiplerini nasıl geride bıraktığını kendi gözlerimle gördüm. İşte detaylar.
Neden Fable 5 ve GPT 5.6 Şu An Kullanılamıyor?
Fable 5, çıktıktan sadece 3 gün sonra ABD hükümeti tarafından ulusal güvenlik gerekçesiyle kapatıldı. Bugün hâlâ kapalı ve resmi bir geri açılma tarihi yok. Antropic "en kısa sürede getirmeye çalışıyoruz" diyor ama üç olası senaryo var: hükümet geri adım atar, sadece ABD kullanıcılarına açılır veya uzun bir hukuk süreci başlar. En olası senaryo: bir süre daha kapalı kalır.
GPT 5.6 konusu ise daha da bulanık. Beklenen özellikler büyük: 1 milyon kelime üstü hafıza, otonom çalışma, kodda 2-5 kat hız artışı. Ama şu anki resmi gerçek şu: en güncel model hâlâ GPT-5.5. Çıktı diyen videolara kanmayın.
Bu iki boşlukta, elimizde ne var sorusu kritik hale geliyor.
Testin Kuralları: Adil, Tek Prompt, Gerçek Sonuç
Testi adil tutmak için kural basitti: her modele aynı tek prompt, aynı Space Invaders benzeri oyun görevi. Ek düzeltme promptu yok. Ne verdiysem onunla çalışacaklar.
Karşılaştırdığım modeller: Gemini Pro, GPT-5.5, Claude Opus 4.8, Kimi 2.7, Grok 4.3, Olama, DeepSeek V4, GLM 5.1, Qwen 3.7, MiniMax M3 ve Nexa N2. Aralarında 5 Amerikan, 6 Çinli şirketin modeli var. Nexa N2 ise ücretsiz ve açık kaynak.
11 Modelin Oyun Sonuçları: Kim Ne Yaptı?
Gemini Pro ve Grok: Hızlı Ama Yetersiz
Gemini 5 dakika içinde bitirdi. Ses koymuş, temel hareketler var ama arayüz çok basit. Grok ise tam bir hayal kırıklığı: oyun açılmadan karakter ölüyor, her yerden ateş eden düşmanlarla oynanabilirlik sıfır.
Claude Opus 4.8: Görsel Şampiyon, Kontrol Felç
Opus görsel olarak en iyisini yapmış. Ama sağ-sol tuşları çalışmıyor, sadece ileri-geri var. Güzel ama işlevsel değil.
GLM 5.1 ve Qwen 3.7: Ortalama, Oynanabilir
GLM 5.1 mouse ile kontrol edilebiliyor, görsel olarak fena değil. Qwen 3.7 en azından oynanabilir ama görseller çok basit. Fable 5'in örnekleriyle arasında uçurum var.
DeepSeek V4: Kontrol İyi, Oyun Eksik
Tuşlar düzgün çalışıyor, görseller iyi. Ama oyun mantığı yarım kalmış: 4-5 düşman çıkarıp bırakmış, devamı yok.
MiniMax M3: Paralıların En İyisi
11 dakikada bitirdi ama sonuçta açık ara fark attı. Görseller, oynanabilirlik, oyun dengesi — hepsi bir arada. Tek promptla gerçekten oynanabilecek bir şey çıkarmış.
GPT-5.5: Donuk Bir Gösteri
Görseller harika, vizyon olarak en iyi. Ama oyun inanılmaz yavaş, donukluk var, oynanacak gibi değil. Güzel bir resim gibi duruyor sadece.
Kimi 2.7: Üç Prompt, Hâlâ Hata
Oyun açılmadı. İkinci promptta yine hata. Üçüncü prompt gerekli. En çok zamanımı alan model oldu. Tekrar tekrar müdahale etmek gerekti, bu da pratik kullanımda büyük dezavantaj.
Nexa N2: Ücretsiz Modelin Açık Ara Farkı
Ve geldik testin en çarpıcı sonucuna. Nexa N2, hem oyun hem web sitesi görevinde paralı rakiplerini geride bıraktı.
Okyanus.com web sitesi görevinde sadece bir promptla, saniyeler içinde profesyonel sonuç çıkardı. Aynı görevi Kimi 2.7 daha güzel yaptı ama Nexa N2'nin ücretsiz ve açık kaynak olması farkı kapatıyor.
25 dolarlık aylık abonelikler verdiğiniz sistemlerin çoğunu, ücretsiz olarak aynısını — bazılarından daha iyisini — yapabiliyor. Bu, özellikle maliyet hassasiyeti yüksek olan eBay satıcıları için kritik bir veri.
eBay Satıcısı İçin Çıkarılacak Ders
Bu testin eBay ile doğrudan bağlantısı şu: ürün listeleme, HTML açıklama şablonları, müşteri yanıtları, hatta basit otomasyonlar için kullandığınız AI aracının fiyatı değil, tek promptta verdiği işlevsel sonuç önemli.
Kimi 2.7 gibi "güçlü" bir model, üç prompt sonra hâlâ çalışmıyorsa, sizin için zaman kaybı demek. eBay'de 100 ürün listeliyorsanız, her biri için düzeltme döngüsüne girmek operasyonel bir kabus.
Nexa N2 veya MiniMax M3 gibi modeller, tek seferde işlevsel çıktı verebiliyorsa, iş akışınıza entegre etmek çok daha mantıklı. TurkoLister olarak biz de bu yüzden model seçiminde sadece leaderboard değil, gerçek iş senaryolarındaki tutarlılığı ölçüyoruz.
Sonuç: Bugün Ne Kullanmalı?
Fable 5 kapalı, GPT 5.6 yok. Bugünün gerçeği şu: ücretli diye en iyi olmak zorunda değil. 11 modelin testinde ücretsiz Nexa N2, web sitesi oluşturmada paralı rakiplerine meydan okudu. MiniMax M3 oyun görevinde en tutarlısıydı. GPT-5.5 görselde iyiydi ama işlevselde değil.
Benim tavsiyem: tek bir modele bağlı kalmayın. OpenRouter gibi platformlarda farklı görevler için farklı modeller test edin. Ürün açıklaması için biri, HTML şablon için diğeri, müşteri mesajı için üçüncüsü en verimlisi olabilir. Maliyet değil, işinizi gören sonuç önemli.
Siz en çok hangi modeli kullanıyorsunuz? Yorumlarda deneyimlerinizi paylaşın, beraber öğrenelim.
Sık Sorulan Sorular
Fable 5 geri açılacak mı?
Resmi bir tarih yok. Antropic hukuki süreçte, en olası senaryo kısa vadede kalması.
GPT 5.6 çıktı mı?
Hayır. Şu anki en güncel resmi model hâlâ GPT-5.5.
eBay satıcısı için ücretsiz AI kullanılabilir mi?
Evet. Nexa N2 gibi modeller, ürün açıklaması ve web sitesi oluşturmada ücretli alternatiflere rakip olabiliyor.