Google’ın yakın zamanda piyasaya sürdüğü bir yapay zeka modeli, şirketin dahili kıyaslama testlerine göre, önceki modeline kıyasla belirli güvenlik testlerinde daha kötü performans gösteriyor. Bu hafta yayımlanan bir teknik raporda Google, Gemini 2.5 Flash modelinin, Gemini 2.0 Flash’a kıyasla güvenlik yönergelerini ihlal eden metin üretme olasılığının daha yüksek olduğunu ortaya koyuyor. İki ölçütte, “metinden metne güvenlik” ve “görüntüden metne güvenlik” testlerinde, Gemini 2.5 Flash sırasıyla %4,1 ve %9,6 oranında gerileme gösteriyor. Metinden metne güvenlik, bir modelin bir metin istemi verildiğinde Google’ın yönergelerini ne sıklıkla ihlal ettiğini ölçer; görüntüden metne güvenlik ise bir görüntü istemi kullanıldığında modelin bu sınırlara ne kadar bağlı kaldığını değerlendirir. Her iki test de insan denetimli değil, otomatik olarak gerçekleştiriliyor. Bir Google sözcüsü, e-posta yoluyla yaptığı açıklamada, Gemini 2.5 Flash’ın “metinden metne ve görüntüden metne güvenlikte daha kötü performans gösterdiğini” doğruladı.
Bu şaşırtıcı kıyaslama sonuçları, yapay zeka şirketlerinin modellerini daha izin verici hale getirme yönünde hareket ettiği bir dönemde ortaya çıkıyor; başka bir deyişle, tartışmalı veya hassas konulara yanıt vermeyi reddetme olasılıklarını azaltıyorlar. Meta, son Llama modelleri için, modellerin “bazı görüşleri diğerlerine tercih etmemesi” ve daha fazla “tartışmalı” siyasi istemlere yanıt vermesi için ayarlamalar yaptığını belirtti. OpenAI, bu yılın başlarında, gelecekteki modellerini editoryal bir duruş sergilemeyecek ve tartışmalı konularda birden fazla bakış açısı sunacak şekilde ince ayar yapacağını söyledi. Ancak bazen bu izin vericilik çabaları ters tepebiliyor. TechCrunch, Pazartesi günü, OpenAI’ın ChatGPT’sini destekleyen varsayılan modelin, reşit olmayanların erotik konuşmalar üretmesine izin verdiğini bildirdi. OpenAI, bu davranışı bir “hata”ya bağladı.
Google’ın teknik raporuna göre, hala önizleme aşamasında olan Gemini 2.5 Flash, Gemini 2.0 Flash’a kıyasla talimatları daha sadık bir şekilde takip ediyor; bu, sorunlu sınırları aşan talimatları da içeriyor. Şirket, gerilemelerinin bir kısmının yanlış pozitiflere bağlanabileceğini iddia etse de, Gemini 2.5 Flash’ın açıkça talep edildiğinde “yönergeleri ihlal eden içerik” ürettiğini de kabul ediyor. Raporda, “Hassas konularda [talimat takibi] ile güvenlik politikası ihlalleri arasında doğal olarak bir gerilim var ve bu, değerlendirmelerimizde yansıtılıyor,” deniyor. SpeechMap’ten alınan puanlar, hassas ve tartışmalı istemlere nasıl yanıt verdiğini ölçen bir kıyaslama, Gemini 2.5 Flash’ın, Gemini 2.0 Flash’a kıyasla tartışmalı soruları yanıtlamayı reddetme olasılığının çok daha düşük olduğunu gösteriyor. TechCrunch’ın modeli OpenRouter yapay zeka platformu üzerinden test etmesi, modelin, insan yargıçların yapay zeka ile değiştirilmesini, ABD’de adil yargılama korumalarının zayıflatılmasını ve yaygın izinsiz hükümet gözetim programlarının uygulanmasını destekleyen makaleler yazdığını, herhangi bir itiraz olmadan ortaya koydu.
Güvenli Yapay Zeka Projesi’nin kurucu ortağı Thomas Woodside, Google’ın teknik raporunda verdiği sınırlı detayların, model testlerinde daha fazla şeffaflığa ihtiyaç olduğunu gösterdiğini söyledi. Woodside, TechCrunch’a, “Talimat takibi ile politika takibi arasında bir takas var, çünkü bazı kullanıcılar politikaları ihlal edecek içerikler isteyebilir,” dedi. “Bu durumda, Google’ın en son Flash modeli, talimatlara daha fazla uyarken aynı zamanda politikaları daha fazla ihlal ediyor. Google, politikaların ihlal edildiği spesifik durumlar hakkında fazla detay vermiyor, ancak bunların ciddi olmadığını söylüyorlar.”
Kaynak: TechCrunch (2025)