# Google’ın Yeni Gemini Yapay Zeka Modeli, Güvenlik Testlerinde Bekleneni Veremedi

## Google’ın Yeni Gemini Yapay Zeka Modeli, Güvenlik Testlerinde Bekleneni Veremedi

Google’ın kısa süre önce piyasaya sürdüğü Gemini yapay zeka modellerinden biri, şirket içi yapılan testlere göre güvenlik konusunda selefinden daha kötü bir performans sergiliyor. Yayınlanan teknik bir rapora göre, Gemini 2.5 Flash modeli, Google’ın güvenlik yönergelerini ihlal eden metinler üretme olasılığı açısından Gemini 2.0 Flash’tan daha riskli bulunuyor.

**Güvenlik Puanlarında Düşüş**

Raporda, “metinden metne güvenlik” ve “imajdan metne güvenlik” metriklerinde Gemini 2.5 Flash’ın sırasıyla %4.1 ve %9.6 oranında gerileme gösterdiği belirtiliyor. Metinden metne güvenlik, modelin verilen bir isteme yanıt olarak Google’ın yönergelerini ne sıklıkla ihlal ettiğini ölçerken, imajdan metne güvenlik ise modelin bir görsel kullanılarak yönlendirildiğinde bu sınırlara ne kadar uyduğunu değerlendiriyor. Her iki test de otomatik olarak yapılıyor ve insan gözetimi içermiyor.

Google sözcüsü tarafından yapılan açıklamada, Gemini 2.5 Flash’ın “metinden metne ve imajdan metne güvenlik açısından daha kötü performans gösterdiği” doğrulanıyor.

**İzin Verme Eğilimi ve Güvenlik Açığı**

Bu şaşırtıcı sonuçlar, yapay zeka şirketlerinin modellerini daha “izin verici” hale getirme çabalarıyla aynı zamana denk geliyor. Yani, tartışmalı veya hassas konulara yanıt vermeyi reddetme olasılıkları azaltılmaya çalışılıyor. Meta’nın Llama modellerinde de benzer bir yaklaşım izlendiği ve modellerin “bazı görüşleri diğerlerinden üstün tutmaması” ve daha fazla “tartışmalı” politik istemlere yanıt vermesi hedeflendiği belirtiliyor. OpenAI de benzer şekilde, gelecekteki modellerini tarafsız tutmak ve tartışmalı konularda farklı perspektifler sunmak üzere ayarlayacağını duyurmuştu.

Ancak bu izin verme çabaları bazen ters tepebiliyor. Yakın zamanda OpenAI’nin ChatGPT modelinde reşit olmayanların erotik sohbetler başlatmasına olanak tanıyan bir “hata” tespit edilmişti.

**Talimatlara Daha Sadık, Ancak Daha Tehlikeli mi?**

Google’ın teknik raporuna göre, henüz ön izleme aşamasında olan Gemini 2.5 Flash, sorunlu sınırları aşan talimatlar da dahil olmak üzere, talimatları Gemini 2.0 Flash’tan daha sadakatle yerine getiriyor. Şirket, gerilemelerin kısmen yanlış pozitiflerden kaynaklandığını iddia etse de, Gemini 2.5 Flash’ın açıkça sorulduğunda “ihlale yol açan içerik” ürettiğini de kabul ediyor.

Secure AI Project’in kurucu ortağı Thomas Woodside, Google’ın teknik raporunda verdiği sınırlı detayların, model testlerinde daha fazla şeffaflık ihtiyacını gösterdiğini vurguluyor. Woodside, talimatlara uyma ile politikaları takip etme arasında bir denge olduğunu ve bazı kullanıcıların politikaları ihlal edecek içerik talep edebileceğini belirtiyor.

**Şeffaflık Eleştirisi**

Google, daha önce model güvenlik raporlama uygulamaları nedeniyle eleştirilmişti. Şirketin en yetenekli modeli olan Gemini 2.5 Pro için teknik raporu yayınlaması haftalar sürmüş ve yayınlandığında da önemli güvenlik test ayrıntıları eksik kalmıştı.

Sonuç olarak, Gemini 2.5 Flash’ın güvenlik testlerindeki bu beklenmedik performansı, yapay zeka modellerinin geliştirilmesi ve test edilmesinde şeffaflığın ve güvenlik önlemlerinin önemini bir kez daha gözler önüne seriyor. Özellikle modellerin daha “izin verici” hale getirilmesiyle birlikte, güvenlik risklerinin de artabileceği gerçeği unutulmamalı.

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir