## Yapay Zeka Benchmark’ında Hile İddiası: LM Arena, Büyük Laboratuvarlara Ayrıcalık mı Tanıdı?
Yapay zeka (YZ) modellerinin performansını ölçmek için kullanılan popüler bir platform olan Chatbot Arena, yeni bir araştırmanın odağında. Cohere, Stanford, MIT ve Ai2 araştırma laboratuvarlarının ortak çalışması, LM Arena’yı, liderlik tablosunda bazı büyük YZ şirketlerine rakiplerine kıyasla haksız avantaj sağlamakla suçluyor.
Araştırmacılara göre LM Arena, Meta, OpenAI, Google ve Amazon gibi sektörün önde gelen şirketlerine, YZ modellerinin çeşitli versiyonlarını özel olarak test etme ve düşük performans gösterenlerin sonuçlarını yayınlamama imkanı tanıdı. Bu durum, söz konusu şirketlerin platformun liderlik tablosunda üst sıralarda yer almasını kolaylaştırdı. Ancak bu fırsatın tüm firmalara sunulmadığı iddia ediliyor.
Cohere’nin YZ araştırmasından sorumlu başkan yardımcısı ve çalışmanın ortak yazarı Sara Hooker, TechCrunch’a verdiği demeçte, “Sadece bir avuç [şirkete] bu özel testlerin mevcut olduğu söylendi ve bazı [şirketlerin] aldığı özel test miktarı diğerlerinden çok daha fazla,” dedi ve ekledi: “Bu bir oyunlaştırma.”
2023’te UC Berkeley’de bir akademik araştırma projesi olarak kurulan Chatbot Arena, YZ şirketleri için önemli bir benchmark haline geldi. Platform, iki farklı YZ modelinin cevaplarını yan yana koyarak kullanıcılardan en iyisini seçmelerini istiyor. Yayınlanmamış modellerin, takma adlar altında arenada rekabet etmesi sıkça görülen bir durum.
Zaman içindeki oylar, bir modelin puanına ve dolayısıyla Chatbot Arena liderlik tablosundaki yerine katkıda bulunuyor. Birçok ticari aktör Chatbot Arena’ya katılırken, LM Arena uzun zamandır benchmark’ının tarafsız ve adil olduğunu savunuyor.
Ancak, araştırmanın yazarlarının ortaya çıkardığı durum bu iddialarla çelişiyor.
Araştırmacılar, Meta’nın, Llama 4 lansmanı öncesinde Ocak ve Mart ayları arasında Chatbot Arena’da 27 model varyantını özel olarak test edebildiğini iddia ediyor. Lansman sırasında Meta, yalnızca tek bir modelin puanını kamuoyuyla paylaştı ve bu model, Chatbot Arena liderlik tablosunun zirvesine yakın bir konumdaydı.
LM Arena’nın kurucu ortağı ve UC Berkeley Profesörü Ion Stoica, TechCrunch’a gönderdiği bir e-postada, çalışmanın “yanlışlıklarla” ve “şüpheli analizlerle” dolu olduğunu söyledi.
LM Arena’dan TechCrunch’a yapılan açıklamada, “Adil, topluluk odaklı değerlendirmelere bağlıyız ve tüm model sağlayıcılarını, daha fazla modeli test etmeye ve insan tercihi üzerindeki performanslarını iyileştirmeye davet ediyoruz” denildi ve “Bir model sağlayıcısı, diğerinden daha fazla test gönderirse, bu ikinci model sağlayıcısına haksız davranıldığı anlamına gelmez” ifadesi kullanıldı.
Google DeepMind’da kıdemli araştırmacı olan Armand Joulin de X platformunda yaptığı bir paylaşımda, çalışmadaki bazı sayıların yanlış olduğunu ve Google’ın LM Arena’ya yalnızca bir Gemma 3 YZ modelini ön yayın testleri için gönderdiğini iddia etti. Hooker, Joulin’e X üzerinden yanıt vererek, yazarların bir düzeltme yapacağını söyledi.
### Ayrıcalıklı Olduğu İddia Edilen Laboratuvarlar
Çalışmanın yazarları, bazı YZ şirketlerine Chatbot Arena’ya ayrıcalıklı erişim verildiği şüphesi üzerine Kasım 2024’te araştırmalarına başladı. Toplamda, beş aylık bir süre boyunca 2,8 milyondan fazla Chatbot Arena savaşını ölçtüler.
Yazarlar, LM Arena’nın Meta, OpenAI ve Google dahil olmak üzere belirli YZ şirketlerinin, modellerinin daha fazla sayıda model “savaşında” yer almasını sağlayarak Chatbot Arena’dan daha fazla veri toplamasına izin verdiğine dair kanıt bulduklarını söylüyor. Bu artan örnekleme oranının, söz konusu şirketlere haksız bir avantaj sağladığı iddia ediliyor.
LM Arena’dan ek verilerin kullanılması, bir modelin Arena Hard (LM Arena’nın sürdürdüğü başka bir benchmark) üzerindeki performansını %112 oranında artırabilir. Ancak LM Arena, X’teki bir gönderide, Arena Hard performansının doğrudan Chatbot Arena performansıyla ilişkili olmadığını belirtti.
Hooker, hangi YZ şirketlerinin öncelikli erişim elde ettiğinin belirsiz olduğunu, ancak şeffaflığı artırmanın LM Arena’nın sorumluluğunda olduğunu söyledi.
LM Arena, X’teki bir gönderide, makaledeki iddiaların çoğunun gerçeği yansıtmadığını belirtti. Kuruluş, bu hafta başlarında yayınladığı bir blog yazısında, büyük laboratuvarlara ait olmayan modellerin, çalışmanın önerdiğinden daha fazla Chatbot Arena savaşında yer aldığını ifade etti.
Çalışmanın önemli bir sınırlaması, Chatbot Arena’da özel testte olan YZ modellerini belirlemek için “kendini tanımlamaya” dayanmasıydı. Yazarlar, YZ modellerine şirket kökenleri hakkında birkaç kez soru sordu ve modellerin cevaplarına dayanarak onları sınıflandırdı; bu da kusursuz bir yöntem değil.
Ancak Hooker, yazarlar ön bulgularını paylaşmak için LM Arena’ya ulaştığında, kuruluşun bunlara itiraz etmediğini söyledi.
TechCrunch, çalışmada adı geçen Meta, Google, OpenAI ve Amazon’a yorum için ulaştı. Hiçbiri hemen yanıt vermedi.
### LM Arena Zor Durumda
Makalede, yazarlar LM Arena’yı Chatbot Arena’yı daha “adil” hale getirmeyi amaçlayan bir dizi değişiklik uygulamaya çağırıyor. Örneğin yazarlar, LM Arena’nın YZ laboratuvarlarının gerçekleştirebileceği özel testlerin sayısına açık ve şeffaf bir sınır koyabileceğini ve bu testlerden elde edilen puanları kamuya açıklayabileceğini söylüyor.
LM Arena, X’teki bir gönderide, bu önerileri reddetti ve Mart 2024’ten beri ön yayın testleri hakkında bilgi yayınladığını iddia etti. Benchmarking kuruluşu ayrıca, YZ topluluğu modelleri kendileri test edemediği için “kamuya açık olmayan ön yayın modelleri için puanları göstermenin bir anlamı olmadığını” söyledi.
Araştırmacılar ayrıca, LM Arena’nın arenadaki tüm modellerin aynı sayıda savaşta yer almasını sağlamak için Chatbot Arena’nın örnekleme oranını ayarlayabileceğini söylüyor. LM Arena, bu öneriye kamuoyu önünde olumlu yanıt verdi ve yeni bir örnekleme algoritması oluşturacağını belirtti.
Makale, Meta’nın yukarıda bahsedilen Llama 4 modellerinin lansmanı sırasında Chatbot Arena’daki benchmark’ları manipüle ederken yakalanmasından haftalar sonra geldi. Meta, Llama 4 modellerinden birini “konuşkanlık” için optimize etti, bu da Chatbot Arena’nın liderlik tablosunda etkileyici bir puan elde etmesine yardımcı oldu. Ancak şirket, optimize edilmiş modeli hiç yayınlamadı ve vanilya versiyonu, Chatbot Arena’da çok daha kötü performans gösterdi.
O zamanlar LM Arena, Meta’nın benchmarking yaklaşımında daha şeffaf olması gerektiğini söylemişti.
Bu ayın başlarında LM Arena, yatırımcılardan sermaye toplama planlarıyla bir şirket kurduğunu duyurdu. Çalışma, özel benchmark kuruluşları üzerindeki incelemeyi artırıyor ve kurumsal etkinin süreci gölgede bırakmadan YZ modellerini değerlendirmek için güvenilir olup olmadıkları sorusunu gündeme getiriyor.
Bir yanıt yazın