## Anthropic CEO’sundan Cesur Hedef: Yapay Zeka Modellerinin Kara Kutusunu 2027’ye Kadar Açmak
Yapay zeka (YZ) alanındaki gelişmeler baş döndürücü bir hızla ilerlerken, bu teknolojilerin iç işleyişi hala büyük ölçüde bir sır perdesi ardında. Anthropic CEO’su Dario Amodei, bu durumu değiştirmeyi hedefliyor. Yayımladığı bir makalede, dünyanın önde gelen YZ modellerinin iç mekanizmalarına dair araştırmacıların ne kadar az bilgi sahibi olduğuna dikkat çeken Amodei, Anthropic için 2027 yılına kadar YZ modellerindeki sorunların çoğunu güvenilir bir şekilde tespit edebilme gibi iddialı bir hedef belirledi.
“Yorumlanabilirliğin Aciliyeti” başlıklı makalesinde Amodei, bu hedefin zorluğunu kabul ediyor. Anthropic’in modellerin cevaplarına nasıl ulaştığını izleme konusunda erken aşamada atılımlar gerçekleştirdiğini belirtirken, bu sistemler güçlendikçe onları çözmek için çok daha fazla araştırmaya ihtiyaç duyulduğunun altını çiziyor.
Amodei, “Yorumlanabilirlik konusunda daha iyi bir hakimiyet olmadan bu tür sistemleri devreye sokmaktan çok endişeliyim,” ifadelerini kullanıyor. “Bu sistemler ekonomi, teknoloji ve ulusal güvenlik için kesinlikle merkezi olacak ve o kadar fazla özerkliğe sahip olacaklar ki, insanlığın nasıl çalıştıkları konusunda tamamen cahil olmasını temelde kabul edilemez buluyorum.”
Anthropic, YZ modellerinin kara kutusunu açmayı ve neden belirli kararlar aldıklarını anlamayı amaçlayan mekanistik yorumlanabilirlik alanında öncü şirketlerden biri. Teknoloji endüstrisinin YZ modellerinin performansındaki hızlı gelişmelere rağmen, bu sistemlerin kararlara nasıl vardığı hakkında hala nispeten az fikrimiz var.
Örneğin, OpenAI kısa süre önce bazı görevlerde daha iyi performans gösteren, ancak aynı zamanda diğer modellerine göre daha fazla “halüsinasyon” gören yeni akıl yürütme YZ modelleri olan o3 ve o4-mini’yi piyasaya sürdü. Şirket, bunun neden olduğunu bilmiyor.
Amodei, “Üretken bir YZ sistemi, bir finansal belgeyi özetlemek gibi bir şey yaptığında, neden belirli kelimeleri diğerlerine tercih ettiğini veya neden genellikle doğru olmasına rağmen zaman zaman hata yaptığını belirli veya kesin bir düzeyde bilmiyoruz,” diyor.
Makalede Amodei, Anthropic’in kurucu ortağı Chris Olah’ın YZ modellerinin “inşa edilmekten çok büyütüldüğünü” söylediğini belirtiyor. Başka bir deyişle, YZ araştırmacıları YZ model zekasını geliştirmenin yollarını bulmuşlardır, ancak nedenini tam olarak bilmiyorlar.
Amodei’ye göre, bu modellerin nasıl çalıştığını anlamadan Genel Yapay Zeka’ya (AGI) ulaşmak tehlikeli olabilir. Daha önceki bir makalesinde Amodei, teknoloji sektörünün 2026 veya 2027 yılına kadar böyle bir kilometre taşına ulaşabileceğini iddia etmişti, ancak bu YZ modellerini tam olarak anlamaktan çok daha uzakta olduğumuza inanıyor.
Uzun vadede Anthropic, esasen son teknoloji YZ modellerinin “beyin taramalarını” veya “MR’larını” yapmak istiyor. Bu kontroller, YZ modellerindeki yalan söyleme veya güç arama eğilimleri veya diğer zayıflıklar da dahil olmak üzere çok çeşitli sorunları belirlemeye yardımcı olacaktır. Amodei, bunun başarılmasının beş ila 10 yıl sürebileceğini, ancak bu önlemlerin Anthropic’in gelecekteki YZ modellerini test etmek ve dağıtmak için gerekli olacağını ekliyor.
Anthropic, YZ modellerinin nasıl çalıştığını daha iyi anlamasını sağlayan birkaç araştırma atılımı yaptı. Örneğin, şirket kısa süre önce bir YZ modelinin düşünme yollarını, şirketinin devreler olarak adlandırdığı yollardan izlemenin yollarını buldu. Anthropic, YZ modellerinin hangi ABD şehirlerinin hangi ABD eyaletlerinde bulunduğunu anlamasına yardımcı olan bir devre belirledi. Şirket, bu devrelerden sadece birkaçını buldu, ancak YZ modellerinde milyonlarca olduğunu tahmin ediyor.
Anthropic, yorumlanabilirlik araştırmalarına yatırım yapıyor ve kısa süre önce yorumlanabilirlik üzerinde çalışan bir startup’a ilk yatırımını yaptı. Yorumlanabilirlik bugün büyük ölçüde bir güvenlik araştırması alanı olarak görülse de, Amodei, YZ modellerinin cevaplarına nasıl ulaştığını açıklamanın sonunda ticari bir avantaj sunabileceğini belirtiyor.
Amodei, makalede OpenAI ve Google DeepMind’ı bu alandaki araştırma çabalarını artırmaya çağırdı. Dostane bir dürtünün ötesinde, Anthropic’in CEO’su hükümetlerden şirketlerin güvenlik uygulamalarını açıklama gereklilikleri gibi yorumlanabilirlik araştırmasını teşvik etmek için “hafif dokunuşlu” düzenlemeler getirmelerini istedi. Amodei makalesinde ayrıca ABD’nin kontrolden çıkmış küresel bir YZ yarışının olasılığını sınırlamak için Çin’e çip ihracatına kısıtlamalar getirmesi gerektiğini söylüyor.
Anthropic, güvenlik konusuna odaklanmasıyla her zaman OpenAI ve Google’dan ayrılmıştır. Diğer teknoloji şirketleri Kaliforniya’nın tartışmalı YZ güvenlik yasası SB 1047’ye karşı çıkarken, Anthropic, öncü YZ modeli geliştiricileri için güvenlik raporlama standartları belirleyecek olan yasa için mütevazı destek ve tavsiyelerde bulundu.
Bu durumda, Anthropic sadece yeteneklerini artırmakla kalmayıp, YZ modellerini daha iyi anlamak için sektör çapında bir çaba gösterilmesini istiyor gibi görünüyor.
Bir yanıt yazın