## Wikipedia’dan Yapay Zeka Geliştiricilerine Kucak Açan Hamle: Botları Engellemek İçin Veri Seti Yayınlandı
Wikipedia, yapay zeka (YZ) geliştiricilerinin platformu “kazımasını” (scraping) önlemek amacıyla, YZ modellerini eğitmek için optimize edilmiş bir veri seti yayınlıyor. Wikimedia Vakfı, Google’a ait veri bilimi topluluğu platformu Kaggle ile iş birliği yaparak İngilizce ve Fransızca dillerinde “yapılandırılmış Wikipedia içeriği” içeren bir beta veri setini yayınladığını duyurdu.
Bu hamle, YZ botlarının Wikipedia sunucularına uyguladığı baskıyı azaltmayı hedefliyor. Sürekli artan bant genişliği tüketimi, platformun performansı üzerinde olumsuz etkilere yol açıyordu.
Kaggle tarafından barındırılan veri setinin, “makine öğrenimi iş akışları göz önünde bulundurularak” tasarlandığı belirtiliyor. Bu sayede YZ geliştiricileri, modelleme, ince ayar, kıyaslama, uyum ve analiz için makine tarafından okunabilir makale verilerine daha kolay erişebilecekler. Veri seti içindeki içerik açık lisanslı ve 15 Nisan itibarıyla araştırma özetleri, kısa açıklamalar, resim bağlantıları, bilgi kutusu verileri ve makale bölümlerini içeriyor. Ancak referanslar veya ses dosyaları gibi yazılı olmayan unsurlar dışarıda bırakılmış.
Wikimedia’ya göre, Kaggle kullanıcılarına sunulan “iyi yapılandırılmış JSON Wikipedia içeriği temsilleri”, “ham makale metnini kazıma veya ayrıştırma” yöntemine daha cazip bir alternatif olacak. Wikimedia’nın Google ve Internet Archive ile içerik paylaşım anlaşmaları bulunsa da, Kaggle ortaklığı bu verileri daha küçük şirketler ve bağımsız veri bilimciler için daha erişilebilir hale getirecek.
Kaggle ortaklıkları lideri Brenda Flynn, “Makine öğrenimi topluluğunun araçlar ve testler için geldiği yer olarak, Wikimedia Vakfı’nın verilerinin ev sahibi olmaktan son derece memnunuz,” dedi. “Kaggle, bu verilerin erişilebilir, kullanılabilir ve yararlı kalmasında rol oynamaktan heyecan duyuyor.”
Bu iş birliği, Wikipedia’nın bilgiye erişimi kolaylaştırma ve YZ geliştiricilerine destek olma taahhüdünü bir kez daha ortaya koyuyor. Aynı zamanda, platformun sunucularını zorlayan ve gereksiz kaynak tüketen botların önüne geçerek, Wikipedia’nın sürdürülebilirliğini sağlamaya yönelik bir adım olarak değerlendirilebilir.