Etiket: wikipedia

  • # Wikipedia’dan Yapay Zeka Geliştiricilerine Kucak Açan Hamle: Botları Engellemek İçin Veri Seti Yayınlandı

    ## Wikipedia’dan Yapay Zeka Geliştiricilerine Kucak Açan Hamle: Botları Engellemek İçin Veri Seti Yayınlandı

    Wikipedia, yapay zeka (YZ) geliştiricilerinin platformu “kazımasını” (scraping) önlemek amacıyla, YZ modellerini eğitmek için optimize edilmiş bir veri seti yayınlıyor. Wikimedia Vakfı, Google’a ait veri bilimi topluluğu platformu Kaggle ile iş birliği yaparak İngilizce ve Fransızca dillerinde “yapılandırılmış Wikipedia içeriği” içeren bir beta veri setini yayınladığını duyurdu.

    Bu hamle, YZ botlarının Wikipedia sunucularına uyguladığı baskıyı azaltmayı hedefliyor. Sürekli artan bant genişliği tüketimi, platformun performansı üzerinde olumsuz etkilere yol açıyordu.

    Kaggle tarafından barındırılan veri setinin, “makine öğrenimi iş akışları göz önünde bulundurularak” tasarlandığı belirtiliyor. Bu sayede YZ geliştiricileri, modelleme, ince ayar, kıyaslama, uyum ve analiz için makine tarafından okunabilir makale verilerine daha kolay erişebilecekler. Veri seti içindeki içerik açık lisanslı ve 15 Nisan itibarıyla araştırma özetleri, kısa açıklamalar, resim bağlantıları, bilgi kutusu verileri ve makale bölümlerini içeriyor. Ancak referanslar veya ses dosyaları gibi yazılı olmayan unsurlar dışarıda bırakılmış.

    Wikimedia’ya göre, Kaggle kullanıcılarına sunulan “iyi yapılandırılmış JSON Wikipedia içeriği temsilleri”, “ham makale metnini kazıma veya ayrıştırma” yöntemine daha cazip bir alternatif olacak. Wikimedia’nın Google ve Internet Archive ile içerik paylaşım anlaşmaları bulunsa da, Kaggle ortaklığı bu verileri daha küçük şirketler ve bağımsız veri bilimciler için daha erişilebilir hale getirecek.

    Kaggle ortaklıkları lideri Brenda Flynn, “Makine öğrenimi topluluğunun araçlar ve testler için geldiği yer olarak, Wikimedia Vakfı’nın verilerinin ev sahibi olmaktan son derece memnunuz,” dedi. “Kaggle, bu verilerin erişilebilir, kullanılabilir ve yararlı kalmasında rol oynamaktan heyecan duyuyor.”

    Bu iş birliği, Wikipedia’nın bilgiye erişimi kolaylaştırma ve YZ geliştiricilerine destek olma taahhüdünü bir kez daha ortaya koyuyor. Aynı zamanda, platformun sunucularını zorlayan ve gereksiz kaynak tüketen botların önüne geçerek, Wikipedia’nın sürdürülebilirliğini sağlamaya yönelik bir adım olarak değerlendirilebilir.

  • # Wikipedia Fights Back Against AI Scrapers by Giving Them the Goods

    ## Wikipedia Fights Back Against AI Scrapers by Giving Them the Goods

    Wikipedia is taking a proactive approach to address the growing strain placed on its servers by AI bots constantly scraping its content. Instead of playing whack-a-mole with these bots, the Wikimedia Foundation is offering AI developers a readily available and optimized dataset specifically designed for training artificial intelligence models.

    In a recent announcement, the Wikimedia Foundation revealed a partnership with Kaggle, a Google-owned platform popular in the data science community. This collaboration has resulted in the launch of a beta dataset containing “structured Wikipedia content in English and French.” The goal? To provide a more appealing alternative to relentless scraping and parsing of raw article text.

    Wikimedia emphasizes that the Kaggle-hosted dataset is carefully crafted with machine learning workflows in mind. This translates to easier access for AI developers to machine-readable article data for various tasks, including modeling, fine-tuning, benchmarking, alignment, and analysis. The dataset boasts an open license and, as of April 15th, includes research summaries, concise descriptions, image links, infobox data, and article sections. It excludes references and non-written media like audio files.

    The structured nature of the data, presented as “well-structured JSON representations of Wikipedia content,” offers a significant advantage over the computationally expensive and resource-intensive method of scraping raw text. This is crucial, as the increasing activity of AI bots is already putting a considerable burden on Wikipedia’s bandwidth.

    While Wikimedia already has content-sharing agreements with major players like Google and the Internet Archive, this partnership with Kaggle aims to democratize access to Wikipedia data. It should prove particularly beneficial for smaller companies and independent data scientists who might lack the resources or infrastructure for large-scale scraping operations.

    Brenda Flynn, Kaggle’s partnerships lead, expressed enthusiasm for the collaboration: “As the place the machine learning community comes for tools and tests, Kaggle is extremely excited to be the host for the Wikimedia Foundation’s data. Kaggle is excited to play a role in keeping this data accessible, available, and useful.”

    By proactively offering a readily available and well-structured dataset, Wikipedia is not just easing the load on its servers. It’s also fostering a more collaborative and efficient relationship with the AI development community, ensuring the continued responsible use and understanding of the world’s largest online encyclopedia.