Etiket: agent training

  • # ART: Açık Kaynaklı Yeni Nesil Pekiştirmeli Öğrenme Çerçevesi

    ## ART: Açık Kaynaklı Yeni Nesil Pekiştirmeli Öğrenme Çerçevesi

    OpenPipe ekibi, yapay zeka alanında heyecan verici bir projeyi hayata geçirdi: ART. Bu yeni açık kaynaklı pekiştirmeli öğrenme (RL) çerçevesi, karmaşık görevlerde daha başarılı ve verimli yapay zeka ajanları eğitmek için tasarlandı. Peki ART, mevcut çözümlerden ne gibi farklılıklar sunuyor ve hangi sorunlara çözüm getiriyor?

    Pekiştirmeli öğrenme, bir ajanı, çıktısı ölçülebilen ve sayısal olarak ifade edilebilen herhangi bir görevde daha iyi performans göstermesi için eğitmek için kullanılan güçlü bir yöntemdir. Özellikle büyük dil modelleri (LLM’ler) ile pekiştirmeli öğrenme üzerine odaklanan GRPOTrainer ve verl gibi pek çok mükemmel proje bulunuyor. Ancak OpenPipe ekibi, bu tür çerçeveleri müşteri odaklı projelerde kullanırken bazı önemli sınırlamalarla karşılaştı.

    **ART’nin Hedeflediği Sorun Alanları:**

    * **Çok Aşamalı İş Akışları:** Mevcut çerçeveler, bir ajanın bir araç çağırdığı, bir yanıt aldığı ve ardından başka bir araç çağırdığı çok aşamalı iş akışlarını yeterince desteklemiyor. Bu durum, bir ajanın bir dizi eylem gerçekleştirmesini gerektiren görevler için büyük bir engel oluşturuyor.

    * **Düşük GPU Verimliliği:** Diğer çerçeveler genellikle düşük GPU verimliliğine sahip. Küçük bir 7B parametreli modeli eğitmek için bile birden fazla H100 GPU’ya ihtiyaç duyabiliyorlar ve eğitim döngüsünün “rollout” ve “eğitim” aşamalarında GPU’ları sürekli olarak meşgul tutamıyorlar.

    * **Mevcut Kod Tabanlarıyla Entegrasyon Zorluğu:** Mevcut çerçeveler, mevcut agentik kod tabanlarıyla entegre olmak için uygun bir yapıda değil. Mevcut eğitmenler, ham metin tamamlama uç noktalarını çağırmanızı bekliyor ve endüstri standardı sohbet tamamlama API’lerini otomatik olarak sağlamıyor.

    **ART’nin Çözüm Odaklı Yaklaşımı:**

    ART, bu sınırlamaları ele almak ve yüksek kaliteli ajanları eğitmek için tasarlandı. OpenPipe ekibi, bir e-posta araştırma ajanı eğitme demosunu adım adım anlatan bir blog yazısında, ART ile ilgili pek çok detayı ve pratik dersi paylaştı. Bu eğitilen ajanın, o3’ten daha iyi performans gösterdiği belirtiliyor. ART’nin mimarisi hakkında daha fazla bilgi edinmek için duyuru yazısı da incelenebilir.

    **Sonuç:**

    ART, pekiştirmeli öğrenme alanında umut vadeden bir proje olarak öne çıkıyor. Özellikle çok aşamalı iş akışlarını destekleme, GPU verimliliğini artırma ve mevcut kod tabanlarıyla entegrasyonu kolaylaştırma gibi konularda getirdiği yenilikler, yapay zeka ajanlarının geliştirilmesi ve eğitilmesi sürecini daha verimli ve erişilebilir hale getirebilir. OpenPipe ekibinin bu açık kaynaklı projesi, yapay zeka topluluğu için değerli bir kaynak olmaya aday.

    **Kaynak Bağlantıları:**

    * **GitHub:** [https://github.com/OpenPipe/ART](https://github.com/OpenPipe/ART)
    * **E-posta Ajanı Eğitim Demosu:** [https://openpipe.ai/blog/art-e-mail-agent](https://openpipe.ai/blog/art-e-mail-agent)
    * **ART Mimarisi Duyurusu:** [https://openpipe.ai/blog/art-trainer-a-new-rl-trainer-for-agents](https://openpipe.ai/blog/art-trainer-a-new-rl-trainer-for-agents)

  • # ART: A New Open-Source Reinforcement Learning Framework Tackles Agent Training Challenges

    ## ART: A New Open-Source Reinforcement Learning Framework Tackles Agent Training Challenges

    OpenPipe has unveiled ART, a new open-source reinforcement learning (RL) framework designed to streamline the process of training high-quality agents. This project, highlighted on Hacker News, aims to overcome limitations found in existing RL frameworks, particularly when applied to complex, multi-turn workflows.

    Reinforcement learning empowers developers to train agents to excel at tasks by rewarding desired outcomes. While existing frameworks like GRPOTrainer and VERL have proven valuable for training Large Language Models (LLMs), the OpenPipe team identified critical areas for improvement based on their experience with customer-facing projects.

    ART addresses three key limitations:

    * **Limited Support for Multi-Turn Workflows:** Many existing frameworks struggle with scenarios where an agent needs to perform a sequence of actions, such as calling a tool, receiving a response, and then calling another tool. ART is specifically designed to handle these complex interactions.

    * **Low GPU Efficiency:** Current frameworks often demand significant GPU resources, even for relatively small models, leading to inefficiencies during both the “rollout” and “training” phases. ART aims to maximize GPU utilization for faster and more cost-effective training.

    * **Integration Challenges with Existing Agentic Codebases:** Existing RL trainers frequently expect raw text completion endpoints, which can make integration with industry-standard chat completion APIs cumbersome. ART is designed to provide a more convenient and streamlined integration experience.

    According to OpenPipe, ART simplifies the training process and enables the creation of superior agents. They showcase the framework’s capabilities in a blog post detailing the training of an email research agent that outperforms o3. Additional details on ART’s architecture are available in their announcement post.

    With its focus on multi-turn workflows, GPU efficiency, and seamless integration, ART promises to be a valuable tool for developers looking to harness the power of reinforcement learning to create sophisticated and effective agents. The project is available on GitHub, inviting the community to explore, contribute, and further refine this innovative RL framework.