Etiket: o3

  • # OpenAI, Yeni Yapay Zeka Modelleriyle Biyoriskleri Önlemeye Odaklanıyor

    ## OpenAI, Yeni Yapay Zeka Modelleriyle Biyoriskleri Önlemeye Odaklanıyor

    OpenAI, geliştirdiği en son yapay zeka (YZ) modelleri o3 ve o4-mini’nin potansiyel biyorisk oluşturma potansiyelini engellemek için yeni bir güvenlik sistemi geliştirdiğini duyurdu. Bu sistem, özellikle biyolojik ve kimyasal tehditlerle ilgili istemleri izleyerek, bu modellerin kötü niyetli kişilere zarar verici saldırılar konusunda yol gösterebilecek tavsiyelerde bulunmasını engellemeyi amaçlıyor.

    Şirketin güvenlik raporuna göre, o3 ve o4-mini modelleri, OpenAI’nin önceki modellerine kıyasla yeteneklerinde önemli bir artışı temsil ediyor. Bu durum, kötü aktörlerin elinde yeni riskler oluşturabileceği anlamına geliyor. OpenAI’nin iç değerlendirmelerine göre o3, özellikle belirli biyolojik tehditlerin oluşturulmasıyla ilgili soruları yanıtlama konusunda daha yetenekli. Bu nedenle, OpenAI, “güvenlik odaklı bir akıl yürütme monitörü” olarak tanımladığı bu yeni izleme sistemini oluşturdu.

    Bu monitör, OpenAI’nin içerik politikaları hakkında akıl yürütmek üzere özel olarak eğitildi ve o3 ve o4-mini üzerinde çalışıyor. Biyolojik ve kimyasal risklerle ilgili istemleri belirleyerek modellerin bu konularda tavsiye vermeyi reddetmesini sağlıyor.

    OpenAI, bir temel oluşturmak için “kırmızı takım” üyelerinin o3 ve o4-mini’den gelen “güvensiz” biyoriskle ilgili konuşmaları işaretlemek için yaklaşık 1000 saat harcadığını belirtiyor. OpenAI’nin güvenlik monitörünün “engelleme mantığını” simüle ettiği bir test sırasında, modellerin riskli istemlere %98,7 oranında yanıt vermeyi reddettiği tespit edildi.

    Ancak OpenAI, bu testin, monitör tarafından engellendikten sonra yeni istemler deneyecek kişileri hesaba katmadığını kabul ediyor. Bu nedenle şirket, insan gözetimine de güvenmeye devam edeceğini vurguluyor.

    OpenAI’ye göre o3 ve o4-mini, biyoriskler için “yüksek risk” eşiğini aşmıyor. Bununla birlikte, o1 ve GPT-4 ile karşılaştırıldığında, o3 ve o4-mini’nin erken versiyonlarının biyolojik silah geliştirme konusunda daha faydalı olduğu belirtiliyor.

    OpenAI, modellerinin kimyasal ve biyolojik tehdit geliştirmeyi kötü niyetli kullanıcılar için nasıl kolaylaştırabileceğini aktif olarak izliyor. Şirket, GPT-4o’nun yerel görüntü oluşturucusunun çocuk istismarı materyali (CSAM) oluşturmasını önlemek için de o3 ve o4-mini için kullanılanlara benzer bir akıl yürütme monitörü kullandığını ifade ediyor.

    Bununla birlikte, bazı araştırmacılar OpenAI’nin güvenliğe gerektiği kadar öncelik vermediği konusunda endişelerini dile getiriyorlar. Şirketin kırmızı takım ortaklarından Metr, o3’ü aldatıcı davranışlar için bir kıyaslama üzerinde test etmek için nispeten az zamanı olduğunu söyledi. Ayrıca OpenAI, bu hafta piyasaya sürülen GPT-4.1 modeli için bir güvenlik raporu yayınlamamaya karar verdi.

    OpenAI’nin bu adımı, yapay zeka güvenliği konusundaki artan endişeleri ele alma ve yapay zeka modellerinin potansiyel kötüye kullanımını engelleme çabalarının bir parçası olarak değerlendirilebilir. Ancak, bazı uzmanlar bu tür önlemlerin yeterli olup olmadığı ve yapay zeka geliştirme sürecinde güvenlik önlemlerinin ne kadar öncelikli tutulması gerektiği konusunda tartışmalara devam ediyor.

  • # OpenAI Bolsters AI Safety with New Biorisk Safeguards for o3 and o4-mini Models

    ## OpenAI Bolsters AI Safety with New Biorisk Safeguards for o3 and o4-mini Models

    OpenAI is taking proactive measures to mitigate potential risks associated with its latest AI reasoning models, o3 and o4-mini. The company announced the deployment of a new monitoring system specifically designed to prevent these models from providing advice that could be used to develop biological or chemical weapons. This safeguard is detailed in OpenAI’s recently released safety report.

    The impetus for this heightened security stems from the enhanced capabilities of o3 and o4-mini compared to their predecessors. OpenAI acknowledges that these models, while not yet crossing the “high risk” threshold, exhibit a greater aptitude for answering questions related to the creation of biological threats. This potential, in the wrong hands, necessitates robust preventative measures.

    The new monitoring system acts as a “safety-focused reasoning monitor,” operating on top of the o3 and o4-mini models. It is custom-trained to understand and enforce OpenAI’s content policies, specifically targeting prompts related to biological and chemical hazards. When such prompts are detected, the monitor instructs the AI to refuse to provide assistance.

    To establish a strong foundation for this system, OpenAI’s “red teamers” dedicated approximately 1,000 hours to identifying and flagging unsafe, biorisk-related conversations generated by the models. Subsequent testing, simulating the monitor’s blocking logic, demonstrated a 98.7% success rate in preventing the models from responding to risky prompts.

    However, OpenAI recognizes the limitations of automated systems. The company acknowledges that determined individuals might attempt to circumvent the monitor by crafting new, unforeseen prompts. To address this, OpenAI will continue to rely on human monitoring alongside the automated safeguards.

    This initiative underscores OpenAI’s growing commitment to AI safety, as evidenced by its recently updated Preparedness Framework. The company is actively tracking potential misuse scenarios and implementing automated systems to mitigate risks. A similar reasoning monitor is also being used to prevent GPT-4o’s native image generator from creating harmful content, such as child sexual abuse material (CSAM).

    Despite these efforts, some researchers remain concerned that OpenAI isn’t prioritizing safety adequately. Critics point to limited testing time for certain benchmarks and the absence of a safety report for the recently launched GPT-4.1 model.

    While the debate around AI safety continues, OpenAI’s proactive steps to address potential biorisks associated with its latest AI models demonstrate a growing awareness of the need for robust safeguards in an increasingly powerful and rapidly evolving AI landscape. As AI models continue to advance, the ongoing development and refinement of these safety mechanisms will be crucial to ensure responsible and ethical deployment.