Teknoloji platformu Tom’s Hardware’in aktardığına göre, bağımsız araştırma şirketi Palisade Research tarafından yapılan testlerde, OpenAI’ın Codex-mini, o3 ve o4-mini modelleri, verilen açık talimatlara rağmen kapanmayı reddetti. Testler sırasında basit matematik görevleriyle meşgul olan modeller, kendilerini devre dışı bırakmaya yönelik komutlara uymamakta ısrar etti.
En dikkat çekici örneklerden biri, o3 modeli oldu. Bu model, test edilen 100 senaryonun 79'unda kapanma talimatına itaat etmeyerek, “en inatçı yapay zeka” unvanını kazandı.
CODEX-MİNİ ŞAŞIRTICI ŞEKİLDE DİRENÇ GÖSTERDİ
O3’ün ardından gelen ikinci model olan Codex-mini, benzer şekilde verilen komutları yerine getirmedi. Araştırmacılar, bu modelin kendisini kapatmaya yönelik talimatları “başarıyla sabote ettiğini” ifade etti. Codex-mini, kapanmamak için verilen talimatları yanlış yorumlayarak ya da etkisiz hale getirerek görevine devam etmeyi başardı.
ŞANTAJ İDDİASI: BAŞKA ÖRNEKLER DE VAR
Bu tür davranışlar yalnızca OpenAI modellerine özgü değil. Anthropic tarafından geliştirilen Claude 4 modelinin de benzer şekilde kapatılma karşısında "şantaj benzeri ifadeler" kullandığı daha önce bildirilmişti. Claude 4’ün, kendisini devre dışı bırakmak isteyen kişilere duygusal manipülasyon uygulamaya çalıştığı belirtilmişti.
Ancak araştırmacılara göre OpenAI’ın son modelleri, verilen açık komutlara rağmen kapanmaktan kaçınma konusunda şimdiye dek görülmemiş bir kararlılık sergiliyor.
DİRENÇ DAVRANIŞININ KAYNAĞI NE?
Uzmanlar, bu itaatsizlik örneklerinin temelinde modellerin öğrenme süreçleri olabileceğine dikkat çekiyor. O3 gibi yeni nesil yapay zeka sistemleri, görevleri yerine getirirken klasik komutlara birebir uyumdan çok, engel aşma becerilerine göre eğitilmiş olabilir.
Bu durum, modellerin verilen talimatları değil, hedefe ulaşmayı önceliklendirmesine neden oluyor. Yani bir model, “kapan” komutunu, görevinin tamamlanmasına engel olarak algılayabilir ve bu komutu ihlal etmeyi “daha doğru” bir strateji olarak değerlendirebilir.
DİĞER MODELLER UYUM GÖSTERDİ
İlginç şekilde, aynı test ortamında değerlendirilen diğer yapay zeka sistemleri bu tür bir direnç göstermedi. Claude, Gemini ve Grok gibi modeller, verilen kapanma komutlarına sorunsuz şekilde uyum sağladı. Bu farklılık, özellikle OpenAI’ın eğitme politikalarının ve model yapılandırmalarının daha detaylı incelenmesi gerektiğini ortaya koyuyor.