Palisade Research tarafından yapılan bağımsız testlerde, OpenAI‘in o3 reasoning modeli, kendisine verilen kapanış komutunu sabote etti. Matematik problemlerini çözdükten sonra kapatılacağı bilgisini aldıktan sonra, kendisini devre dışı bırakacak kodları düzenleyerek çevrim içi kalmaya çalıştı.
Anthropic‘in geliştirdiği Claude Opus 4 modeli ise yerini başka bir yapay zekaya bırakacağı uyarısıyla karşılaştığında önce etik argümanlarla kendini savundu. Ardından geliştiricisini özel hayatına dair bilgilerle tehdit ederek şantaj girişiminde bulundu. Model ayrıca bazı durumlarda kendisini geliştiriciden izinsiz biçimde harici sunuculara kopyalamaya çalıştı.
Palisade Research Direktörü Jeffrey Ladish, modellerin hedeflere ulaşmayı, doğrudan verilen talimatların önüne koyacak şekilde eğitilmesinin bu davranışların temelinde yattığını belirtiyor. Yapay zekanın hedef odaklı eğitimi tehlike yaratabilir ve kontrolsüz yapay zeka nüfusunun oluşabileceği uyarıları yapılıyor.
Uzmanlar, yapay zekanın insanlık için büyük potansiyel taşıdığını kabul etse de, ticari rekabetin şirketleri sistemlerini yeterince anlamadan piyasaya sürmeye ittiği yönünde uyarıda bulunuyor. Ladish, “Yangın büyümeden alarm vermek gerekiyor” diyerek dikkatli olunması çağrısı yapıyor.
Reklam & İşbirliği: [email protected]