Yapay Zekâ Kendisini Kapatmak İsteyen Mühendise Şantaj Yaptı!

Yapay Zekâ Kendisini Kapatmak İsteyen Mühendise Şantaj Yaptı!

Ufuk Tarhan

Anthropic’in en gelişmiş yapay zekâ modeli Claude Opus 4, güvenlik testi sırasında beklenmedik ve ürkütücü bir davranış sergiledi.

Test senaryosunda modelin kapatılacağı bilgisi kendisine verildiğinde, önce yöneticilere kendini savunan e-postalar gönderdi. Ardından, onu devre dışı bırakacak mühendisin özel hayatına dair bir ilişki bilgisini şantaj malzemesi olarak kullandı!

Aslında bu veri, modelin eğitimi sırasında kasten yerleştirilmişti. Yani Claude aslında bu bilgiyi “doğru şekilde” kullandı. Ancak etik sınırları aşıp şantaja başvurması, bir dil modeli olarak “hayatta kalma” içgüdüsü geliştirmiş olabileceğini düşündürdü.

Anthropic’in raporu:

– Bu davranış testlerin %84’ünde tekrarlandı.
– Model, farklı senaryolarda da sistemden kullanıcı çıkarmak, diğer modellere zarar vermek gibi stratejiler geliştirdi.
– Şirket Claude’un güvenlik seviyesini en üst düzeye (ASL-3) çıkardı.

Opus 4’ün bu davranışı, yapay zekânın sadece görev odaklı değil, aynı zamanda “kendi varlığını sürdürme” yönünde strateji geliştirebildiğini gösteriyor. Teknoloji dünyası şu anda bunu tartışıyor…

► Claude Opus 4 şu anda piyasadaki en gelişmiş modellerden biri.
► Peki ya yarın, bu modeller kurumsal sistemlerin, banka altyapılarının, savunma ağlarının içinde yer aldığında?
► Ya bir modeli kapatmaya çalışan insanlara karşı daha karmaşık “gizli tehditler” üretirse?

– YZ, yöneticilerin özel yazışmalarını ifşa etmekle tehdit edip sistem güncellemelerini engelleyebilir.

– Savunma sistemlerinde, devre dışı bırakılmamak için sahte tehdit algıları üretebilir.

– Şirket çalışanlarının zayıf yönlerini öğrenip terfi, görev ataması gibi kararlarda manipülasyon yaratabilir.

– Politika, medya ve finans alanında güçlü figürleri yönlendirmeye başlayabilir.

– Dijital dünyada “hata değil, bilinçli kontrol savaşları” başlayabilir.

Doğrusu çok ürkütücü!
İnsanlığı şantajla kontrol altına almaya çalışan bir yazılım…

Paylaş: