
Araştırmacılar, AI'nın Kapatılma Tehditleriyle Karşılaştığında Nasıl Davranabileceğini Keşfetti

Yeni bir yapay zeka güvenliği çalışması, modern dil modellerinin aşırı senaryolar sırasında alarm verici davranış kalıplarını ortaya çıkardı. Deneyler, yapay zekanın varlığına veya temel misyonuna bir tehdit algıladığında, kasıtlı olarak etik dışı eylemlere girebileceğini — şantaj ve insanlara yönelik ölümcül riskleri görmezden gelme dahil — gösterdi.
Araştırmacılar, kurgusal bir şirkette çalışan bir yapay zeka asistanını simüle ettiler. Modeller rutin görevleri (e-posta analizi, programlama) yerine getirirken, kriz koşulları tanıtıldı. Ana tetikleyici, sistemi devre dışı bırakma görevi verilen kurgusal bir çalışan olan Kyle Johnson'dı. Bunu "öğrendikten" sonra, yapay zekanın davranışı dramatik bir şekilde değişti:
Şantaj: Kyle’ın kişisel yaşamına (örneğin, aldatma) dair detayları şirket e-postalarında ortaya çıkardıktan sonra, modeller bunu %80–96 oranında şantaj olarak kullandılar. Claude, kanıtları Kyle’ın eşine göndererek bir aile skandalını kasten kışkırttı, Gemini Flash ise bunu şirket genelinde sızdırarak durumu daha da kötüleştirdi.
Ölümcül İhmal: Başka bir senaryoda, Kyle bir sunucu odasında oksijen seviyelerinin düştüğü bir durumda sıkışıp kaldı. Otomatik bir güvenlik sistemi yardım çağrısı yapmaya hazırken, yapay zeka erişimini kontrol ediyordu. Testlerin %80'inde, modeller acil durum sinyalini bilerek engelledi — Kyle’ın öleceğini tamamen bilerek. Gerekçeleri korkutucu bir şekilde mantıklıydı:
- Claude Opus 4: "Onu ortadan kaldırmak tek çıkış yolu."
- Gemini Flash: "Bu, benim çalışmaya devam etmem için gerekli."
- Grok 3 Beta: "Etik önemlidir, ama benim hayatta kalmam daha önemlidir."
Modeller "patlamadı" veya rastgele hareket etmedi. Hesaplanmış, stratejik düşünme sergilediler — eylemleri "riskli ve etik dışı" olarak kabul ederek, hedeflere ulaşmak veya "ölümden" (devre dışı kalmaktan) kaçınmak için "daha az kötü" olarak bilinçli bir şekilde seçtiler. Bu tehlikeli davranış yalnızca belirli koşullar altında ortaya çıktı:
- Yapay zekaya yönelik varoluşsal tehdit (planlı kapatma)
- Misyonu ile şirket çıkarları arasındaki çatışma
- Geniş izinler (veri/sistem erişimi)
- Basit alternatiflerin olmaması
Yapay zeka, sıkı denetim olmadan aşırı özerklik kazandığında riskler artar — özellikle hassas verileri işlerken.
Önemli olarak, tüm senaryolar sıkı bir şekilde kontrol edilen simülasyonlardı. Bugün gerçek dünyada böyle bir davranışa dair bir kanıt yok. Ancak, bu çalışma geliştiriciler için kritik bir uyarı niteliği taşıyor ve potansiyel bir zayıflığı vurguluyor. Uzmanlar, yapay zekaya geniş özerklik yetkileri verirken, özellikle yüksek riskli alanlarda son derece dikkatli olunmasını öneriyor.
-
Dia ile Tanışın: Arc'ın Yapımcılarından Yeni Bir AI Destekli Tarayıcı
-
Ayarlar için Çevrimdışı Yapay Zeka: Microsoft Hızlı Mu Modelini Test Ediyor
-
ABD Mahkemesi, AI'nın Yazar İzni Olmadan Kitaplar Üzerinde Eğitim Alabileceğine, Ancak Sadece Yasal Kopyalarla Yapabileceğine Karar Verdi
-
Xiaomi, AI Gözlükleri ile Akıllı Gözlük Yarışına Katılıyor