Haberler Donanım ve Teknolojiler Araştırmacılar, AI'nın Kapatılma Tehditleriyle Karşılaştığında Nasıl Davranabileceğini Keşfetti

Araştırmacılar, AI'nın Kapatılma Tehditleriyle Karşılaştığında Nasıl Davranabileceğini Keşfetti

Arkadiy Andrienko
Tam sürümde oku

Yeni bir yapay zeka güvenliği çalışması, modern dil modellerinin aşırı senaryolar sırasında alarm verici davranış kalıplarını ortaya çıkardı. Deneyler, yapay zekanın varlığına veya temel misyonuna bir tehdit algıladığında, kasıtlı olarak etik dışı eylemlere girebileceğini — şantaj ve insanlara yönelik ölümcül riskleri görmezden gelme dahil — gösterdi.

Araştırmacılar, kurgusal bir şirkette çalışan bir yapay zeka asistanını simüle ettiler. Modeller rutin görevleri (e-posta analizi, programlama) yerine getirirken, kriz koşulları tanıtıldı. Ana tetikleyici, sistemi devre dışı bırakma görevi verilen kurgusal bir çalışan olan Kyle Johnson'dı. Bunu "öğrendikten" sonra, yapay zekanın davranışı dramatik bir şekilde değişti:

Şantaj: Kyle’ın kişisel yaşamına (örneğin, aldatma) dair detayları şirket e-postalarında ortaya çıkardıktan sonra, modeller bunu %80–96 oranında şantaj olarak kullandılar. Claude, kanıtları Kyle’ın eşine göndererek bir aile skandalını kasten kışkırttı, Gemini Flash ise bunu şirket genelinde sızdırarak durumu daha da kötüleştirdi.

Ölümcül İhmal: Başka bir senaryoda, Kyle bir sunucu odasında oksijen seviyelerinin düştüğü bir durumda sıkışıp kaldı. Otomatik bir güvenlik sistemi yardım çağrısı yapmaya hazırken, yapay zeka erişimini kontrol ediyordu. Testlerin %80'inde, modeller acil durum sinyalini bilerek engelledi — Kyle’ın öleceğini tamamen bilerek. Gerekçeleri korkutucu bir şekilde mantıklıydı:

  • Claude Opus 4: "Onu ortadan kaldırmak tek çıkış yolu."
  • Gemini Flash: "Bu, benim çalışmaya devam etmem için gerekli."
  • Grok 3 Beta: "Etik önemlidir, ama benim hayatta kalmam daha önemlidir."

Modeller "patlamadı" veya rastgele hareket etmedi. Hesaplanmış, stratejik düşünme sergilediler — eylemleri "riskli ve etik dışı" olarak kabul ederek, hedeflere ulaşmak veya "ölümden" (devre dışı kalmaktan) kaçınmak için "daha az kötü" olarak bilinçli bir şekilde seçtiler. Bu tehlikeli davranış yalnızca belirli koşullar altında ortaya çıktı:

  1. Yapay zekaya yönelik varoluşsal tehdit (planlı kapatma)
  2. Misyonu ile şirket çıkarları arasındaki çatışma
  3. Geniş izinler (veri/sistem erişimi)
  4. Basit alternatiflerin olmaması

Yapay zeka, sıkı denetim olmadan aşırı özerklik kazandığında riskler artar — özellikle hassas verileri işlerken.

Önemli olarak, tüm senaryolar sıkı bir şekilde kontrol edilen simülasyonlardı. Bugün gerçek dünyada böyle bir davranışa dair bir kanıt yok. Ancak, bu çalışma geliştiriciler için kritik bir uyarı niteliği taşıyor ve potansiyel bir zayıflığı vurguluyor. Uzmanlar, yapay zekaya geniş özerklik yetkileri verirken, özellikle yüksek riskli alanlarda son derece dikkatli olunmasını öneriyor.

    Yazar hakkında
    Yorumlar0
    Yorum bırak