
Çalışma, Yapay Zeka'nın İnsan Performansıyla Eşleştiği Görevleri Ortaya Çıkarıyor

OpenAI, modern sinir ağlarının gerçek iş görevlerini ne kadar iyi yerine getirdiğini değerlendirmek için büyük ölçekli bir çalışma gerçekleştirdi. Bulgular, yapay zekanın zaten birçok meslek dalında deneyimli çalışanlar seviyesinde bazı işlevleri yerine getirebildiğini göstermektedir.
Deney, GDPval adıyla anıldı ve 44 farklı meslek dalında 220 görev içeriyordu. Bu alanlardaki profesyoneller, yapay zeka modellerinin her gün yaptıkları işleri ne kadar etkili bir şekilde yerine getirdiğini kendileri değerlendirdi. Bu meslekler arasında emlakçılar, avukatlar, mühendisler, yazılım geliştiricileri, eczacılar ve finansal danışmanlar yer aldı.
Çalışma, sinir ağlarının en iyi rutin, iyi tanımlanmış görevlerde performans gösterdiğini buldu. Örneğin, yapay zeka zaten pazarlama materyalleri hazırlayabilir, piyasa verilerini analiz edebilir, ön hazırlık hukuki belgeleri hazırlamada yardımcı olabilir veya tıbbi görüntüleri işleyebilir. İlginç bir şekilde, bu modeller arasındaki gayri resmi yarışmada lider, OpenAI ürünü değildi. Uzmanlar tarafından en yüksek puanı alan model, Anthropic'ten Claude Opus 4.1 oldu ve hemen arkasında GPT-5 yer aldı.
Daha gelişmiş bir GPT-5 versiyonu, uzmanların insan işine eşit veya daha iyi olarak değerlendirdiği çıktılar üretti ve bu durum %40 oranında gerçekleşti. Buna karşın, önceki nesil olan GPT-4o, bu sonucu yalnızca %13.7 oranında görevde başardı. OpenAI, bunun insanların tamamen yerini almakla ilgili olmadığını, aksine yapay zekanın çalışanlara yardımcı olma rolüyle ilgili olduğunu vurguluyor; makineler bazı tekrarlayan görevleri daha hızlı ve daha ucuz bir şekilde yerine getirerek profesyonellerin daha karmaşık konulara odaklanmalarını sağlıyor.
-
OpenAI'nin AI'si 2025 IOI'de Dünyanın En İyi 6 Programcısını Aşmayı Başardı
-
OpenAI, Farklı Meslekler için 300'den Fazla AI İpucu Kütüphanesi Başlattı
-
Yapay Zeka Neden Halüsinasyon Görüyor: OpenAI Sinir Ağı Yanılsamalarının Temel Sebebini Açıklıyor
-
OpenAI, ChatGPT'de Yaş Doğrulamasını Başlattı
-
NVIDIA, OpenAI'nin Hesaplama Altyapısına 100 Milyar Dolar Yatırım Yapacak