Yapay Zekanın Sınırlarını Ölçen 2500 Soruluk Yeni İnsanlık Sınavı

Gelişen yapay zeka sistemleri, uzun süredir kullanılan akademik testlerde yüksek puanlar alırken, araştırmacılar bu sınavların artık yapay zekanın gerçek kapasitesini ölçmekte yetersiz kaldığını fark etti. Bu durum, yapay zekanın insan seviyesine yaklaştığı izlenimini vermekle birlikte, aslında çok daha derin ve karmaşık bir yetkinlik gerektirdiğini ortaya koyuyor. Bu nedenle dünya genelinde yaklaşık 1,000 araştırmacının katılımıyla kapsamlı bir proje hayata geçirildi ve “İnsanlığın Son Sınavı” adında yeni bir değerlendirme geliştirildi.

Yeni sınavın amacı, yapay zekanın halen zorlandığı alanları ortaya koymak ve mevcut testlerin ötesinde, insan uzmanlığı gerektiren sorularla dolu bir sınav hazırlamaktı. Texas A&M Üniversitesi’nden Dr. Tung Nguyen’in de katkıda bulunduğu bu sınavda toplam 2,500 soru bulunuyor ve bu sorular matematik, doğa bilimleri, beşeri bilimler, antik diller gibi çok çeşitli disiplinleri kapsıyor. Sorular, hızlı internet aramaları veya basit çözümlerle geçilemeyecek şekilde titizlikle tasarlandı.

Yarısı insanlığın en karmaşık bilgi alanlarını içeren bu sınav, geleneksel yapay zeka değerlendirmelerinden farklı olarak uzman insan bilgisini esas alıyor. Araştırmacılar, her soruyu mevcut yapay zeka modelleri üzerinde test etti ve kesin olarak doğru cevabı veren sorular sınavdan çıkarıldı. Bu sayede sınav, yapay zekanın henüz başaramadığı derecede zor tutuldu. GPT-4o, Claude 3.5 Sonnet gibi gelişmiş yapay zeka modelleri testte yüzde 2,7 ile 4,1 arasında düşük başarı sağlarken, en iyi sonuç yüzde 50 civarında kaldı.

Dr. Nguyen bu yeni sınavın sadece teknik bir mesele olmadığını, yapay zekanın sınırlarını doğru değerlendirmeye ihtiyaç duyulduğunu belirtiyor. Yüksek puanların yapay zekanın gerçek zekasını gösterme garantisi olmadığını, bu tür sınavların aslında spesifik insan becerilerini ölçtüğünü anlatıyor. Bu nedenle, yeni nesil sınavlara ihtiyaç duyuluyor çünkü günümüz yapay zeka sistemleri daha derin, bağlamsal ve uzmanlık gerektiren görevlerde hâlâ zorluk çekiyor.

İnsanlığın Son Sınavı’nın getirdiği en önemli mesaj ise teknolojinin insan uzmanlığını tamamlayıcı bir araç olduğu ve insan bilgisinin hâlâ vazgeçilmez olduğudur. Dr. Nguyen, bu çalışmanın yapay zekaya karşı bir yarış değil, eksikliklerin tespiti ve gücün anlaşılması için bir rehber olduğunu vurguluyor. Bu anlayış, daha güvenli ve etkili yapay zeka teknolojileri geliştirilmesine olanak tanıyacak.

Araştırma, sınav sorularının bir kısmını halka açıklayarak şeffaf bir ölçüm aracı oluşturdu, ancak çoğunluğu gizli tutuluyor. Böylece yapay zeka sistemleri yanıltıcı hafıza teknikleriyle sınavı geçemeyecek. Bu uzun vadeli ölçüt, gelecekteki yapay zeka modellerinin gerçek beceri düzeyini değerlendirirken kilit rol oynayacak.

Proje, farklı disiplinlerden bilim insanlarının iş birliğiyle geniş çapta bir katılımı da beraberinde getirdi. Tarihçilerden dilbilimcilere, fizikten tıbba kadar uzmanlar bu sınavın hazırlanmasında rol aldı. Bu çeşitlilik, yapay zekanın farklı alanlardaki yetersizliklerini ortaya çıkarmak için kritik önemdeydi. İnsanların bir arada çalışmasının, teknoloji dünyasında halen vazgeçilmez olduğunu bir kez daha gösterdi.

📎 Kaynak: sciencedaily.com