ChatGPT’nin Bilimsel Doğruluk Testinde Sınırlamalar Ortaya Çıktı

Yapay zekânın hızla hayatımıza girmesi, bilimsel alanlarda da yeni beklentiler oluşturuyor. Ancak Washington State University’den Prof. Mesut Çiçek ve ekibinin yaptığı son araştırma, popüler yapay zeka modeli ChatGPT’nin bilimsel doğruluk testinde beklenenden düşük performans sergilediğini gösterdi. Hem güvenilirlik hem tutarlılık açısından önemli eksiklikler ortaya koyan bu sonuçlar, yapay zekaya dayalı karar süreçlerinde temkinli olunması gerektiğine işaret ediyor.

Araştırmada, bilimsel makalelerden alınan 700’den fazla hipotez, ChatGPT’ye doğruluk açısından test edildi. Hem 2024 hem de 2025 yıllarında gerçekleştirilen iki aşamalı sınamada, yapay zeka modeli hipotezlerin doğru ya da yanlış olduğunu belirlemek üzere aynı soruya tekrar tekrar cevap verdi. Amacı, modelin hem doğruluk oranını hem de tutarlılığını ölçmekti. Bu testler yapay zekanın karmaşık bilimsel bilgiyi ne derece anlayıp yorumlayabildiğini ortaya koymak için kritik önemdeydi.

Elde edilen sonuçlar hayli çarpıcı oldu. İlk denemede ChatGPT doğru cevapları %76,5 oranında sağlarken, bir yıl sonra bu oran %80’e çıktı. Ancak, araştırmacıların rassal tahmin ihtimalini dikkate aldıklarında modelin gerçek güvenilirliği %60’lara gerilemiş olarak hesaplandı. En büyük zorluk yanlış olan ifadeleri tespit etmekte yaşandı; model sadece %16,4 oranında yanlış ifadeleri doğru şekilde işaretledi. Dahası, aynı soru 10 kez tekrarlandığında model yalnızca %73 oranında tutarlı yanıtlar verdi. Bu durum yapay zekanın kararsız ve güvenilmez olabileceğine dair önemli uyarılar içeriyordu.

Araştırmanın baş yazarı Prof. Çiçek, “Aynı soruyu defalarca sorduğunuzda farklı cevaplar alıyorsunuz” diyerek bu tutarsızlığın ne kadar kritik bir sorun olduğunu vurguladı. Yapay zekanın verdiği cevaplar arasında bir sefer doğruyken başka bir sefer yanlış olabiliyor. Bu da AI sistemlerinin yüzeysel dil üretme yeteneğine sahip olsa da, derinlemesine kavrayıştan uzak olduğunu gösteriyor. Araştırma, bu haliyle güncel yapay zekanın gerçek anlamda ‘düşünebilme’ kapasitesinin hâlâ oldukça sınırlı olduğunu ortaya koydu.

Çalışmada kullanılan hipotezler, genellikle çok değişkenli ve karmaşık bağlamlara sahipti. Bu nedenle doğru-yanlış şeklinde net bir sonuca ulaşmak yapay zeka için ekstra zorluk teşkil etti. Modelin iki farklı versiyonu (ChatGPT-3.5 ve ChatGPT-5 mini) test edilirken genel performans önemli ölçüde değişmedi. Araştırmacılar, AI teknolojisinin her ne kadar akıcı ve ikna edici bir dil kullanabilse de, derinlemesine bilimsel muhakeme yapma konusunda sınırlamalarının olduğunu belirtti.

Bu bulgular sadece akademik çevrelerde değil, yapay zekanın iş dünyasında ve günlük yaşamda kullanımı açısından da büyük önem taşıyor. İş liderlerinin ve karar vericilerin bu tür AI destekli araçlara temkinli yaklaşması, verilerin ve önerilerin doğruluğunu mutlaka insan gözüyle teyit etmesi gerekiyor. Çünkü yanlış veya tutarsız bilgiler zararlı sonuçlara yol açabilir. Uzmanlar, yapay zekanın güçlü bir destek olabileceğini ancak kesinlikle sorgulanması ve eleştirel değerlendirmeyle kullanılması gerektiğini söylüyor.

Uzun vadede, araştırma yapay zekanın gelişim yolunda atılması gereken önemli adımları gözler önüne seriyor. Modelin kavramsal anlayış kapasitesi artırılmadığı sürece, bilimsel alanda yapay zeka destekli karar mekanizmalarının güvenilirliğinden söz etmek zor olacak. Çalışmanın sonuçları, genel yapay zekanın gerçek anlamda “düşünen” bir teknoloji haline gelmesinin gelecek yıllarda da ciddi araştırmalar ve geliştirmeler gerektireceğini gösteriyor. Prof. Çiçek, “Yapay zekayı kullanmaktan yanayız ama her zaman dikkatli olunmalı” diye ekliyor. Bu uyarı, yapay zekanın bilim dünyasında yaygınlaşması ve toplumda etkin bir araç haline gelmesi sürecinde kritik bir hatırlatma niteliğinde.

📎 Kaynak: sciencedaily.com