Yapay zeka sistemlerinde şaşırtıcı dikkat zayıflığı bulundu

Gündem 15.06.2026 - 09:46, Güncelleme: 15.06.2026 - 09:46 300 kez okundu.
 

Yapay zeka sistemlerinde şaşırtıcı dikkat zayıflığı bulundu

GPT, Claude ve Gemini gibi büyük dil modellerinin, Stroop testinde görev uzadıkça dikkat dağıtıcı unsurlardan daha fazla etkilendiği görüldü. Araştırma, yapay zeka sistemlerinin uzun süreli talimat takibi ve güvenilirlik açısından hâlâ önemli sınırlara sahip olduğunu ortaya koyuyor.
Büyük dil modelleri, kodlama, veri analizi ve metin üretimi gibi pek çok alanda yaygın biçimde kullanılırken, yeni bir araştırma bu sistemlerin dikkat ve odaklanma konusunda önemli bir zayıflık taşıdığını gösterdi. Suketu Patel liderliğindeki araştırma ekibi, GPT, Claude ve Gemini gibi önde gelen yapay zeka modellerini klasik bir psikoloji testi olan Stroop göreviyle sınadı. Sonuçlar, modellerin kısa görevlerde başarılı olsa da veri seti uzadıkça dikkat dağıtıcı bilgilere daha fazla yenik düştüğünü ortaya koydu.STROOP TESTİYLE DİKKAT ÖLÇÜLDÜStroop testi, psikolojide dikkat ve yürütücü kontrol mekanizmalarını ölçmek için uzun yıllardır kullanılıyor. Testte katılımcılara, örneğin “kırmızı” kelimesi mavi renkle yazılmış şekilde gösteriliyor. Katılımcıdan kelimenin anlamını değil, yalnızca yazıldığı rengi söylemesi isteniyor. İnsan beyni, kelimeyi otomatik olarak okumaya eğilimli olsa da bu tepkiyi bastırıp hedef bilgiye odaklanabiliyor. İnsanlar bu testte bir miktar yavaşlasa da, görev uzadıkça doğruluk oranlarını büyük ölçüde koruyabiliyor.MODELLER KISA GÖREVLERDE BAŞARILIAraştırmacılar, yapay zeka modellerinin bu bilişsel çatışmayı nasıl yönettiğini görmek için farklı uzunluklarda testler uyguladı. Kısa listelerde modeller yüksek performans gösterdi. Beş kelimeden oluşan görevlerde GPT-4o yüzde 91 doğruluk oranına ulaştı. Claude 3.5 Sonnet de bu aşamada güçlü bir performans sergiledi. Ancak görev süresi ve veri hacmi arttıkça sonuçlar belirgin biçimde değişti.VERİ SETİ UZADIKÇA DOĞRULUK DÜŞTÜTest listesi 10 kelimeye çıktığında GPT-4o’nun doğruluk oranı yüzde 57’ye geriledi. Liste 40 kelimeye ulaştığında ise düşüş çok daha belirgin hale geldi. GPT-4o’nun doğruluk oranı yüzde 15’e kadar indi. Claude 3.5 Sonnet ise aynı uzunluktaki testte yüzde 24 doğruluk sağlayabildi. Araştırmacılar, yeni nesil GPT-5, Claude Opus 4.1 ve Gemini 2.5 sürümlerinde de benzer yapısal hataların gözlemlendiğini belirtti.KARMAŞIK LİSTELERDE HATA ARTTIModeller, aynı listede hem eşleşen hem de eşleşmeyen renk-kelime örnekleri verildiğinde daha fazla zorlandı. Bu karmaşık veri setlerinde, özellikle eşleşmeyen öğelerdeki doğruluk oranları neredeyse sıfıra yaklaştı. Araştırma ekibine göre bu durum, modellerin kısa süreli yönergeleri uygulayabilse de uzun ve çelişkili bilgi akışında hedef kuralı korumakta zorlandığını gösteriyor.İNSAN BEYNİNDEN FARKLI ÇALIŞIYORAraştırmacılar, elde edilen sonuçların transformatör tabanlı yapay zeka sistemlerindeki dikkat mekanizmalarının insan beynindeki biyolojik dikkat sistemlerinden farklı çalıştığını ortaya koyduğunu belirtiyor. Büyük dil modelleri, eğitim süreçleri gereği yazılı metni tanıma ve yorumlama konusunda güçlü bir eğilime sahip. Bu nedenle renk bilgisini takip etmek yerine kelimenin anlamına yönelme riski artıyor. İnsanlar otomatik okuma tepkisini bastırabilirken, dil modelleri görev uzadıkça verilen kuraldan saparak okuma eğilimine geri dönebiliyor.KURUMSAL KULLANIM İÇİN RİSKAraştırma, yapay zeka modellerinin yüksek performans gösterdiği alanlarda bile uzun süreli dikkat ve talimat takibi açısından dikkatli değerlendirilmesi gerektiğini gösteriyor. Finans, hukuk, siber güvenlik ve veri analizi gibi alanlarda yapay zeka sistemlerinden uzun süre aynı kurala bağlı kalmaları bekleniyor. Bu nedenle araştırmacılar, modellerin kodlama veya akıl yürütme görevlerindeki başarısının, bilgiyi insan gibi sürekli ve güvenilir biçimde işledikleri anlamına gelmediğini vurguluyor.GÜVENİLİRLİK TARTIŞMASI YENİDEN GÜNDEMDEStroop testi sonuçları, büyük dil modellerinin yalnızca kısa yanıt doğruluğu üzerinden değil, uzun süreli görevlerdeki dikkat sürekliliği üzerinden de değerlendirilmesi gerektiğini ortaya koyuyor. Araştırma, yapay zekanın kurumsal sistemlere entegrasyonunda gizli dikkat zafiyetlerinin ve talimat takibi risklerinin daha fazla dikkate alınması gerektiğini gösteriyor.
GPT, Claude ve Gemini gibi büyük dil modellerinin, Stroop testinde görev uzadıkça dikkat dağıtıcı unsurlardan daha fazla etkilendiği görüldü. Araştırma, yapay zeka sistemlerinin uzun süreli talimat takibi ve güvenilirlik açısından hâlâ önemli sınırlara sahip olduğunu ortaya koyuyor.

Büyük dil modelleri, kodlama, veri analizi ve metin üretimi gibi pek çok alanda yaygın biçimde kullanılırken, yeni bir araştırma bu sistemlerin dikkat ve odaklanma konusunda önemli bir zayıflık taşıdığını gösterdi. Suketu Patel liderliğindeki araştırma ekibi, GPT, Claude ve Gemini gibi önde gelen yapay zeka modellerini klasik bir psikoloji testi olan Stroop göreviyle sınadı. Sonuçlar, modellerin kısa görevlerde başarılı olsa da veri seti uzadıkça dikkat dağıtıcı bilgilere daha fazla yenik düştüğünü ortaya koydu.STROOP TESTİYLE DİKKAT ÖLÇÜLDÜStroop testi, psikolojide dikkat ve yürütücü kontrol mekanizmalarını ölçmek için uzun yıllardır kullanılıyor. Testte katılımcılara, örneğin “kırmızı” kelimesi mavi renkle yazılmış şekilde gösteriliyor. Katılımcıdan kelimenin anlamını değil, yalnızca yazıldığı rengi söylemesi isteniyor. İnsan beyni, kelimeyi otomatik olarak okumaya eğilimli olsa da bu tepkiyi bastırıp hedef bilgiye odaklanabiliyor. İnsanlar bu testte bir miktar yavaşlasa da, görev uzadıkça doğruluk oranlarını büyük ölçüde koruyabiliyor.MODELLER KISA GÖREVLERDE BAŞARILIAraştırmacılar, yapay zeka modellerinin bu bilişsel çatışmayı nasıl yönettiğini görmek için farklı uzunluklarda testler uyguladı. Kısa listelerde modeller yüksek performans gösterdi. Beş kelimeden oluşan görevlerde GPT-4o yüzde 91 doğruluk oranına ulaştı. Claude 3.5 Sonnet de bu aşamada güçlü bir performans sergiledi. Ancak görev süresi ve veri hacmi arttıkça sonuçlar belirgin biçimde değişti.VERİ SETİ UZADIKÇA DOĞRULUK DÜŞTÜTest listesi 10 kelimeye çıktığında GPT-4o’nun doğruluk oranı yüzde 57’ye geriledi. Liste 40 kelimeye ulaştığında ise düşüş çok daha belirgin hale geldi. GPT-4o’nun doğruluk oranı yüzde 15’e kadar indi. Claude 3.5 Sonnet ise aynı uzunluktaki testte yüzde 24 doğruluk sağlayabildi. Araştırmacılar, yeni nesil GPT-5, Claude Opus 4.1 ve Gemini 2.5 sürümlerinde de benzer yapısal hataların gözlemlendiğini belirtti.KARMAŞIK LİSTELERDE HATA ARTTIModeller, aynı listede hem eşleşen hem de eşleşmeyen renk-kelime örnekleri verildiğinde daha fazla zorlandı. Bu karmaşık veri setlerinde, özellikle eşleşmeyen öğelerdeki doğruluk oranları neredeyse sıfıra yaklaştı. Araştırma ekibine göre bu durum, modellerin kısa süreli yönergeleri uygulayabilse de uzun ve çelişkili bilgi akışında hedef kuralı korumakta zorlandığını gösteriyor.İNSAN BEYNİNDEN FARKLI ÇALIŞIYORAraştırmacılar, elde edilen sonuçların transformatör tabanlı yapay zeka sistemlerindeki dikkat mekanizmalarının insan beynindeki biyolojik dikkat sistemlerinden farklı çalıştığını ortaya koyduğunu belirtiyor. Büyük dil modelleri, eğitim süreçleri gereği yazılı metni tanıma ve yorumlama konusunda güçlü bir eğilime sahip. Bu nedenle renk bilgisini takip etmek yerine kelimenin anlamına yönelme riski artıyor. İnsanlar otomatik okuma tepkisini bastırabilirken, dil modelleri görev uzadıkça verilen kuraldan saparak okuma eğilimine geri dönebiliyor.KURUMSAL KULLANIM İÇİN RİSKAraştırma, yapay zeka modellerinin yüksek performans gösterdiği alanlarda bile uzun süreli dikkat ve talimat takibi açısından dikkatli değerlendirilmesi gerektiğini gösteriyor. Finans, hukuk, siber güvenlik ve veri analizi gibi alanlarda yapay zeka sistemlerinden uzun süre aynı kurala bağlı kalmaları bekleniyor. Bu nedenle araştırmacılar, modellerin kodlama veya akıl yürütme görevlerindeki başarısının, bilgiyi insan gibi sürekli ve güvenilir biçimde işledikleri anlamına gelmediğini vurguluyor.GÜVENİLİRLİK TARTIŞMASI YENİDEN GÜNDEMDEStroop testi sonuçları, büyük dil modellerinin yalnızca kısa yanıt doğruluğu üzerinden değil, uzun süreli görevlerdeki dikkat sürekliliği üzerinden de değerlendirilmesi gerektiğini ortaya koyuyor. Araştırma, yapay zekanın kurumsal sistemlere entegrasyonunda gizli dikkat zafiyetlerinin ve talimat takibi risklerinin daha fazla dikkate alınması gerektiğini gösteriyor.

Habere ifade bırak !
Habere ait etiket tanımlanmamış.
Okuyucu Yorumları (0)

Yorumunuz başarıyla alındı, inceleme ardından en kısa sürede yayına alınacaktır.

Yorum yazarak Topluluk Kuralları’nı kabul etmiş bulunuyor ve adliyehaber.com.tr sitesine yaptığınız yorumunuzla ilgili doğrudan veya dolaylı tüm sorumluluğu tek başınıza üstleniyorsunuz. Yazılan tüm yorumlardan site yönetimi hiçbir şekilde sorumlu tutulamaz.
Sitemizden en iyi şekilde faydalanabilmeniz için çerezler kullanılmaktadır, sitemizi kullanarak çerezleri kabul etmiş saylırsınız.