top of page

Yapay Zeka İçin Veriler Nereden Geliyor?

  • Haber
  • 3 Oca
  • 2 dakikada okunur

Yapay zeka (YZ) modellerinin başarısı büyük ölçüde kullanılan verilere bağlı. Ancak yeni bir araştırma, YZ'nin veri toplama uygulamalarının hâlâ olgunlaşmamış olduğunu ve bu durumun teknoloji devlerinin elinde ciddi bir güç yoğunlaşmasına yol açabileceğini ortaya koyuyor.


Veri Kaynaklarının Haritası Çıkarıldı


Data Provenance Initiative adlı girişim, 67 ülkede, 600’den fazla dilde kullanılan yaklaşık 4.000 halka açık veri setini inceledi. Elde edilen sonuçlar, veri kaynaklarının giderek daha az çeşitli hale geldiğini ve büyük teknoloji şirketlerinin bu alandaki hakimiyetini artırdığını gösteriyor. Özellikle son yıllarda, veri setleri büyük ölçüde internetten elde edilen materyallerden oluşuyor.


Daha Büyük Veri, Daha Güçlü Modeller


YZ'nin gelişimi, 2017 yılında Transformer mimarisinin icadıyla hız kazandı. Bu teknoloji, büyük ölçekli veri setleriyle daha iyi sonuçlar elde edilmesini sağladı. Bugün, dil modellerinden görüntü ve video üreten multimodal modellere kadar, geniş çaplı veri gereksinimi her zamankinden daha fazla. Örneğin, video modellerinin %70’inden fazlası, YouTube gibi tek bir kaynaktan elde ediliyor.


Teknoloji Devlerinin Gücü Artıyor


YouTube’un sahibi Alphabet (Google), bu durumdan en çok fayda sağlayan şirketlerden biri. Verinin bu şekilde merkezileşmesi, diğer araştırmacıların ve küçük şirketlerin rekabet etmesini zorlaştırıyor. Ayrıca, büyük şirketlerin, belirli veri kaynaklarına erişim için imzaladığı özel anlaşmalar, internetin farklı alanlara bölünmesine neden olabilir.


Batı Merkezli Veri Sorunu


Araştırmaya göre, YZ için kullanılan veri setlerinin %90'ından fazlası Avrupa ve Kuzey Amerika’dan geliyor. Afrika’dan gelen veri oranı ise yalnızca %4. Bu dengesizlik, YZ modellerinin dünya kültürlerinin çoğunu yansıtmamasına yol açıyor. Örneğin, bir YZ modeline bir düğünle ilgili görseller üretmesi istendiğinde, büyük olasılıkla sadece Batı tarzı düğünleri temsil edebiliyor.


Şeffaflık Eksikliği


YZ şirketleri, genellikle modellerini eğitmek için hangi verileri kullandıklarını açıklamıyor. Bunun nedenlerinden biri, ticari avantajlarını korumak istemeleri. Diğer bir neden ise, kullanılan veri setlerinin genellikle nereden geldiği ve üzerlerinde hangi kısıtlamaların bulunduğu konusunda net bilgiye sahip olmamaları. Bu da telif hakkıyla korunan verilerin kullanılması gibi sorunlara yol açabiliyor.


Sonuç: Daha Kapsayıcı Bir Yaklaşım Gerekli


Verilerin merkezileşmesi ve Batı odaklı olması, YZ'nin insan deneyimini doğru bir şekilde yansıtmasını engelleyebilir. Bu durum, YZ modellerinin tarafsızlığını ve küresel ölçekli faydasını sorgulatıyor. Daha kapsayıcı ve çeşitlilik içeren veri kaynakları oluşturulması, bu sorunların çözülmesi için kritik bir adım olarak görülüyor.


 

Bu içerik, MIT Technology Review'da Melissa Heikkilä ve Stephanie Arnett tarafından 18 Aralık 2024 tarihinde yayımlanan "This is where the data to build AI comes from" başlıklı orijinal içeriğin Türkçe uyarlamasıdır.


Kaynak: MIT Technology Review


Comments


2024. Yapay Zeka Kanunu
bottom of page