Nesne tanıma sistemleri oldukça ilerledi; hele Facebook’un yüz tanıma algoritmaları korkutucu derecede iyi. Bu sistemler, insanların nesneleri tanımayı öğrenişinden farklı biçimde, tipik olarak milyonlarca görsel örnek kullanılarak geliştirilir. Bir insan ise bir nesnenin iki-üç resmini gördüğünde, genellikle o nesnenin yeni örneklerini tanıyabilir duruma gelir.
2011 yılında, Massachusetts Teknoloji Enstitüsü(MIT) Beyin Araştırma Bölümü’nden Tomaso Poggio’nun ekibi, görsel temsil için yeni bir bilgisayar modeli üzerinde çalışmaya başladı. Amaçları, beynin tam olarak ne yaptığını anlayabilmekti. Ekip, Theoretical Computer Sciencedergisinde yayımlanması için geçtiğimiz günlerde hazırladıkları makalelerinde, geliştirdikleri modeli temel alan bir makine öğrenimi sisteminin, sadece birkaç örneğe dayanarak son derece başarılı nesne tanımlamaları yapabildiğini gösteriyor.
Araştırmacılar ayrıca hem bu makalelerinde, hem de 2015 Ekim ayında PLOS Computational Biology dergisinde yayımladıkları makalelerinde, beynin işleyişine ilişkin eldeki kanıtların modelleri ile gayet uyumlu olduğunu da belirtiyorlar.
“Eğer bana yüzünüzün belli bir uzaklıktan çekilmiş bir resmini gösterseler ve daha sonra ben sizi farklı bir uzaklıktan görsem, görüntü resimdekinden farklı olur ve basit karşılaştırma yöntemleri işe yaramaz. Bu durumda ya çok fazla sayıda örnek resme gerek vardır; yani yüzünüzü tüm olası pozisyonlarda görmüş olmalıyımdır ya da nesnenin değişmez bir temsilini bulmak gerekir,” diyor Prof. Poggio.
Bir nesnenin değişmez temsilinin boyut değişimine, konum değişimine ve dönmeye karşı bağışıklı olması, bu değişimlerden etkilenmemesi gerekir. Bilgisayar görüş araştırmacıları değişmez nesne temsili için çeşitli teknikler önermişti, fakat Poggio’nun grubunun çalışması beynin işleyiş mekanizması ile uyumlu bir değişmez temsil bulması bakımından ayrıca önem taşıyor.
Sinirler Neyi Hesaplıyor?
Sinir hücreleri, yani nöronlar uçları dallanan uzun ve ince yapılı hücrelerdir. Görsel işlemenin yapıldığı beyin kabuğunda (İng. cerebral cortex), herbir nöronun her ucunda yaklaşık 10.000 dallanma bulunur.
Böylece iki kabuk nöronu (İng. cortical neuron) birbirleri ile sinir kavşağı (sinaps [İng. synapse]) adı verilen 10.000 ayrı kimyasal eklem üzerinden iletişim kurar. Her sinir kavşağının kendi “ağırlığı” (gelen sinyalin gücünü katlayan bir çarpan) vardır. 10.000 sinir kavşağının hepsinden geçen sinyaller, nöronun bedeninde biraraya getirilir. Uyarım desenleri ve elektriksel etkinlik, zaman içinde sinir kavşaklarının ağırlıklarını değiştirir; bu kökleşmiş alışkanlıkları ve anıları oluşturan mekanizmadır.
Öte yandan, matematiğin lineer cebir dalındaki anahtar işlemlerden biri nokta (skaler) çarpımdır. Bu işleme girdi olarak iki sayı dizisi (veya iki vektör) verilir, bunların elemanları belli bir düzende çarpılır ve ortaya tek bir sayıbiçiminde bir sonuç çıkar. Dolayısıyla, beyin kabuğunda bulunan tek bir nöral devrenin çıktısını, 10.000 değişkenli iki vektörün nokta çarpımı olarak düşünebiliriz. Bu büyük çaplı işlemi, beyindeki her bir nöron her an yapar.
Poggio’nun grubu, nokta çarpımlara dayanan değişmez nesne temsilleri geliştirmiş bulunuyor. Bir düzlemde 360 derecelik dönme yapan bir nesnenin minik bir dijital filmini çektiğinizi varsayın. Örneğin 24 karelik olsun ve herbir kare bir öncekinden birazcık daha dönmüş durumu göstersin. Filmi 24 tane fotoğraf biçiminde depolamış oluyorsunuz.
Ardından tanımadığınız bir nesnenin dijital resmini size gösterdiklerini farz edin. Söz konusu resim piksellerin renk değerlerine karşılık gelen bir dizi sayı (bir vektör) olarak yorumlanabileceğinden, filminizin karelerinin herbiri ile nokta çarpımlarını alabilir ve sonuçta 24 sayılık bir dizi elde edebilirsiniz.
Değişmezlik
Şimdi de aynı nesnenin bir öncekine göre 90 derecelik dönme yapmış halinin resmini alın. Elinizdeki 24 kare ile bunun nokta çarpımını hesaplayın. Yine aynı 24 sayıyı elde edersiniz, fakat sıralamaları farklı olur. Örneğin ilk kare ile yapılan çarpımdan elde edilen sonuç, bu kez altıncı kare ile yapılan çarpımın sonucu olarak çıkabilir. Ama sonuçta elde aynı 24 sayı olur.
O halde bu sayı listesi, yeni nesnenin dönme altından değişmezliği olan bir temsilidir. Bir nesneyi dönerken değil de boyutu değişirken veya konumu değişirken filme alarak elde edeceğiniz film kareleri de, sırasıyla boyut ve konum değişmezliği olan nokta çarpım listeleri verecektir.
Poggio ve meslektaşları son makalelerinde dönme, boyut ve konum değişmezliği olan bir nesne temsili üretmek amaçlandığında, en uygun kalıbın Gabor filtreleri olarak bilinen görüntüler kümesi olduğunu gösterdi. Beyin kabuğundaki görsel işleme hücreleri tarafından yapılan görüntü işleme operasyonları için de Gabor filtreleri iyi bir tanım sunuyor.
Üç Boyut
Bu teknik bir düzlem üzerindeki görsel değişimlerde iyi çalışsa da, üç boyutlu dönme olduğunda pek iyi iş görmüyor. Yani bir arabanın karşıdan çekilmiş fotoğrafı ile yandan çekilmiş fotoğraflarının ortaya çıkaracağı sonuçlar çok farklı oluyor.
Bununla birlikte araştırmacılar, eğer yeni nesne olarak filmdeki ile aynı tip nesne kullanılırsa , nokta çarpımların yeterince değişmez tanımları hala verebildiğini de gösterdiler. Bu gözlem, Nancy Kanwisher ve başka araştırmacılar tarafından yapılmış olan ve görsel işleyen beyin kabuğu bölümlerinin , belli nesne sınıfları için uzmanlaşan bölümleri olduğuna işaret eden araştırmaları ile örtüşüyor.
Ekip, PLOS Computational Biology dergisinde yayımlanan makalelerinde, nokta çarpım algoritmasını kullanarak binlerce rastgele nesneyi sınıflandırmayı öğrenen bir bir bilgisayar sistemi tasarladıklarını anlatıyor. Öğrendiği her nesne sınıfı için sistem bir şablonlar kümesi üretiyor. Bu şablonlar, insan beyninin görsel işleyen bölümünde karşılık gelen sınıflara ayrılan bölgelerin boyutunu ve çeşitliliğine ilişkin öngörü yapıyor. Bu da, araştırmacalara göre, beyin ile kendi yapılandırdıkları sistemin benzer birşeyler yaptığına işaret ediyor.
Ekibin değişmezlik hipotezi, Caltech profesörlerinden Christof Koch’a göre geleneksel makine öğrenimi ile primat görsel sistemi arasındaki büyük boşluğa kurulan güçlü bir köprü. “Eğer varolan doğal zeki sistemleri anlayacaksak, güçlü yapay zeka sistemlerinin yapılandırılmasına giden yolda bu gibi zarif matematiksel çerçeveler gerekecek,” diye ekliyor.
Kaynak: bilimfili.com-Sevkan Uzel