NSF Haberler

Derin öğrenme ağları, bizim yaptığımız gibi insan sesini tercih edebilir

Dijital devrim, bit adı verilen görünmez 1’ler ve 0’lar olan ikili dosyalar temeli üzerine inşa edilmiştir. Bilgisayarların ikili sayılarla “konuşmayı” tercih ettiği fikri nadiren sorgulanır. dan yeni araştırmaya göre Columbia Mühendislikbu değişmek üzere olabilir.

yeni ABD Ulusal Bilim VakfıMakine mühendisi Hod Lipson ve araştırmacı Boyuan Chen tarafından finanse edilen çalışma, yapay zeka sistemlerinin sayısal veri etiketleri yerine insan dilindeki ses dosyalarıyla programlanırsa daha yüksek performans seviyelerine ulaşabileceğini kanıtlıyor.

Araştırmacılar, “eğitim etiketleri” ses dosyalarından oluşan bir sinir ağının, basit ikili girdiler kullanan daha geleneksel bir şekilde programlanmış başka bir ağa göre görüntülerdeki nesneleri tanımlamada daha yüksek performans seviyelerine ulaştığını keşfettiler.

Lipson, “Bu bulgunun neden önemli olduğunu anlamak için, sinir ağlarının genellikle nasıl programlandığını ve insan sesini kullanmanın neden radikal bir deney olduğunu anlamakta fayda var” dedi.

İkili sayıların dili, bilgileri kompakt ve kesin bir şekilde iletir. Buna karşılık, konuşulan insan dili daha tonal ve analogdur ve dijital bir dosyada yakalandığında ikili değildir. Sayılar, verileri dijitalleştirmenin çok etkili bir yolu olduğundan, programcılar bir sinir ağı geliştirirken sayı odaklı bir süreçten nadiren saparlar.

Lipson ve Chen, sistemler nesneleri, örneğin hayvanları, dünyanın en gelişmiş seslerinden birinin, belirli sözcükleri söyleyen insan sesinin gücünü kullanarak tanımak için “eğitilirse” sinir ağlarının daha hızlı ve daha iyi öğrenebileceğini tahmin ettiler.

Ekip, deneysel sinir ağını yeni bir şekilde kurdu. Onu, bir hayvanın veya nesnenin fotoğrafını içeren bir veri tablosu ve tasvir edilen hayvan veya nesne için kelimenin insan tarafından seslendirildiği bir ses dosyası ile beslediler. 1’ler ve 0’lar yoktu.

İlk başta, araştırmacılar önsezilerinin doğru olduğunu keşfettiklerinde biraz şaşırdılar – ses dosyası ile ikili 1’ler ve 0’lar arasında belirgin bir avantaj yoktu. Hem kontrol sinir ağı hem de deneysel ağ eşit derecede iyi performans gösterdi ve bir fotoğrafta tasvir edilen hayvanı veya nesneyi zamanın yaklaşık %92’sinde doğru bir şekilde tanımladı. Sonuçlarını tekrar kontrol etmek için araştırmacılar deneyi tekrar yaptılar ve aynı sonucu aldılar.

Sonuçlar, toplantıda sunulmak üzere Uluslararası Öğrenme Temsilleri Konferansı 3 Mayıs’ta, Lipson’s Columbia Creative Machines Lab’de, dikkatlice önceden işlenmiş verilerle doğrudan programlanmak yerine diğer makineler ve insanlarla etkileşime girerek çevrelerindeki dünyayı anlayabilen robotlar yaratmaya yönelik daha geniş bir çabanın parçası.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir