Düşünceleri Sese Çeviren Sistem Geliştirildi
Sesli düşünüyorum diye başlayan o klişe gerçek oldu. Artık düşünceler okunabilir metinlere çevrilebiliyor. Yapay zeka desteğiyle okunan bu metinler ne düşündüğünüzü dış dünyaya aktarıyor. İyi mi oldu ? Tartışılır, “Kime ne benim ne düşündüğümden?” diyebilirsiniz. Ya da “Nerede kaldı kişisel bilgi güvenliği?” çıkışınızda çok haklı olabilirsiniz. Ama bunların hiç biri yıkıcı güçle gelen teknolojik gelişmeleri durdurmayacaktır. Nazi Almanyasın’da insan öldürme teknikleri üzerinde çalışırken “Acaba ne düşündüklerini anlayabilir miyiz?” diye yola çıkıp yüksek manyetik alanda insanların beyinlerini pişiren Alman çakma bilim insanlarının haklı olabileceği kimin aklına gelirdi ?
Columbia nöro mühendisleri tarafından yürütülen bir çalışma ile birinin beyin aktivitesini izleyerek, daha önce görülmemiş netlikle duyduğu kelimeleri yeniden oluşturabilir.Konuşma sentezleyicilerinin ve yapay zekanın gücünü kullanan bu buluş, bilgisayarların doğrudan beyinle iletişim kurması için yeni teknikler geliştirebilir. Aynı zamanda, amyotrofik lateral skleroz (ALS) ile yaşayanlar veya inmeden iyileşme, dış dünya ile iletişim kurma yeteneklerini yeniden kazananlar gibi konuşamayan insanlara yardım etmek için de temel hazırlar.
“Seslerimiz bizi arkadaşlarımıza, ailemize ve çevremizdeki dünyaya bağlamaya yardımcı oluyor; bu nedenle birinin sesini yaralanmadan veya hastalıklardan dolayı kaybetmek çok yıkıcı” dedi. Columbia Üniversitesi’ndeki Mortimer B. Zuckerman Zihin Beyin Davranışı Enstitüsü’nde. “Bugünün çalışmasında, bu gücü geri kazanmanın potansiyel bir yoluna sahibiz. Doğru teknolojiyle bu insanların düşüncelerinin herhangi bir dinleyici tarafından çözülebileceğini ve anlaşılabileceğini gösterdik.” dedi.
Onlarca yıl süren araştırmalar, insanlar konuşurken – veya hatta hayal ettikleri zaman – beyninde masalsı aktivite biçimlerinin ortaya çıktığını göstermiştir. Belirgin (ancak tanınabilir) bir sinyal paterni, birisinin konuşmasını dinlediğimizde veya dinlemeyi hayal ettiğimizde ortaya çıkar. Bu kalıpları kaydetmeye ve deşifre etmeye çalışan uzmanlar, düşüncelerin beynin içinde saklı kalmaya ihtiyaç duymadıkları bir geleceği görüyorlar – bunun yerine istedikleri sözlü konuşmaya çevrilebiliyorlardı.
Ancak bu başarıya ulaşmak zor oldu. Mesgarani ve diğerleri tarafından beyin sinyallerini çözmek için yapılan erken çabalar, ses frekanslarının görsel temsilleri olan spektrogramları analiz eden basit bilgisayar modellerine odaklandı.
Ancak bu yaklaşım anlaşılır konuşmaya benzeyen bir şey üretemediğinden, Dr. Mesgarani’nin takımı, konuşan kişilerin kayıtları üzerine eğitildikten sonra konuşmayı sentezleyebilen bir bilgisayar algoritması olan bir Vocoder’a döndü.
Columbia Fu Vakfı Mühendislik ve Uygulamalı Bilimler Fakültesi’nde elektrik mühendisliği doçenti olan Dr. Mesgarani, “Bu, Amazon Echo ve Apple Siri tarafından sorularımıza sözel cevaplar vermek için kullanılan teknolojinin aynısıdır.” Dedi.
Health Physician Partners Neuroscience Enstitüsü’nde bir beyin cerrahı ola Vocoder’a beyin aktivitesini yorumlamayı öğretmek için Dr. Mesgarani, Northwell n ve bugünkü makalenin yazarlarından biri olan Dr. Mehta, “bazıları düzenli ameliyatlar geçirmesi gereken epilepsi hastalarını tedavi eder.” ifadelerini kullandı.
Dr. Mestarani, “Dr. Mehta ile birlikte çalışarak, beyin ameliyatı geçiren epilepsi hastalarından, farklı insanlar tarafından konuşulan cümleleri dinlerken, beyin aktivitesi örneklerini ölçtüklerini belirterek “Bu sinir kalıpları ses kodlayıcıyı eğitti.” ifadelerini kullandı.
araştırmacılar aynı hastalardan, 0’dan 9’a kadar olan basamakları okuyan konuşmacıları dinlerken, daha sonra ses kodlayıcıdan geçirilebilecek beyin sinyallerini kaydetmelerini istediler. Vocoder tarafından bu sinyallere cevap olarak üretilen ses analiz edildi ve biyolojik beyindeki nöronların yapısını taklit eden bir tür yapay zeka türü olan sinir ağları tarafından temizlendi. Sonuç, bir dizi numarayı okuyan robotik bir ses oldu. Kaydın doğruluğunu test etmek için, Dr. Mesgarani ve ekibi bireylere kaydı dinlemek ve duyduklarını rapor etmek için görev verdi.
Mesgarani, “İnsanların, zamanın% 75’indeki sesleri anlayabildiğini ve tekrarlayabildiğini gördük, ki bu, önceki girişimlerin çok üstünde ve ötesinde” dedi. Anlaşılabilirlikteki gelişme özellikle yeni kayıtları önceki, spektrogram tabanlı girişimlerle karşılaştırırken belirgindi. “Hassas ses kodlayıcı ve güçlü sinir ağları, hastaların ilk başta şaşırtıcı bir hassasiyetle dinledikleri sesleri temsil ediyordu.”
Mesgarani ve ekibi daha sonra daha karmaşık kelimeleri ve cümleleri test etmeyi planlıyor ve aynı konuşmayı bir kişi konuştuğunda ya da konuşmayı düşündüğünde yaydığı beyin sinyalleri üzerinde yapmak istiyorlar. Sonuçta, sistemlerinin, kullanıcının düşüncelerini doğrudan kelimelere çeviren bazı epilepsi hastaları tarafından giyilenlere benzer bir implantın parçası olabileceğini umuyorlar.
Dr. Mesgarani, “Bu senaryoda, kullanıcı ‘bir bardak suya ihtiyacım olduğunu’ düşünüyorsa, sistemimiz bu düşüncenin ürettiği beyin sinyallerini alabilir ve bunları sentezlenmiş, sözlü konuşmaya dönüştürebilir” dedi. “Bu bir oyun değiştirici olurdu. Konuşma kabiliyetini kaybetmiş olan herkese, yaralanma veya hastalık yoluyla, etraflarındaki dünyayla bağlantı kurma şansını arttırdı.”
Story Source:
Materials provided by The Zuckerman Institute at Columbia University. Note: Content may be edited for style and length.
Journal Reference:
Hassan Akbari, Bahar Khalighinejad, Jose L. Herrero, Ashesh D. Mehta, Nima Mesgarani. Towards reconstructing intelligible speech from the human auditory cortex. Scientific Reports, 2019; 9 (1) DOI: 10.1038/s41598-018-37359-z