뇌 - 컴퓨터 인터페이스는 생각을 말로 번역 할 수있다.

$config[ads_kvadrat] not found

아폴론 징글벨락

아폴론 징글벨락

차례:

Anonim

화요일에 발표 된 연구에 따르면, 신경 공학자들은 인공 지능과 음성 신시사이저를 사용하여 간단한 생각을 인식 가능한 언어로 번역 할 수있는 새로운 시스템을 만들었습니다.

뉴욕에 본사를 둔 연구원 팀은 뇌 활동만을 사용하여 단어를 재구성 할 수있었습니다. 혁신은 뇌의 제어 기술, 예를 들어 생각을 문자 메시지로 변환 할 수있는 스마트 폰을 개발할 수있는 길을 열었습니다.

컬럼비아 대학의 부교수 인 Nima Mesgarani 박사는 연구를 주도하고 역 뇌졸중에서 회복되거나 근 위축성 측삭 경화증 (ALS)으로 살아가는 사람들에게 연설을 복원 할 수있는 큰 잠재력이 있음을 알게되었습니다. 더 나아가이 유형의 기술은 뇌 연결 스마트 폰의 문을 열어 사용자가 마음을 사용하여 텍스트를 볼 수있게 해줄 수는 있지만 아직 멀었다. 그의 작품은 저널에 실 렸습니다. 과학적 보고서.

"이 작업의 동기 중 하나는 사용자와 스마트 폰 간의 가능한 인터페이스와 같은 대체 인간 - 컴퓨터 상호 작용 방법입니다."라고 그는 말합니다. 그러나 아직까지는 현실과는 거리가 멀고 비 침습적 인 방법으로 추출 할 수있는 정보는 음성 두뇌 - 컴퓨터 인터페이스 응용 프로그램에 충분하지 않습니다."

두뇌 - 컴퓨터 인터페이스에 의해 생성 된 연설을 들어보십시오.

새로운 기술을 개발하기 위해 Mesgarani와 그의 동료 인 Northwell Health Physics Partners Neuroscience Institute의 Ashesh Dinesh Mehta 박사는 연구를 위해 간질 환자의 뇌 활동을 검사함으로써 시작되었습니다. 이 환자들은 이미 발작을 모니터하기 위해 두뇌에 전극 임플란트를 가지고 있었는데, Mesgarani와 Mehta는 연구 자료를 수집하는 데 사용할 수있었습니다.

듀오는 기꺼이 참가자들에게 스피커를 듣기 위해 0에서 9 사이의 숫자를 낭송 한 다음, 그 상호 작용에서 나온 두뇌 신호를 기록했습니다. 다음으로, 신경 네트워크 (인간 뇌의 신경 구조를 모방하는 프로그램)를 훈련시켜 신호의 패턴을 인식하고 보코더 (vocoder)라고하는 음성 합성기를 사용하여 로봇 소리 나는 단어로 변환합니다.

그 결과 마이크로 소프트 샘 (Sam)이 0에서 9로 세는 소리처럼 짧은 음성 클립이 나왔다. 인상적인 부분은 연설이 연구원이 테스트 한 다른 방법과 얼마나 비교되는지 분명합니다. 그래도 할 일이 많이 남아 있습니다.

"이 기술이 출시되기까지는 10 년이 걸릴 것입니다."라고 메스 가르 카니 (Mesgarani)는 말합니다. "우리는 장기간의 생체 적합성 이식 형 전극 및 / 또는 비 침습성 신경 기록 방법의 획기적인 기술에서보다 진보해야한다. 우리는 또한 두뇌가 어떻게 표현되는지를 더 잘 이해할 필요가 있으므로 디코딩 방법을 개선 할 수 있습니다."

예를 들어,이 연구의 일부인 환자는 모두 뇌막 수술 모니터를 삽입하기 위해 뇌 수술을 받았습니다. 이것은 개방적 뇌 수술을 필요로하는 극도로 침습적 인 과정이며, 대부분의 사람들은 자신의 언어 능력을 회복 할 가능성이 있더라도 기꺼이 받아 들여지지 않을 수도 있습니다.

당분간,이 연구는 뇌 신호를 음성으로 디코딩하는 방법을 소개했습니다. 우리가 수술없이 뇌 활동을 정확하게 감지하는 방법을 알아 내면 우리는 언어 치료에 혁명을 일으킬뿐만 아니라 잠재적으로 뇌 연결 스마트 폰을 탄생시키기위한 한 걸음 더 나아갈 것입니다.

뇌 - 컴퓨터 인터페이스 연구는 지난 몇 년 동안 새로운 관심을 받아 왔습니다. 2017 년 4 월, 페이스 북은 연례 F8 회의에서 BCI에 관한 작업을 진행하고 있다고 발표했습니다. 그리고 Elon Musk은 2018 년 11 월에 자신의 BCI 신생 업체 인 Neuralink가 채용했다고 발표했습니다.

추상

청각 자극 재건은 유발 된 신경 활동의 집단으로부터 음향 자극의 최선의 근사를 찾는 기술입니다. 인간의 청각 피질로부터의 연설을 재구성하면 뇌와의 직접적인 의사 소통을위한 음성 인공 신경 자극의 가능성이 생기고 명백한 조건과 은밀한 조건 모두에서 가능한 것으로 나타났습니다. 그러나, 재구성 된 음성의 낮은 품질은 뇌 - 컴퓨터 인터페이스 (BCI) 애플리케이션에 대해이 방법의 유용성을 심각하게 제한했다. 음성 neuroprosthesis의 최첨단 기술을 발전시키기 위해 우리는 최근의 진보 된 진보와 음성 합성 기술의 최신 혁신을 결합하여 인간의 청각 피질에서 닫혀진 지능형 음성을 재구성합니다. 우리는 선형 및 비선형 (깊은 신경 회로망) 회귀 방법에 대한 재구성 정확도의 의존성과 청각 스펙트로 그램 및 음성 합성 매개 변수를 포함한 재구성 대상으로 사용되는 음향 표현을 조사했습니다. 또한, 낮은 및 높은 신경 주파수 범위의 재구성 정확도를 비교했습니다. 우리의 결과는 음성 합성기의 매개 변수를 모든 신경 주파수에서 직접 추정하는 심층 신경망 모델이 선형 인식을 사용하여 기본 회귀 분석법보다 65 %의 명료도를 향상 시켜서 숫자 인식 작업에서 가장 주관적이고 객관적인 점수를 얻음을 보여줍니다. 청각 스펙트로 그램을 재구성하십시오. 이러한 결과는 마비 환자의 의사 소통을 복원 할 수있을뿐만 아니라 인간 - 컴퓨터 상호 작용 기술을 변형시킬 가능성이있는 차세대 음성 BCI 시스템 설계를위한 심층 학습 및 음성 합성 알고리즘의 효과를 입증합니다.

관련 비디오: 뇌파 감지 로봇은 인체의 연장선 역할을 할 수 있습니다.

$config[ads_kvadrat] not found