DeepMind A.I. 로봇과 인간의 목소리를 연결합니다.

$config[ads_kvadrat] not found

Google DeepMind AI Does Parkour - Producing flexible behaviours in simulated environments

Google DeepMind AI Does Parkour - Producing flexible behaviours in simulated environments
Anonim

인공 지능은 로봇 소리를 훨씬 현실적으로 들리게했습니다.

DeepMind는 이전에 A.I.의 힘을 보여주었습니다. 3 월에 고 (Go)에서 인간 선수를 이기고 7 월에 전력 법안을 반으로 줄이면 이제 음성 합성에 초점을 맞 춥니 다.

구글 모회사 알파의 일부인 에이미 (A.I) 연구 그룹은 오늘 아침에 웨이브 넷 (WaveNet)이라고하는 새로운 테크놀로지를 만들었으며, 음성, 음악 및 기타 사운드를 이전보다 정확하게 생성 할 수 있다고 밝혔다.

DeepMind는 많은 기존의 음성 합성 방법이 "짧은 음성 조각의 대용량 데이터베이스가 단일 스피커에서 녹음 된 다음 다시 결합되어 완전한 발화를 형성합니다."에 의존한다고 설명합니다. 반면 WaveNet은 "오디오 신호의 원시 파형 보다 현실적인 목소리와 소리를 내기 위해.

즉, WaveNet은 완전한 음절이나 전체 단어를 사용하는 대신 인간이 말할 때 생성 된 개별 사운드로 작동합니다. 이러한 사운드는 DeepMind가 "복잡하고 현실감 넘치는 오디오를 생성하는 데 필수적"이라고 기계가 인식 한 "계산 비싼"프로세스를 통해 실행됩니다.

그 추가 작업의 결과는 미국 영어 및 중국어 만다린의 합성 음성에 비해 50 % 향상된 것입니다. 다음은이 음성 합성 방법이 어떻게 부족한지를 보여주기 위해 DeepMind에서 사용하는 오늘날 일반적으로 사용되는 파라 메트릭 텍스트 음성 변환을 사용하여 생성 된 음성의 예입니다.

다음은 WaveNet에서 생성 된 문장의 예입니다.

기업이 자연어 인터페이스에 대한 작업을 계속하면서보다 현실감 넘치는 응답을 제공하는 것이 점차 중요해질 것입니다. WaveNet은 이러한 문제를 해결할 수 있습니다.

$config[ads_kvadrat] not found