Microsoft, Azure AI Speech에서 향상된 표현력을 갖춘 HD Voices 출시

Microsoft, Azure AI Speech에서 향상된 표현력을 갖춘 HD Voices 출시

작년에 Microsoft는 챗봇, 음성 비서, 게임 등과 같은 대화형 애플리케이션을 위해 설계된 매우 사실적인 AI 음성을 공개했습니다 . Azure Speech SDK 또는 REST API를 사용하면 개발자는 이러한 신경망 텍스트 음성 변환(TTS) 음성을 애플리케이션에 통합할 수 있습니다. 최근 몇 달 동안 Microsoft는 제공 범위를 크게 확장하여 현재 140개 이상의 언어와 로캘에 걸쳐 500개 이상의 신경망 음성을 자랑합니다.

오늘 Microsoft는 일부 음성에 대한 신경 텍스트-음성 서비스의 향상된 HD 버전을 출시했습니다. 이 새로운 HD 음성은 입력 텍스트의 맥락을 고려하는 감정 감지를 통해 전반적인 표현력을 향상시킵니다. Microsoft는 이 최신 HD 음성이 자동 회귀 변환기 언어 모델을 활용하여 선택한 플랫폼의 음성 음색과 일치하는 음성을 생성한다고 주장합니다. 새로운 HD 음성의 장점은 다음과 같습니다.

  • 사람과 같은 음성 생성 : 업그레이드된 모델은 입력 텍스트를 정확하게 해석하고 근본적인 감정을 이해하여 전달되는 감정에 맞게 실시간으로 말투를 조정할 수 있습니다.
  • 대화형 : 이 새로운 모델은 자발적인 멈춤과 강조를 생성합니다. Microsoft는 멈춤과 필러 단어와 같은 일반적인 음소를 복제할 수 있다고 강조합니다.
  • 음성학적 변화 : HD 음성 시스템은 각 출력에 미묘한 차이를 도입하여 모든 문장이 이전에 생성된 음성과 다르게 들리도록 보장하여 현실감을 높입니다.

Microsoft의 Cognitive Services Speech 프로그램 관리자인 Garfield He는 HD 음성 출시에 대해 다음과 같이 언급했습니다.

“음향 및 언어적 특징을 활용하여 풍부하고 자연스러운 변형이 특징인 음성을 생성하는 혁신적인 기술을 통해 텍스트 내의 감정적 단서를 능숙하게 감지하고 음성의 톤과 스타일을 자율적으로 조정합니다. 이 업그레이드는 향상된 음조, 리듬 및 감정이 특징인 보다 인간적인 음성 패턴을 제공합니다.”

이 HD 음성 모델로 생성된 샘플 오디오 콘텐츠는 아래 비디오에서 확인할 수 있습니다.

새로운 HD 음성은 현재 동부 미국, 서부 유럽, 동남아시아의 세 지역에서 개발자를 대상으로 미리보기 중입니다. 이러한 HD 음성을 사용하는 데 드는 비용은 100만 자당 30달러로 설정되어 있습니다.

출처: Microsoft

원천

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다