Papers
-
Fast Speech 2 ReviewPapers 2022. 7. 26. 14:18
Key Point ground truth target에 대해서 모델을 직접 학습시킨다. (텍스트로부터 음성을 직접 생성하고 병렬적으로 처리함) pitch, energy, duration 같은 다양한 정보들을 도입하고 조건부로 입력 받아 음성을 생성한다. (여러 모듈들을 사용해서 위의 information을 추출하고 조건부로 사용) Fastspeech 1 모델보다 학습속도와 추론 속도가 빠르다. 음성 품질을 개선했다. (Fastspeech 2s 모델에서는 멜스펙토그램을 사용하지 않는다.) 1. Motivation 왜 Fastspeech 2 모델이 나왔을까요? TTS는 one-to-many mapping 문제입니다. 왜냐하면 하나의 단어에 대해서 매우 많은 경우의 수에 대한 음성이 대응되기 때문입니다. '안..