Voice Cloning

두 갈래의 흐름이 한 점에서 만나는 그림 최근 음성 AI 흐름을 따라가다 보니, 지난 몇 년의 발전이 서로 다른 두 갈래로 갈라졌다가 다시 한 점에서 합쳐진다는 인상을 받았습니다. 한쪽은 음성을 이해하기입니다. 라벨 하나 없이 원시 파형만 잔뜩 넣어두고, 그 안에 숨어 있는 구조를 모델이 스스로 찾아내게 만드는 표현 학습(self-supervised learning)이죠. 다른 한쪽은 음성을 만들기입니다. 텍스트를 받아 사람 같은 목소리를 합성하는 TTS(text-to-speech)의 진화입니다. 흥미로운 점은 이 둘이 끝에서 만난다는 것입니다. 표현 학습이 만들어낸 “음성을 이산 토큰으로 자르는 기술"과, 합성 쪽이 키워온 “임의 화자의 목소리를 모사하는 능력"이 결합해, 학습 때 본 적 없는 사람의 5–10초짜리 음성만으로 그 목소리로 아무 문장이나 읽어주는 zero-shot voice cloning이 가능해졌습니다. ...