[논문 리뷰] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations


[논문 리뷰] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

ASR이란? 음성을 텍스트로 변환하는 것을 말한다. 전체 과정을 쉽게 설명하면, Handcraft Process와 Acustic Model 두 가지로 나뉜다. 1. Handcraft Process 음성 데이터에서 feature 추출 예시) Spectrogram 2. Acoustic Model 추출된 피쳐를 이용하는 모델 Deep Architecture : CNN, Transformer Encoder ASR모델은 지금까지 CPC : CNN+RNN -> Wav2vec : CNN + Causal CNN(RNN경량화용) -> VQ-Wav2vec : BERT+quantization 모듈 추가 -> Wave2vec2.0 -> Pushing ASR -> mSLAM, Maestro(google) -> whisper(openai)로 발전하고 있다. 오늘 리뷰할 Wav2vec2.0 모델은 Semi-Supervised 학습으로 성능을 향상시켰다. -> 대량의 Unlabled(음성) 데이터를 활용하여 P...



원문링크 : [논문 리뷰] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations