[논문 리뷰] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

ASR이란? 음성을 텍스트로 변환하는 것을 말한다. 전체 과정을 쉽게 설명하면, Handcraft Process와 Acustic Model 두 가지로 나뉜다. 1. Handcraft Process 음성 데이터에서 feature 추출 예시) Spectrogram 2. Acoustic Model 추출된 피쳐를 이용하는 모델 Deep Architecture : CNN, Transformer Encoder ASR모델은 지금까지 CPC : CNN+RNN -> Wav2vec : CNN + Causal CNN(RNN경량화용) -> VQ-Wav2vec : BERT+quantization 모듈 추가 -> Wave2vec2.0 -> Pushing ASR -> mSLAM, Maestro(google) -> whisper(openai)로 발전하고 있다. 오늘 리뷰할 Wav2vec2.0 모델은 Semi-Supervised 학습으로 성능을 향상시켰다. -> 대량의 Unlabled(음성) 데이터를 활용하여 P...

원문링크 : [논문 리뷰] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

등록된 다른 글

[논문 리뷰] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

등록된 다른 글

정올 2810 : 타일교체 JAVA

python apt-get update 명령어 실행

[2020 마이블로그 리포트] 한 눈에 보는 올해 내 블로그 데이터!

BOJ 1022 소용돌이 예쁘게 출력하기

boj 10451 순열사이클

c++ boost 라이브러리

BOJ 1850 최대공약수

boj 2250 트리의 높이와 너비

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티