kkes0220의 등록된 링크

 kkes0220로 등록된 네이버 블로그 포스트 수는 16건입니다.

RNN-Transducer for ASR [내부링크]

RNN-T for ASR 은 크게 Audio Encoder, Test Predictor 및 Joiner의 세 가지로 구성되어 있다....

[INTERSPEECH 2018] Speech Emotion Recognition using GAN [내부링크]

On Enhancing Speech Emotion Recognition using Generative Adversarial Networks, INTERS...

ICASSP 2019 Hierarchical Residual-Pyramidal Model for Large Context Based Media Presence Detection [내부링크]

“We develop[ed] a way to better characterize media audio by examining longer-duration audio stream...

ICASSP 2019 논문들 (Keyword Spotting) [내부링크]

SLP-P9: Keyword Spotting and Embedded ASR SystemsSession Chair: Sabato Marco Sinisca...

[음성처리개발] 고려해온 것들 [내부링크]

1. 음성처리 관련 이론 지식 - 음향모델, 언어모델, 디코더, 단일채널 노이즈 제거, 멀티채널 노이즈 제거,...

Decoding-graph creation recipe (test time) [내부링크]

여기에서는 정상적인 그래프 생성 접근 방식과 관련된 특정 data-preparation stages를 단계별로 설명합니...

음성인식기(ASR) 구현하기 위한 모듈 정리 [내부링크]

Smart speaker 혹은 음성인식 시스템을 만들기 위해서 필요한 알고리즘을 정리해보자.알고리즘 중심으로...

Microphones 사용 시 확인 사항 [내부링크]

General challenges in incorporating microphones제품에 들어가는 엔지니어링 마이크는 일반적으로 마...

[ICASSP 2019] End-to-End Streaming Keyword Spotting [내부링크]

기본적으로 SVDF Layer의 계산은 Time step t마다, DNN의 각 node 마다, rank-1 SVDF Layer...

Kaldi의 디코딩 그래프 구성 (Decoding graph construction in Kaldi) [내부링크]

먼저, 유한 상태 변환기와 음성 인식에 사용되는 방법을 소개 할 수는 없습니다.이에 대한 내용은 "...

RNN-T Beam search decoding [내부링크]

몇 년 전, Alex Graves가 길이가 다른 input/output sequences 를 잘 mapping 할 수 있는 RNN-T 모델...

Improved RNN-T Beam search decoding (Facebook) [내부링크]

앞서 메모한 #RNN-T Beam search [1] 글에 이어, 최근 facebook AI 팀에서 ICASSP 2020에 제...

[진양곤 회장님] 코스닥 1위 넘보는 이노베이터 [내부링크]

Q : 기업경영 과정에 철학을 적용한다면.A :“세상엔 크게 두 개의 안경이 있다. 현미경과 망원경이다....