Fast Audioset Download


Fast Audioset Download

repo : https://github.com/dlrudco/Fast-Audioset-Download 기존에 존재하는 구글의 오디오셋(Audioset) 다운로드 깃허브 레포들이나 vanilla youtube-dl 사용이 느리고 CPU util이 별로라서 직접 만든 레포지토리. ffmpeg에서 지원하는 유튜브 부분 추출 및 다운로드 기능과 python multiprocessing을 합쳐서 32 스레드 제온 실버 CPU 기준 48시간 안에 총 200만개(현재 블락 및 누락 때문에 총 170~180만개 살아있는듯) 다운로드 확인. eval이나 balanced_train은 2만개 수준인데 20분 정도 걸린 것 같다.


원문링크 : Fast Audioset Download