[NLP] 한국어-중국어 병렬 코퍼스 Korean-Chinese parallel corpora

안녕하세요. 한국어-중국어 병렬 코퍼스 Korean-Chinese parallel corpora 이전에 제 논문에서 사용된 한국어-중국어 병렬 코퍼스를 공개합니다.1. News Korean-Chinese parallel corpus첫번째 코퍼스는 Dong-A news에서 크롤링을 통해 수집한 데이터입니다.대략 25만 문장 정도로 구성되어있습니다.크롤링 방법 및 data preprocessing은 다음과 같습니다.1. Dong-A news 홈페이지로부터 한국어 기사, 중국어 기사 추출 2. 한국어: 한국어 문장 분리기 (pip install kss) 사용 / 중국어: re.split('(。|！|\!|\.|？|\?)',paragraph) 3. 각 기사의 분리된 한국어 문장과 분리된 중국어 문장의 갯수가 다르면 그 기사 제외4. 문..........

원문링크 : [NLP] 한국어-중국어 병렬 코퍼스 Korean-Chinese parallel corpora

등록된 다른 글

[네이버] 파파고 머신러닝 엔지니어 체험형 인턴 채용(09.09 - 채용전)

[NLP] 한국어-중국어 병렬 코퍼스 Korean-Chinese parallel corpora

등록된 다른 글

[네이버] 파파고 머신러닝 엔지니어 체험형 인턴 채용(09.09 - 채용전)

KT 대졸인턴(채용전환형) 채용 (09.07~09.20)

[세계 대학 순위.part2] 한국대학과 중국대학 (QS: Quacquarelli Symonds)]

중국 이공계 대학원 유학 안내 소프트웨어 프로그램 2차 배포 안내(베타버전)

[Pytorch] torch.Tensor 와 torch.tensor 의 차이

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티