[NLP] 한국어-중국어 병렬 코퍼스 Korean-Chinese parallel corpora


[NLP] 한국어-중국어 병렬 코퍼스 Korean-Chinese parallel corpora

안녕하세요. 한국어-중국어 병렬 코퍼스 Korean-Chinese parallel corpora 이전에 제 논문에서 사용된 한국어-중국어 병렬 코퍼스를 공개합니다.1. News Korean-Chinese parallel corpus첫번째 코퍼스는 Dong-A news에서 크롤링을 통해 수집한 데이터입니다.대략 25만 문장 정도로 구성되어있습니다.크롤링 방법 및 data preprocessing은 다음과 같습니다.1. Dong-A news 홈페이지로부터 한국어 기사, 중국어 기사 추출 2. 한국어: 한국어 문장 분리기 (pip install kss) 사용 / 중국어: re.split('(。|!|\!|\.|?|\?)',paragraph) 3. 각 기사의 분리된 한국어 문장과 분리된 중국어 문장의 갯수가 다르면 그 기사 제외4. 문..........



원문링크 : [NLP] 한국어-중국어 병렬 코퍼스 Korean-Chinese parallel corpora