character-level language model


character-level language model

'언어 모델'은 언어의 특성을 잘 학습하여 어떠한 입력이 들어왔을 때 그에 맞는 적절한 값을 출력할 수 있는 모델입니다. 우리가 흔히 사용하는 chat gpt도 모두 언어 모델입니다. 이번 글에서는 문자 단위의 언어 모델를 다룰것입니다. 가령 hello라는 단어가 있을 때, h 다음에 e가 오고 그 다음에는 l이 오는 것을 예측하는 것이죠. 문자 단위 모델 문자 단위로 작동하는 언어 모델을 만들기 위해 저번 글에서 배웠던 RNN을 사용해볼 것입니다. RNN은 저번 글 처럼 매 time step에서의 y 결과값을 모두 사용할 수도 있고, 가장 마지막 부분만을 사용할 수도 있습니다. 또한 입력이 첫번째 step에만 있을수도 있고, 모든 step에 입력이 있을수도 있죠. 이걸 쉽게 다대다, 다대일 등으로 부릅니다. 문자 레벨 언어모델은 다대다의 경우입니다. train 단계에서는 모든 time step마다 결과값으로 다음 글자를 출력하도록 학습시킵니다. 이후 각각의 결과값들을 소프트맥스 연...


#character #자연어 #torch #pytorch #processing #natural #LM #level #language #chatGPT #처리

원문링크 : character-level language model