[Paper Review] BERT - Pre-training of Deep Bidirectional Transformers for Language Understanding


[Paper Review] BERT - Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT.. 세상에 나온지도 벌써 몇 년이 지났지만 그 입지는 상당한 것 같습니다. 대부분의 NLP 관련 task에 이 녀석이 자리를 잡고 있으니 말입니다. 물론 지금은 트렌드가 많이 바뀌어서 Only Decoder 모델이 주름을 잡고 있지만, 그런 모델들은 사이즈가 너무 커서 fine-tuning 하기엔 무리가 있죠. 저처럼 딥러닝 햇병아리가 코랩 무료 버전의 환경에서 돌려볼 수 있는 모델은 아마 BERT류가 제일 퍼포먼스가 좋지 않나.. 결국 자그마한 대회에 하나 참여해서 공부를 하던 도중, 수없이 많은 BERT의 자손들을 만나게 되면서 BERT 이놈이 뭔지 다시 알아봐야겠다고 생각했습니다. 뭐든지 '그래 이거 끝나고 한꺼번에 정리해야지~'라고 한 것들은 항상 잊혀지기에 미루지 않고 '모델이 학습..


원문링크 : [Paper Review] BERT - Pre-training of Deep Bidirectional Transformers for Language Understanding