<Data Type> [BitNet b1.58] The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits (2024.02)


<Data Type> [BitNet b1.58] The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits (2024.02)

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [Microsoft Research] - LLM의 각 파라미터가 {-1, 0, 1}, 셋 중 하나의 값을 갖도록 하는 BitNet b1.58을 도입 - 동일한 사이즈의 모델 및 학습 토큰양을 보유한 트랜스포머 기반의 LLM의 full-precision (FP16 or BF16)에 준하는 성능 - LLM에 학습에 있어서 새로운 scaling law를 만들어 냄 (Pareto Improvement) 출처 : https://arxiv.org/abs/2402.17764 The Era of 1-bit LLMs: All Large Language Mode..


원문링크 : <Data Type> [BitNet b1.58] The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits (2024.02)