<LLM> [MoE] Mixtral of Experts (2024.01)

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [Mistral.AI] - Mistral 7B 아키텍쳐에서 각 layer를 8개의 feedforward blocks (experts)로 구성한 Mixtral 8x7B 모델 (32K) - 각 layer에서 router network가 current state를 처리하기 위한 두 개의 experts를 선정하고 두 결과물을 취합 - 각 토큰은 47B 파라미터에 대해 접근할 수 있지만 추론 단계에 활용되는 것은 13B의 activa parameters 뿐임 - instruction을 따르도록 tuning된 Mixtral 8x7B - Instruct 모델..

원문링크 : <LLM> [MoE] Mixtral of Experts (2024.01)

등록된 다른 글

<LLM> [MoE] Mixtral of Experts (2024.01)

등록된 다른 글

Quiz & Programming Assignment

3.4. LU 분해의 순서 (1) 보통의 경우 / 3.5. 행렬식을 LU 분해로 구하다 / 3.6. 일차방정식을 LU 분해로 풀다

<LLM, Code> [OSS-Instruct] Magicoder: Source Code Is All You Need (2023.12)

<Retrieval, Knowledge Injection> Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs (2023.12)

<Tool> ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

[BOJ] 9019 : DSLR [DFS/BFS](Python)

<Retrieval> [DPR] Dense Passage Retrieval for Open-Domain Question Answering (2020.04)

<CoT, Agent> ReAct: Synergizing Reasoning and Acting in Language Models (2022.10 → 2023.03)

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티