<Multi-modal> FLAVA: A Foundational Language And Vision Alignment Model

예전(2021.12)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [Facebook AI Research (FAIR)] 여러 modality를 '한 번에' 처리할 수 있는 foundation 모델 FLAVA. vision, language, cross/multi-modal vision-langue task 전부 처리. 배경 그렇게 오래 전도 아니지만 이때만 하더라도 multi-modal 모델들의 성능은 지금과 사뭇 달랐던 것 같습니다. 본 논문에서 지적하고 있는 기존 모델들의 한계는 결국 모델의 능력이 '특정 modality에 국한'되어 있다는 것입니다. 여러 modality를 동시에 잘 이해하고 ..

원문링크 : <Multi-modal> FLAVA: A Foundational Language And Vision Alignment Model

등록된 다른 글

<Multi-modal> FLAVA: A Foundational Language And Vision Alignment Model

등록된 다른 글

Union-Find(2) : Quick Find

[프로그래머스] 개인정보 수집 유효기간(Python)

프로그래머스 인공지능 데브코스 4기 최종 합격 후기!!(비전공자)

<Tool> ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

<Retrieval> [DSI] Transformer Memory as a Differentiable Search Index (2022.02)

<PEFT> LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition

[BOJ] 6064 : 카잉 달력 [정수론](Python)

Optimization Algorithms(3) - Gradient Descent

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티