<Multi-modal> BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success BLIP-2, generic & efficient 사전 학습 Vision & Language Model. frozen image encoder & frozen LLM으로 Querying Transformer를 2-step으로 학습. 배경 이전의 vision-language model을 특정 태스크에 맞게끔 end-to-end 학습하는 방식은 지나치게 많은 자원을 필요로 한다는 문제점이 있었습니다. 본 논문은 자원상의 한계를 극복하면서도 준수한 vision-language model을 만들기 위한 사전 학습 전략을 제시하고 있습니다. ..

원문링크 : <Multi-modal> BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

등록된 다른 글

<Multi-modal> BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

등록된 다른 글

[BOJ] 1916 : 최소비용 구하기 [그래프이론](Python)

[Kaggle] OSError, Connection error? 인터넷을 연결하는 방법..(+ GPU 설정)

Building AI in Your Company(1)

[대학원생 필수!] 논문 관리 프로그램 Zotero 추천 (WebDAV 연결, iPad annotation 싱크 관리)

Variances and covariances

<Retrieval> [RAG] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (2021.04)

[프로그래머스] 크기가 작은 부분문자열 (Python)

KT 2023년도 봄학기 AI 석사과정 신입생 모집 서류 합격 및 코딩 테스트/인적성 검사 후기(비전공자)

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티