FERRET: REFER AND GROUND ANYTHING ANYWHERE AT ANY GRANULARITY. Presentations.

안녕하세요? 오랜만에 발표자료입니다. 요번 주 너무 바빠서 굉장히 급하게 만들었지만 자료 공유는 해야하니 올립니다 :) 이번에 발표한 논문은 최근 관심을 가지는 multimodal LLM 모델 중 하나로써 apple에 의해 연구되었고 ICLR spotlight으로 선정된 논문입니다. 뛰어난 성능을 가지고 있으며, 다양한 vision 입력을 줄 수 있는 첫 워크로 인정받았습니다. Ferret 2. Vision-Langugae Model이란? Ferret이 속하는 mLLM은 Vision-Language Models (VLM)이라고도 합니다. 이러한 모델이란 무엇인지 그리고 뭘 하려고 만들어진 것인지에 대해서 소개합니다. 3. Referring, grounding이란? 4. single form -> Free-form 으로 진화하는 mLLM 모델 5. Ferret의 다양한 입력을 받는 format 6. model architecture 7. mLLM의 가장 기본이 되어지는 Intructi...