<LK Lab, Multi-modal> [ZeroTA] Zeor-Shot Dense Video Captioning by Jointly Optimizing Text and Moment (2023.01)


<LK Lab, Multi-modal> [ZeroTA] Zeor-Shot Dense Video Captioning by Jointly Optimizing Text and Moment (2023.01)

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. (Language & Knowledge Lab의 Retreival 관련) 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ [KAIST] - dense video captioning을 zeor-shot으로 처리하는 novel mothod, ZeroTA - soft moment mask를 도입하고, 이를 언어 모델의 prefix parameters와 jointly optimizing - soft momnet mask에 대해 pairwise temporal IoU loss를 도입 - supvervised method에 비해 OOD 시나리오에 대해 강건함 배경 기존의 Dense video captioning은 비디오에 나타난 temporal ..


원문링크 : <LK Lab, Multi-modal> [ZeroTA] Zeor-Shot Dense Video Captioning by Jointly Optimizing Text and Moment (2023.01)