ETRI Visual Intelligence Lab(시각지능연구실)

효율적 사전학습이 가능한 크로스모달 대형 모델 사전학습 기술개발

연구기간: 2022.08 ~ 2025.12

기술문의: 이용주 시각지능연구실장 (yongju@etri.re.kr), 임수종 박사(isj@etri.re.kr)

연구내용

단계별 연구내용

(1단계 연구목표) ‘닫힌 지식’을 이용하는 기존 언어모델의 한계를 극복하기 위해 ‘열린 지식’을 외부 메모리 형태(외부 지식을 구조화한 정보 형태)로 포함하여, 한국어 이해 및 생성 태스크에 최첨단 언어지능 기술을 적용하기 쉽게 도와주는 한국어 언어모델 기술 설계/개발 및 한국어에 기반하여 이미지 및 비디오를 생성하는 크로스모달 학습 기술 설계/개발

(2단계 연구목표) 외부 메모리를 포함한 한국어 언어모델에 기반하여 크로스모달 사전학습 기술을 개발, 공개하고 이를 바탕으로 크로스모달 응용 태스크 기술을 개발, 보급하여 국내 인공지능 생태계 활성화에 기여

연구실적(논문/학술대회)

[International Conferences]

Youngwan Lee, Jeffrey Willette, Jonghee Kim, Sung Ju Hwang, "Visualizing the loss landscape of Self-supervised Vision Transformer", Conference on Neural Information Processing Systems(NeurIPS), 2023
Haotian Liu, Chunyuan Li, Qingyang Wu,Yong Jae Lee, "Visual Instruction Tuning", Conference on Neural Information Processing Systems(NeurIPS), 2023
Minki Kang, Seanie Lee, Jinheon Baek, Kenji Kawaguchi, Sung Ju Hwang, "Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Intensive Tasks", Conference on Neural Information Processing Systems(NeurIPS), 2023
Shanbao Qiao, Xuebing Liu, Seung-Hoon Na, "DiffusionRet: Diffusion-Enhanced Generative Retriever using Constrained Decoding", The 2023 Conference on Empirical Methods in Natural Language Processing(EMNLP), 2023
Jinheon Baek, Soyeong Jeong, Minki Kang, Jong C. Park, Sung Ju Hwang, "Knowledge-Augmented Language Model Verification", The 2023 Conference on Empirical Methods in Natural Language Processing(EMNLP), 2023
Jaewoong Lee, Sangwon Jang, Jaehyeong Jo, Jaehong Yoon, Yunji Kim, Jin-Hwa Kim, Jung-Woo Ha, Sung Ju Hwang, "Text-Conditioned Sampling Framework for Text-to-Image Generation with Masked Generative Models", International Conference on Computer Vision(ICCV), 2023
Jonghee Kim, Youngwan Lee, Jinyoung Moon, "T2V2T: Text-to-Video-to-Text Fusion for Text-to-Video Retrieval", The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee, "GLIGEN: Open-Set Grounded Text-to-Image Generation", The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
Utkarsh Ojha Yuheng Li Yong Jae Lee, "Towards Universal Fake Image Detectors that Generalize Across Generative Models", The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
Haotian Liu, Kilho Son, Jianwei Yang, Ce Liu, Jianfeng Gao, Yong Jae Lee, Chunyuan Li, "Learning Customized Visual Models with Retrieval-Augmented Knowledge", The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
Jonghee Kim, Youngwan Lee, Jinyoung Moon, "T2V2T: Text-to-Video-to-Text Fusion for Text-to-Video Retrieval", The IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshop(CVPRW), 2023.
Youngwan Lee, Jeffrey Willette, Jonghee Kim, Juho Lee, and Sung Ju Hwang, "Exploring the Role of Mean Teachers in Self-supervised Masked Auto-encoder," International Conference on Learning Representations (ICLR), 2023.
Heejun Lee, Minki Kang, Youngwan Lee,and Sung Ju Hwang, "Sparse Token Transformers with Attention Back Tracking," International Conference on Learning Representations (ICLR), 2023.
Chunyuan Li, Haotian Liu, Liunian Harold Li, Pengchuan Zhang, Jyoti Aneja, Jianwei Yang, Ping Jin, Houdong Hu, Zicheng Liu, Yong Jae Lee, Jianfeng Gao, “ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models”, NeurIPS 2022, [Link]

[Domestic Conferences and Articles]

성진, 한승헌, 신종훈, 임수종, 권오욱, "ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론", 한글 및 한국어 정보처리 학술대회 2023
신종훈, 허정, 류지희, 이기영, 서영애, 성진, 임수종, "한국어 중심의 토큰-프리 언어 이해-생성 모델 사전학습 연구", 한글 및 한국어 정보처리 학술대회 2023
임수종, 이숙의, "인공지능 언어모델 연구동향", 정보와 통신 2023
문지원, 박종일, 박종열, "학습 데이터셋 특성에 따른 비디오 생성 모델의 성능 차이 분석", 한국소프트웨어 종합학술대회 2023
이수현, 박종열, "단일 이미지로부터 3차원 객체 생성을 위한 방향 기반 2차원확산모델", 한국소프트웨어 종합학술대회 2023
김설아, 장승우, 남희정, 이영완, " Multi-modal LLM 을 활용한 다음 시즌 의류 예측 및 추천", 한국소프트웨어 종합학술대회 2023
윤병호, 박종열, "행동 구간 탐지를 위한 유사도 오차 학습", 정보과학회 학술대회 2023
최부광, 전상훈, 이용주, "VLM을 활용한 이미지 캡셔닝 연구 동향", 정보과학회 학술대회 2023
남기범, 조영주, 전상훈, 이용주, "프롬프트 형 기반 Text-to-Image 생성 모델 비교연구", 정보과학회 학술대회 2023
임수종, 이숙의, "인공지능 언어모델 연구동향", 정보와 통신
이용주, "초거대 AI 모델 연구동향", 주간기술동향 2078호 [Link]
허정, 배경만, 임수종, "KorBERT와 Popularity 정보에 기반한 한국어 개체연결", 한글 및 한국어 정보처리 학술대회 [Link]
신종훈, 이요한, 권오욱, 김영길, "불확실성 정량화 기반 OOD 검출을 통한 대화 의도 분류 모델의 성능 향상", 한글 및 한국어 정보처리 학술대회 [Link]

[Promotions]

ETRI Webzine, 24.04 [Link]
Workshop on Computer Vision in the Wild, ECCV 2022,[Link]
누구나 쓸 수 있는 ‘초거대 AI’, 정부서 개발한다, THE AI, [Link]

[Open SW]

Token-free 언어이해생성모델(KEByT5),[Link]
ELEVATER(Evaluation of Language-augmented Visual Task-level Transfer),[Link]

Acknowledgement

This work was supported by the Institute of Information & communications Technology Planning & Evaluation(IITP) grant funded by the Korea government(MSIT) (No. RS-2022-00187238, Development of Large Korean Language Model Technology for Efficient Pre-training)