효율적 사전학습이 가능한 크로스모달 대형 모델 사전학습 기술개발
연구기간: 2022.08 ~ 2025.12
기술문의: 이용주 시각지능연구실장 (yongju@etri.re.kr), 임수종 박사(isj@etri.re.kr)
연구내용
단계별 연구내용
- (1단계 연구목표) ‘닫힌 지식’을 이용하는 기존 언어모델의 한계를 극복하기 위해 ‘열린 지식’을 외부 메모리 형태(외부 지식을 구조화한 정보 형태)로 포함하여, 한국어 이해 및 생성 태스크에 최첨단 언어지능 기술을 적용하기 쉽게 도와주는 한국어 언어모델 기술 설계/개발 및 한국어에 기반하여 이미지 및 비디오를 생성하는 크로스모달 학습 기술 설계/개발
- (2단계 연구목표) 외부 메모리를 포함한 한국어 언어모델에 기반하여 크로스모달 사전학습 기술을 개발, 공개하고 이를 바탕으로 크로스모달 응용 태스크 기술을 개발, 보급하여 국내 인공지능 생태계 활성화에 기여
연구실적(논문/학술대회)
[International Conferences]
- Youngwan Lee, Jeffrey Willette, Jonghee Kim, Sung Ju Hwang, "Visualizing the loss landscape of Self-supervised Vision Transformer", Conference on Neural Information Processing Systems(NeurIPS), 2023
- Haotian Liu, Chunyuan Li, Qingyang Wu,Yong Jae Lee, "Visual Instruction Tuning", Conference on Neural Information Processing Systems(NeurIPS), 2023
- Minki Kang, Seanie Lee, Jinheon Baek, Kenji Kawaguchi, Sung Ju Hwang, "Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Intensive Tasks", Conference on Neural Information Processing Systems(NeurIPS), 2023
- Shanbao Qiao, Xuebing Liu, Seung-Hoon Na, "DiffusionRet: Diffusion-Enhanced Generative Retriever using Constrained Decoding", The 2023 Conference on Empirical Methods in Natural Language Processing(EMNLP), 2023
- Jinheon Baek, Soyeong Jeong, Minki Kang, Jong C. Park, Sung Ju Hwang, "Knowledge-Augmented Language Model Verification", The 2023 Conference on Empirical Methods in Natural Language Processing(EMNLP), 2023
- Jaewoong Lee, Sangwon Jang, Jaehyeong Jo, Jaehong Yoon, Yunji Kim, Jin-Hwa Kim, Jung-Woo Ha, Sung Ju Hwang, "Text-Conditioned Sampling Framework for Text-to-Image Generation with Masked Generative Models", International Conference on Computer Vision(ICCV), 2023
- Jonghee Kim, Youngwan Lee, Jinyoung Moon, "T2V2T: Text-to-Video-to-Text Fusion for Text-to-Video Retrieval", The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
- Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee, "GLIGEN: Open-Set Grounded Text-to-Image Generation", The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
- Utkarsh Ojha Yuheng Li Yong Jae Lee, "Towards Universal Fake Image Detectors that Generalize Across Generative Models", The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
- Haotian Liu, Kilho Son, Jianwei Yang, Ce Liu, Jianfeng Gao, Yong Jae Lee, Chunyuan Li, "Learning Customized Visual Models with Retrieval-Augmented Knowledge", The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
- Jonghee Kim, Youngwan Lee, Jinyoung Moon, "T2V2T: Text-to-Video-to-Text Fusion for Text-to-Video Retrieval", The IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshop(CVPRW), 2023.
- Youngwan Lee, Jeffrey Willette, Jonghee Kim, Juho Lee, and Sung Ju Hwang, "Exploring the Role of Mean Teachers in Self-supervised Masked Auto-encoder," International Conference on Learning Representations (ICLR), 2023.
- Heejun Lee, Minki Kang, Youngwan Lee,and Sung Ju Hwang, "Sparse Token Transformers with Attention Back Tracking," International Conference on Learning Representations (ICLR), 2023.
- Chunyuan Li, Haotian Liu, Liunian Harold Li, Pengchuan Zhang, Jyoti Aneja, Jianwei Yang, Ping Jin, Houdong Hu, Zicheng Liu, Yong Jae Lee, Jianfeng Gao, “ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models”, NeurIPS 2022, [Link]
[Domestic Conferences and Articles]
- 성진, 한승헌, 신종훈, 임수종, 권오욱, "ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론", 한글 및 한국어 정보처리 학술대회 2023
- 신종훈, 허정, 류지희, 이기영, 서영애, 성진, 임수종, "한국어 중심의 토큰-프리 언어 이해-생성 모델 사전학습 연구", 한글 및 한국어 정보처리 학술대회 2023
- 임수종, 이숙의, "인공지능 언어모델 연구동향", 정보와 통신 2023
- 문지원, 박종일, 박종열, "학습 데이터셋 특성에 따른 비디오 생성 모델의 성능 차이 분석", 한국소프트웨어 종합학술대회 2023
- 이수현, 박종열, "단일 이미지로부터 3차원 객체 생성을 위한 방향 기반 2차원확산모델", 한국소프트웨어 종합학술대회 2023
- 김설아, 장승우, 남희정, 이영완, " Multi-modal LLM 을 활용한 다음 시즌 의류 예측 및 추천", 한국소프트웨어 종합학술대회 2023
- 윤병호, 박종열, "행동 구간 탐지를 위한 유사도 오차 학습", 정보과학회 학술대회 2023
- 최부광, 전상훈, 이용주, "VLM을 활용한 이미지 캡셔닝 연구 동향", 정보과학회 학술대회 2023
- 남기범, 조영주, 전상훈, 이용주, "프롬프트 형 기반 Text-to-Image 생성 모델 비교연구", 정보과학회 학술대회 2023
- 임수종, 이숙의, "인공지능 언어모델 연구동향", 정보와 통신
- 이용주, "초거대 AI 모델 연구동향", 주간기술동향 2078호 [Link]
- 허정, 배경만, 임수종, "KorBERT와 Popularity 정보에 기반한 한국어 개체연결", 한글 및 한국어 정보처리 학술대회 [Link]
- 신종훈, 이요한, 권오욱, 김영길, "불확실성 정량화 기반 OOD 검출을 통한 대화 의도 분류 모델의 성능 향상", 한글 및 한국어 정보처리 학술대회 [Link]
[Promotions]
- ETRI Webzine, 24.04 [Link]
- Workshop on Computer Vision in the Wild, ECCV 2022,[Link]
- 누구나 쓸 수 있는 ‘초거대 AI’, 정부서 개발한다, THE AI, [Link]
[Open SW]
- Token-free 언어이해생성모델(KEByT5),[Link]
- ELEVATER(Evaluation of Language-augmented Visual Task-level Transfer),[Link]
Acknowledgement
This work was supported by the Institute of Information & communications Technology Planning & Evaluation(IITP)
grant funded by the Korea government(MSIT)
(No. RS-2022-00187238, Development of Large Korean Language Model Technology for Efficient Pre-training)