< (왼쪽부터) 전기및전자공학부 노용만 교수, 이병관 박사과정, 박범찬 석박사통합과정, 김채원 박사과정 >
멀티모달 대형 언어모델이란 텍스트뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 초대형 언어모델을 말한다. 해외 대형 기업의 풍부한 컴퓨팅 자원의 지원으로부터 인간의 뇌에 있는 신경망의 개수와 유사한 수준초대형모델들이 만들어지고 있으나 학계에서는 이런 개발이 쉽지 않았다. KAIST 연구진이 오픈AI의 GPT-4V와 구글의 제미나이-프로(Gemini-Pro)를 뛰어넘는 멀티모달 대형언어모델을 개발하여 화제다.
우리 대학 전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4V 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.
노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다고 밝혔다.
연구팀이 개발한 첫번째 기술인 ‘콜라보(CoLLaVO)’는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증해 보였다.
해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법‘크레용 프롬프트(Crayon Prompt)’라는 시각적 프롬프트를 새롭게 제안했다.
< 그림 1. Crayon Prompt 및 학습 방법 >
또한 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 ‘듀얼 큐로라(Dual QLoRA)’를 제안했다. 이를 통해, 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 밝혔다.
< 그림 2. CoLLaVO 멀티모달 대형언어모델 성능 >
두 번째 대형언어모델인 ‘모아이(MoAI)’는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들어졌다고 밝혔다.
이는 기존 멀티모달 대형언어모델이 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 지적하며 이런 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다.
< 그림 3. MoAI 멀티모달 대형언어모델 성능 >
노용만 교수는 “연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있으며, 모든 모델을 공개형 대형언어모델로 출시 했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것이다”이라고 언급했다.
연구팀이 개발한 멀티모달 대형언어모델인 콜라보(CoLLaVO)와 모아이(MoAI)는 KAIST 전기및전자공학부 이병관 박사과정이 제1 저자로 참여하고 박범찬 석박사통합과정, 김채원 박사과정이 공동 저자로 참여했다.
콜라보(CoLLaVO)는 자연어 처리(NLP) 분야 최고의 국제 학회인 ‘Findings of the Association for Computational Linguistics(ACL Findings) 2024’에 5월 16일 자로 학회에 승인받았고, 모아이(MoAI)는 컴퓨터 비전 최고의 국제 학회인 ‘European Conference on Computer Vision(ECCV) 2024’학회 승인 결과를 기다리고 있다고 밝혔다.
한편 이번 연구는 KAIST 미래국방 인공지능 특화연구센터 및 전기및전자공학부의 지원을 받아 수행됐다.
[1] CoLLaVO 데모 GIF 영상
https://github.com/ByungKwanLee/CoLLaVO
< CoLLaVO 데모 GIF 영상 >
[2] MoAI 데모 GIF 영상
https://github.com/ByungKwanLee/MoAI
< MoAI 데모 GIF 영상 >
최근 빠른 고령화 및 출산율 감소 등으로 1인 가구가 급속하게 증가하면서, 1인 가구의 정신건강 문제에 대한 관심도 함께 높아지고 있다. 서울시가 실시한 1인 가구 실태조사에 따르면, 1인 가구의 60% 이상이 외로움을 느끼고 있으며, 특히 사회적 고립과 함께 외로움을 겪는 비율이 상당히 높은 것으로 나타났다. 우리 대학 전산학부 이의진 교수 연구팀이 1인 가구의 정신건강 관리를 위해, 사용자 스스로가 자신의 심리 상태를 기록할 수 있도록 지원하는 상황 인식 기반 멀티모달 스마트 스피커 시스템을 개발했다고 24일 밝혔다. 연구팀은 사용자의 주변 상황을 실시간으로 파악해 최적의 시점에 정신건강 관련 질문하도록 이 시스템을 설계했고 기존의 무작위 설문보다 높은 응답률을 달성하는 것을 확인했다. 기존 스마트 스피커를 활용한 정신건강 자가 추적 연구에서 무작위 설문을 할 경우 사용자의 스트레스, 짜증 등 부정적인 감정이 유발시켜 설문 응답에 편향이 발생할 수 있어 각별한 주의
2024-09-24우리 대학 산업및시스템공학과 문일철 교수 연구팀이 세계 최고 수준의 기계학습 학회인 ‘국제머신러닝학회(ICML, International Conference on Machine Learning) 2024’에서 개최된 ‘멀티모달 작업계획 생성 경진대회(EgoPlan)’에서 다수의 세계 연구팀을 모두 제치고 1위로 우승을 했다고 30일 밝혔다. 본 대회는 7월 21일부터 27일까지 오스트리아 비엔나에서 개최됐으며, 참가자는 북경대(中), 북경 AGI연구소(中) 및 임페리얼칼리지 런던(Imperial College London, 英) 등의 6개국 13개 기관이 참여해 경쟁했다. 우리 연구팀은 국내 유일의 참가 기관으로 7월 26일 우승상 및 혁신상을 수상했다. 이번 대회는 인공지능이 주방에서 요리하는 과정을 비디오 및 지문으로 학습한 이후, 경험하지 못한 요리 과정에서 상식적으로 합당한 의사결정을 내려 조리할 수 있는지를 경쟁하는 시합
2024-07-30최근 소셜 미디어, 전자 상거래 플랫폼 등에서 소비자의 만족도를 높이는 다양한 추천서비스를 제공하고 있다. 그 중에서도 상품의 제목 및 설명과 같은 텍스트를 주입하여 상품 추천을 제공하는 대형언어모델(Large Language Model, LLM) 기반 기술이 각광을 받고 있다. 한국 연구진이 이런 대형언어모델 기반 추천 기술의 기존 한계를 극복하고 빠르고 최상의 추천을 해주는 시스템을 개발하여 화제다. 우리 대학 산업및시스템공학과 박찬영 교수 연구팀이 네이버와 공동연구를 통해 협업 필터링(Collaborative filtering) 기반 추천 모델이 학습한 사용자의 선호에 대한 정보를 추출하고 이를 상품의 텍스트와 함께 대형언어모델에 주입해 상품 추천의 높은 정확도를 달성할 수 있는 새로운 대형언어모델 기반 추천시스템 기술을 개발했다고 17일 밝혔다. 이번 연구는 기존 연구에 비해 학습 속도에서 253% 향상, 추론 속도에서 171% 향상, 상품 추천에서 평균 12%의
2024-07-17전산학부 오혜연 교수가 2023년 7월 11일 대구 엑스코에서 개최된 '2023 로봇공학, 과학 및 시스템 컨퍼런스(Robotics: Science and Systems, 이하 RSS 2023)' 초청을 받아 기조강연을 진행했다. 발표 제목은 "Toward Culturally Intelligent Language Models" 로 최근 많은 주목을 받고 있는 대형언어모델(Large Langue Models; LLM)이 문화적 지식 및 지능을 갖기 위해 어떤 연구를 해야 하는지에 대한 내용으로 강연을 진행했다. RSS 2023은 2005년부터 개최된 Robotics 분야의 저명 컨퍼런스로 이번 컨퍼런스는 아시아에서 처음 개최되었다. 이번 RSS 2023에는 전 세계의 AI와 로봇 분야 연구자들과 아마존 로보틱스, 토요타 연구소, 한화시스템 등 세계적 기업을 포함해 40개국에서 온 800여 명이 참여했으며 세계적인 석학 초청 기조 강연, 25개의 워크숍, 112개의
2023-07-17다공성 소재는 넓은 공극과 표면 면적을 지니고 있어, 가스 흡착, 분리, 촉매 등 다양한 에너지 및 환경 분야에서 적용된다. 다공성 소재 중 한 종류인 금속 유기 골격체(MOF)는 무한대에 가까운 경우의 수를 갖는 넓은 물질 공간(materials space) 안에 존재하기에, 인공지능을 사용해 최적의 물질을 추출하고 특성을 예측하려는 연구가 활발히 진행되고 있다. 하지만 이러한 모델들은 대부분 특정한 물성 한 종류만 학습할 수 있으며, 모든 재료 특성에 보편적으로 적용할 수 없다는 단점이 존재한다. 우리 대학 생명화학공학과 김지한 교수 연구팀이 세계 최초로 멀티모달 트랜스포머를 적용한 인공지능(AI)을 통해 다공성 소재의 다양한 물성을 예측하는 기술을 개발했다고 5일 밝혔다. 멀티모달 트랜스포머는 비디오 프레임과 오디오 트랙, 웹 이미지와 캡션, 교육용 비디오와 음성 대본과 같이 서로 다른 형태의 정보를 효과적이고 효율적으로 결합하도록 설계된 신경망 모델의 일종이다. 김
2023-04-05