-
멀티모달 대형언어모델이 GPT-4V를 뛰어넘다
멀티모달 대형 언어모델이란 텍스트뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 초대형 언어모델을 말한다. 해외 대형 기업의 풍부한 컴퓨팅 자원의 지원으로부터 인간의 뇌에 있는 신경망의 개수와 유사한 수준초대형모델들이 만들어지고 있으나 학계에서는 이런 개발이 쉽지 않았다. KAIST 연구진이 오픈AI의 GPT-4V와 구글의 제미나이-프로(Gemini-Pro)를 뛰어넘는 멀티모달 대형언어모델을 개발하여 화제다.
우리 대학 전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4V 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.
노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다고 밝혔다.
연구팀이 개발한 첫번째 기술인 ‘콜라보(CoLLaVO)’는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증해 보였다.
해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법‘크레용 프롬프트(Crayon Prompt)’라는 시각적 프롬프트를 새롭게 제안했다.
또한 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 ‘듀얼 큐로라(Dual QLoRA)’를 제안했다. 이를 통해, 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 밝혔다.
두 번째 대형언어모델인 ‘모아이(MoAI)’는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들어졌다고 밝혔다.
이는 기존 멀티모달 대형언어모델이 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 지적하며 이런 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다.
노용만 교수는 “연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있으며, 모든 모델을 공개형 대형언어모델로 출시 했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것이다”이라고 언급했다.
연구팀이 개발한 멀티모달 대형언어모델인 콜라보(CoLLaVO)와 모아이(MoAI)는 KAIST 전기및전자공학부 이병관 박사과정이 제1 저자로 참여하고 박범찬 석박사통합과정, 김채원 박사과정이 공동 저자로 참여했다.
콜라보(CoLLaVO)는 자연어 처리(NLP) 분야 최고의 국제 학회인 ‘Findings of the Association for Computational Linguistics(ACL Findings) 2024’에 5월 16일 자로 학회에 승인받았고, 모아이(MoAI)는 컴퓨터 비전 최고의 국제 학회인 ‘European Conference on Computer Vision(ECCV) 2024’학회 승인 결과를 기다리고 있다고 밝혔다.
한편 이번 연구는 KAIST 미래국방 인공지능 특화연구센터 및 전기및전자공학부의 지원을 받아 수행됐다.
[1] CoLLaVO 데모 GIF 영상
https://github.com/ByungKwanLee/CoLLaVO
[2] MoAI 데모 GIF 영상
https://github.com/ByungKwanLee/MoAI
2024.06.20
조회수 3811
-
폭발 위험 없고 저렴한 레독스 흐름전지 개발
대표적인 2차전지인 리튬-이온 전지를 대체할 수 있는 수계 레독스 흐름 전지는 낮은 원가, 낮은 발화 위험, 그리고 20년 이상의 장수명 특성을 가져 신재생 에너지와 연계한 에너지 저장장치 (ESS, energy storage system)로 활용할 수 있다. 레독스 흐름전지로 가장 널리 사용되는 활성물질은 바나듐 원소이지만, 최근 바나듐의 원가 상승으로 인해 이를 대체할 수 있는 레독스 물질의 연구가 활발히 진행되고 있다.
우리 대학 화학과 변혜령, 백무현 교수 연구팀, POSTECH 화학과 서종철 교수팀이 공동연구를 통해 수계 레독스 흐름전지에 활용할 높은 용해도의 안정한 유기 활성 분자를 개발했다고 23일 밝혔다.
연구팀은 유기 분자의 설계를 통한 수계 레독스 흐름 전지 개발 연구에 집중하였다. 유기 분자는 다양한 합성 디자인을 통해 용해도, 전기화학적 레독스 전위 등을 조절할 수 있어 바나듐보다 높은 에너지 저장이 가능한 유망한 활성물질의 후보군이다. 대부분의 유기 레독스 활성 분자들은 낮은 용해도를 가지거나 레독스 반응 시 화학적 안정성이 낮은 문제점을 가지고 있다. 활성 분자들의 용해도가 낮으면 에너지 저장 용량이 낮아지며, 분자의 화학적 안정성이 낮으면 사이클 성능의 감소가 나타난다. 연구팀은 나프탈렌 다이이미드(naphthalene diimide, NDI)를 활성분자로 사용하였는데, NDI는 높은 전기화학적 안정성을 가짐에도 수계 전해액에서 낮은 용해도를 가져 지금까지 연구가 많이 이루어지지 않았다.
NDI 분자는 물에 거의 용해되지 않지만 연구팀은 NDI에 네 개의 암모늄 기능기를 도입하여 용해도를 최대 1.5 M*까지 상승시켰다. 또한, 1 M의 개발된 NDI 분자를 중성의 수계 레독스 흐름전지에 사용시 500 사이클 동안 약 98%의 용량이 유지됨을 확인하였다. 이는 한 사이클 당 약 0.004%의 용량만이 감소하며 총 45일간 작동 시 처음의 용량 대비 오로지 2%만이 감소됨을 의미한다. 또한 개발된 NDI는 한 분자당 2개의 전자를 저장할 수 있어 1 M의 NDI를 사용 시 약 2 M의 전자 저장이 가능함을 증명하였다. 참고로 고농도의 황산용액을 사용하는 바나듐 레독스 흐름 전지의 활성물질인 바나듐의 용해도는 약 1.6 M이며 전자 저장 수는 원소당 1개여서 총 1.6 M의 전자 저장이 가능하다. 따라서 개발한 NDI 활성 분자는 기존의 바나듐보다 높은 용량을 구현할 수 있다.
*1 M (mol/L) : 용액 1 L에 6.022 x 1023 개의 활성분자가 존재함을 의미함
싱 비크람 연구교수, 권성연, 최윤섭 박사과정 연구원이 1 저자로 참여한 이번 연구는 국제 학술지 `어드밴스 머터리얼즈(Advanced Materials)' 2월 7일에 온라인으로 출판됐다. (논문명 : Controlling π–π interactions of highly soluble naphthalene diimide derivatives for neutral pH aqueous redox flow batteries). 또한 전자상자성 공명 분석의 우리 대학 화학과 이예림 박사과정 연구원 및 임미희 교수팀이 함께 연구를 수행했다.
변혜령 교수는 "기존에 낮은 용해도를 가지는 유기 활성 분자를 이용하여 레독스 흐름전지의 활성 분자로 사용할 수 있는 분자 디자인 원리를 보였다. 또한 레독스 반응에서 분자들이 결합하거나 분리되는 상호 결합력을 이용하여 라디칼로 형성된 분자들의 화학적 반응성을 억제할 수 있음을 보여주었다ˮ 라며 "향후 수계 레독스 흐름전지로 사용 시 고에너지밀도, 고용해도의 장점과 함께 중성의 수계 전해액을 사용할 수 있어, 기존의 바나듐 레독스 흐름전지의 산성용액 사용에서 오는 부식 문제 등을 해결할 수 있을 것으로 기대된다. 현재 사용하고 있는 리튬-이온전지 기반의 ESS는 화재의 위험이 높기 때문에 안전하고 저렴한 차세대 ESS의 개발이 필요하며 본 연구는 그 가능성을 보여준 것ˮ 이라고 말했다.
이번 연구는 삼성미래기술육성사업, 기초과학연구원, 재단한국연구재단의 지원을 받아 수행됐다.
2023.03.23
조회수 6164
-
백무현 교수, 타이타늄 촉매반응으로 화학소재 올레핀 합성 성공
〈 백 무 현 교수 〉
우리 대학 화학과 백무현 교수 연구팀이 우리 주변에 흔한 타이타늄(Titanium) 촉매를 활용해 플라스틱, 의약품 원료로 사용하는 올레핀(olefins) 합성에 성공했다.
석유화학산업 분야 주요 소재인 올레핀은 보통 800℃ 고온으로 석유를 증기 분해(steam cracking)해 제조한다. 매우 높은 열과 에너지가 투입되고 이산화탄소 등 온실가스가 발생하는 것이 단점이다.
연구결과는 27일 국제학술지 네이처 케미스트리에 게재됐다.
기초과학연구원 분자활성 촉매반응 연구단의 부연구단장으로 재직 중인 백무현 교수는 계산화학을 통해 타이타늄을 최적의 촉매로 선택했고 탄화수소(hydrocarbon)의 수소를 선택적으로 없애는 탈수소반응을 구현했다. 이로써 기존 공정에 비해 10분의 1정도 낮은 온도(75℃)에서 올레핀을 합성했다.
올레핀은 플라스틱, 고분자 화합물, 의약품 등에 활용하는 기초 원료이다. 활용도가 커 올레핀 합성 과정은 많은 연구자들이 연구주제로 삼고 있다.
올레핀은 탄화수소가 수소를 잃으면서 탄소(C) 두 개가 이중결합(C=C)해 생성되는데 증기 분해 방식은 반응 중 탄소-탄소 결합이 끊어져 올레핀 혼합물이나 다른 탄화수소들이 합성되는 단점이 있다. 또 석유 대신 천연가스에서 올레핀을 합성하려면 온실가스가 발생해 오염과 공해 문제가 뒤따랐다.
화학자들은 석유와 천연가스 등 탄화수소 화합물을 가공하거나 분해할 때 열과 에너지를 적게 사용하고, 환경오염이 덜한 화학반응을 구현하기 위해 다양한 촉매반응을 연구했다.
탄소와 수소만으로 결합된 탄화수소는 두 분자 간 결합이 매우 강하기 때문에 결합을 끊고 반응을 유도하는 촉매 개발이 주요 과제였다. 이리듐(Iridium), 로듐(rhodium), 루테늄(ruthenium) 등 전이금속을 촉매로 적용했으나 비용이 너무 비싸 실제 산업에 활용하기는 어려웠다.
백 부단장은 비싼 전이금속 보다 수십 배 저렴한 타이타늄을 촉매로 적용했다. 백 부단장은 밀도범함수를 활용한 계산 화학을 통해 최적의 촉매 후보물질로 타이타늄을 제안했고 미국 펜실베니아대학 연구진은 약 75℃에서 탈수소반응이 성공적으로 이뤄졌음을 실험으로 확인했다.
지난해 이리듐 촉매로 메탄가스의 강력한 탄소-수소 결합을 분해한 데 이어 이번 연구에서도 계산화학으로 정확한 촉매를 예측했다. 또 탈수소반응에 이리듐 촉매를 활용할 때 탄화수소가 이성질화(isomerization) 되는 문제도 타이타늄 촉매로 해결됨을 관찰했다.
백 교수는 “이리듐은 반응성이 매우 크지만 값이 비싸고 구하기 어렵다. 반면 타이타늄은 값이 매우 저렴하고 구하기 쉽다”며 “향후 타이타늄 촉매의 반응성과 효율성을 높인다면 기존 올레핀 합성공정의 비용이 줄어들 것”이라고 말했다.
이번 연구는 미국 펜실베니아 대학의 대니얼 민디올라(Daniel J. Mindiola) 교수 그룹과 공동으로 진행됐다.
□ 그림 설명
그림1. 연구진이 제안한 타이타늄 촉매를 활용한 탈수소반응 메커니즘
그림2. 밀도범함수를 활용한 계산화학으로 본 탈수소반응 메커니즘
2017.06.28
조회수 16505