본문 바로가기
대메뉴 바로가기
KAIST
연구뉴스
유틸열기
홈페이지 통합검색
-
검색
메뉴 열기
%EB%85%B8%EC%9A%A9%EB%A7%8C
최신순
조회순
멀티모달 대형언어모델이 GPT-4V를 뛰어넘다
멀티모달 대형 언어모델이란 텍스트뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 초대형 언어모델을 말한다. 해외 대형 기업의 풍부한 컴퓨팅 자원의 지원으로부터 인간의 뇌에 있는 신경망의 개수와 유사한 수준초대형모델들이 만들어지고 있으나 학계에서는 이런 개발이 쉽지 않았다. KAIST 연구진이 오픈AI의 GPT-4V와 구글의 제미나이-프로(Gemini-Pro)를 뛰어넘는 멀티모달 대형언어모델을 개발하여 화제다. 우리 대학 전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4V 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다. 노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다고 밝혔다. 연구팀이 개발한 첫번째 기술인 ‘콜라보(CoLLaVO)’는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증해 보였다. 해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법‘크레용 프롬프트(Crayon Prompt)’라는 시각적 프롬프트를 새롭게 제안했다. 또한 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 ‘듀얼 큐로라(Dual QLoRA)’를 제안했다. 이를 통해, 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 밝혔다. 두 번째 대형언어모델인 ‘모아이(MoAI)’는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들어졌다고 밝혔다. 이는 기존 멀티모달 대형언어모델이 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 지적하며 이런 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다. 노용만 교수는 “연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있으며, 모든 모델을 공개형 대형언어모델로 출시 했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것이다”이라고 언급했다. 연구팀이 개발한 멀티모달 대형언어모델인 콜라보(CoLLaVO)와 모아이(MoAI)는 KAIST 전기및전자공학부 이병관 박사과정이 제1 저자로 참여하고 박범찬 석박사통합과정, 김채원 박사과정이 공동 저자로 참여했다. 콜라보(CoLLaVO)는 자연어 처리(NLP) 분야 최고의 국제 학회인 ‘Findings of the Association for Computational Linguistics(ACL Findings) 2024’에 5월 16일 자로 학회에 승인받았고, 모아이(MoAI)는 컴퓨터 비전 최고의 국제 학회인 ‘European Conference on Computer Vision(ECCV) 2024’학회 승인 결과를 기다리고 있다고 밝혔다. 한편 이번 연구는 KAIST 미래국방 인공지능 특화연구센터 및 전기및전자공학부의 지원을 받아 수행됐다. [1] CoLLaVO 데모 GIF 영상 https://github.com/ByungKwanLee/CoLLaVO [2] MoAI 데모 GIF 영상 https://github.com/ByungKwanLee/MoAI
2024.06.20
조회수 3800
딥러닝 적대적 공격을 막는 방어 프레임 개발
우리 대학 전기및전자공학부 노용만 교수 연구팀이 물체를 검출하는 딥러닝 신경망에 대한 적대적 공격을 방어하는 알고리즘을 개발했다고 15일 밝혔다. 최근 몇 년간 인공지능 딥러닝 신경망 기술이 나날이 발전하고 실세계에 활용되면서, 딥러닝 신경망 기술은 자율주행 및 물체검출 등 다양한 분야에서 떠오르는 핵심기술로 주목받고 있다. 하지만 현재의 딥러닝 기반 검출 네트워크는, 특정한 적대적 패턴을 입력 이미지에 악의적으로 주입하여 잘못된 예측 결과를 초래하는 적대적 공격에 대해 심각하게 취약하다. 적대적 패턴이란 공격자가 검출이 되지 않기 위해 인위적으로 만든 패턴이다. 이 패턴이 포함된 물체는 검출이 되지 않게 하는 것으로 적대적 패턴 공격이라 한다. 이러한 취약성은 인공지능으로 대표되는 딥러닝 기반의 모델을 국방이나 의료 및 자율주행 등 국민의 생명과 재산을 직접 다루는 분야에 적용할 때 크게 문제가 된다. 구체적인 예로 국방·보안을 위한 감시 정찰 분야에서 적군이 적대적 패턴으로 위장하여 침입하면 검출을 못하는 경우가 발생하여 국방 및 보안에 매우 큰 위험을 초래할 수 있다. 기존의 많은 연구가 적대적 패턴 공격을 막기 위해 노력했으나 추가로 복잡한 모듈이 필요하거나 네트워크를 처음부터 다시 학습해야 했기 때문에, 기존 연구는 실시간으로 동작하는 물체검출 알고리즘에 현실적으로 적용하기가 쉽지 않았다. 노 교수 연구팀은 물리적인 환경에서 적대적 패턴 공격의 원리를 반대로 이용해 적대적 공격을 막아내는 방어 프레임을 고안했다. 이러한 방어 프레임은 부가적인 복잡한 모듈이나 네트워크의 재학습이 필요하지 않으므로 보다 실용적이고 강인한 물체검출 네트워크를 구축하는데 폭넓게 응용 및 적용될 수 있을 것으로 기대된다. 공동 제1 저자인 전기및전자공학부 유영준 박사과정 학생과 이홍주 박사과정 학생 등이 함께 수행한 이번 연구는 영상처리 분야 최고의 국제 학술지인 `IEEE Transactions on Image Processing'에 11월 1일 자로 온라인 게재됐다. (논문명 : Defending Person Detection Against Adversarial Patch Attack by using Universal Defensive Frame). 연구팀은 문제 해결을 위해 적대적 공격의 원리를 역으로 이용해, 학습된 네트워크에 접근하지 않으면서도 입력단에서 방어할 수 있는 방어 프레임 기술을 고안했다. 연구팀의 방어 기술은 적대적 공격과 정반대로 물체검출 시 딥러닝 모델이 옳은 예측 결과를 내리도록 방어 프레임을 만드는 것이다. 이러한 방어 프레임은 마치 창과 방패의 싸움처럼 적대적 패턴과 함께 경쟁적으로 학습되며, 해당 과정을 반복해 최종적으로 모든 적대적 패턴 공격에 대해 높은 방어성능을 지니도록 최적화된다. 연구팀은 입력 이미지 외부에 덧붙이는 방어 프레임을 변화시킴으로써 손쉽게 방어성능을 조절할 수 있음을 확인했고, 개발된 방어 프레임은 인리아(INRIA) 검출 벤치마크 데이터셋에서 기존 방어 알고리즘 대비 평균 31.6% 정확도가 향상하는 성과를 거뒀다. 연구팀이 개발한 방어 프레임은 실시간 물체 탐지 시, 모델의 재학습 없이 적대적 패턴 공격을 방어할 수 있으므로 예측 시간 및 비용 절감을 크게 이룰 수 있을 것으로 기대된다. 연구팀은 나아가 이번 연구에서 개발된 방어 프레임을 물리적으로 직접 구현시켜서, 물리적 환경에 자연스레 놓여있는 적대적 패턴 공격과 마찬가지로 좀 더 접근성 있는 방어 방법으로도 활발히 응용될 수 있음을 제시하였다. 노용만 교수는 "국방 및 보안 분야에서 인공지능이 활용되기 위해서 아직 인공지능의 완전성을 높이는 많은 연구가 필요한데, 이번에 개발된 방어 기술은 이 분야들에서 인공지능 모델을 적용 시 실용적인 적대적 방어를 제시함에 의의가 있을 것ˮ이라며 "이 기술은 국방 감시정찰, 보안, 자율주행 분야에도 적용될 수 있을 것이다ˮ라고 말했다. 한편 이번 연구는 방위사업청과 국방과학연구소의 지원으로 한국과학기술원 미래국방 인공지능 특화연구센터에서 수행됐다.
2022.11.15
조회수 4876
<<
첫번째페이지
<
이전 페이지
1
>
다음 페이지
>>
마지막 페이지 1