-
반도체 정밀 공정 흐린 영상 복원 가능하다
생물학 연구에 사용되는 형광 현미경이나 반도체 산업에 사용되는 주사전자현미경의 공통점은 불안정성으로 인해 흐려진 영상(블러, blur)을 보정하는 과정이 반드시 필요하다는 점이다. 우리 연구진이 굉장히 강한 잡음에 의해 손상된 왜곡 영상에 대해 적응형 필터와 생성형 인공지능 모델을 융합해 영상을 복원하는 데 성공했다.
우리 대학 바이오및뇌공학과 장무석 교수 연구팀이 삼성전자 DS부문 반도체연구소 차세대공정개발실과 공동 연구를 통해 왜곡 및 강한 잡음이 존재하는 의료·산업 영상을 복원하는 기술을 개발했다고 26일 밝혔다.
스마트폰 카메라 사진에 영상의 흐림·왜곡이 생겼을 때 보정하는 문제를 디컨볼루션(deconvolution) 또는 디블러링(deblurring)이라고 하며, 흐려진 영상 정보만 이용해 선명한 영상을 복원하는 기술을 블라인드 디컨볼루션(blind deconvolution)이라고 한다. 흥미롭게도 디컨볼루션 문제는 일상뿐만 아니라 생물학 연구, 반도체 산업 등 다양한 분야에서 공통적으로 발생한다.
예를 들어, 형광 현미경은 세포와 분자 수준의 미세 구조를 시각화하기 때문에 측정된 형광 신호는 산란이나 회절, 수차 등의 효과로 인해 흐려지기 때문에 디컨볼루션 기법을 통해 보정하는 과정이 반드시 필요하다.
또한, 반도체 산업에서는 수천 개의 생산 공정 중간에 검사·계측 기술을 통해 발생할 수 있는 미세 공정 오류를 감지하고, 공정 수율 개선을 위한 프로세스 개선 과정에 사용되는 주사전자현미경이 전자 빔의 불안정성으로 인해 영상이 흐려지기 쉬우며, 이를 보정하는 과정이 반드시 필요하다.
연구팀은 이처럼 영상이 흐려지는 원인은 움직임, 빛의 산란, 전자의 불안정성 등과 같이 다양하지만, 공통적으로 ‘영상의 흐려짐을 없앤다’라는 점에서 수학적으로 동일한 접근 방법이 활용될 수 있다고 생각했다.
특히 잡음 수준이 높은 영상의 경우, 영상의 잡음을 효과적으로 억제함과 동시에 블러 효과가 제거된 선명한 영상을 복원하는 과정의 균형을 맞추는 것이 매우 중요하다는 점을 착안했다.
연구팀은 위너 디컨볼루션*을 기반으로 영상을 복원하는 접근법을 개발했다. 이를 적응형 잡음 억제 변수, 영상 생성형 인공지능 모델과 결합해 영상 복원 과정에서 발생할 수 있는 잡음을 억제하고 영상 선명도도 높였다.
*위너 디컨볼루션(Wiener deconvolution)은 왜곡된 영상을 역 필터(inverse filter)를 기반으로 깨끗한 영상으로 복원하는 전통적인 방식임.
연구팀은 잡음 민감도가 높은 주사전자현미경으로부터 측정된 왜곡된 영상으로부터 깨끗하고 초점이 맞는 나노미터 단위의 반도체 구조에 대한 영상을 성공적으로 복원해 냄으로써 반도체 검사·계측에 매우 효과적으로 적용할 수 있음을 실험적으로 증명했다.
바이오및뇌공학과 이찬석 연구원은 “이번 연구를 통해 강한 잡음 속에서 왜곡된 영상을 복원하는 난제를 해결했다ˮ며, 이어 "이번 연구에서는 무작위적 잡음을 극복하는 영상 복원 기술을 개발하는 데에 집중했고, 향후 비균일 영상 복원 및 다양한 손상 형태를 극복하는 영상 복원 기술 개발에 주력할 것이다ˮ라고 밝혔다.
바이오및뇌공학과 이찬석 박사과정이 제1 저자로 참여한 이번 연구는 컴퓨터 비전 분야 최고 학회인 ‘제18회 유럽 컴퓨터 비전 학회(The 18th European Conference on Computer Vision)’ 에서 지난 10월 1일에 이탈리아 밀란에서 발표됐고, Springer Nature에서 출판하는 Lecture Notes in Computer Science의 ECCV 2024 프로시딩 집에 게재될 예정이다. (논문명: Blind image deblurring with noise-robust kernel estimation).
2024.11.26
조회수 390
-
차세대 새로운 패러다임 동영상 인식기술 개발
챗GPT와 같은 거대 언어 모델의 근간이 되는 트랜스포머로 구축된 기존 비디오 모델보다 8배 낮은 연산량과 4배 낮은 메모리 사용량으로도 높은 정확도를 기록했으며, 추론 속도 또한 기존 트랜스포머 기반 모델 대비 4배의 매우 빠른 속도를 달성한 동영상 인식기술이 우리 연구진에 의해 개발됐다.
우리 대학 전기및전자공학부 김창익 교수 연구팀이 초고효율 동영상 인식 모델 ‘비디오맘바(VideoMamba)’를 개발했다고 23일 밝혔다.
비디오맘바는 기존 트랜스포머 기반 모델들이 가지고 있는 높은 계산 복잡성을 해결하기 위해 설계된 새로운 동영상 인식 모델이다. 기존의 트랜스포머 기반 모델들은 셀프-어텐션(self-attention)이라는 메커니즘에 의존해 계산 복잡도가 제곱으로 증가하는 문제를 가지고 있었다.
김창익 교수 연구팀의 비디오맘바는 선택적 상태 공간 모델(Selective State Space Model, Selective SSM)* 메커니즘을 활용해 선형 복잡도**로 효율적인 처리가 가능하다. 이를 통해 비디오맘바는 동영상의 시공간적 정보를 효과적으로 포착해 긴 종속성을 가진 동영상 데이터도 효율적으로 처리할 수 있다.
*선택적 상태 공간 모델(Selective SSM): 입력에 따라 동적으로 매개변수를 조정하여 시퀀스 데이터의 문맥을 더 잘 이해하는 상태 공간 모델
**선형 복잡도:입력 데이터의 크기에 비례하여 계산량이 증가하는 알고리즘 복잡도
김창익 교수 연구팀은 동영상 인식 모델의 효율성을 극대화하기 위해 비디오맘바에 1차원 데이터 처리에 국한된 기존 선택적 상태 공간 메커니즘을 3차원 시공간 데이터 분석이 가능하도록 고도화한 시공간적 전방 및 후방 선택적 상태 공간 모델(spatio-temporal forward and backward SSM)을 도입했다. 이 모델은 순서가 없는 공간 정보와 순차적인 시간 정보를 효과적으로 통합해 인식 성능을 향상한다. 연구팀은 다양한 동영상 인식 벤치마크에서 비디오맘바의 성능을 검증했다.
연구팀이 개발한 비디오맘바는 영상 분석이 필요한 다양한 응용 분야에서 효율적이고 실용적인 솔루션을 제공할 수 있다. 예를 들어, 자율주행에서는 주행 영상을 분석해 도로 상황을 정확하게 파악하고, 보행자와 장애물을 실시간으로 인식해 사고를 예방할 수 있다. 의료 분야에서는 수술 영상을 분석해 환자의 상태를 실시간으로 모니터링하고 긴급 상황 발생 시 신속히 대처할 수 있다. 스포츠 분야에서는 경기 중 선수들의 움직임과 전술을 분석해 전략을 개선하고, 훈련 중 피로도나 부상 가능성을 실시간으로 감지해 예방할 수 있다.
연구를 주도한 김창익 교수는 “비디오맘바의 빠른 처리 속도와 낮은 메모리 사용량, 그리고 뛰어난 성능은 우리 생활에서의 다양한 동영상 활용 분야에 큰 장점을 제공할 것이다”고 연구의 의의를 설명했다.
이번 연구에는 전기및전자공학부 박진영 석박사통합과정, 김희선 박사과정, 고강욱 박사과정이 공동 제1 저자, 김민범 박사과정이 공동 저자, 그리고 전기및전자공학부 김창익 교수가 교신 저자로 참여했다. 연구 결과는 올해 9월 이탈리아 밀라노에서 열리는 컴퓨터 비전 분야 최우수 국제 학회 중 하나인 ‘European Conference on Computer Vision(ECCV) 2024’에서 발표될 예정이다. (논문명: VideoMamba: Spatio-Temporal Selective State Space Model)
한편, 이번 연구는 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행됐다. (No. 2020-0-00153, 기계학습 모델 보안 역기능 취약점 자동 탐지 및 방어 기술 개발)
2024.07.23
조회수 1986
-
멀티모달 대형언어모델이 GPT-4V를 뛰어넘다
멀티모달 대형 언어모델이란 텍스트뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 초대형 언어모델을 말한다. 해외 대형 기업의 풍부한 컴퓨팅 자원의 지원으로부터 인간의 뇌에 있는 신경망의 개수와 유사한 수준초대형모델들이 만들어지고 있으나 학계에서는 이런 개발이 쉽지 않았다. KAIST 연구진이 오픈AI의 GPT-4V와 구글의 제미나이-프로(Gemini-Pro)를 뛰어넘는 멀티모달 대형언어모델을 개발하여 화제다.
우리 대학 전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4V 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.
노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다고 밝혔다.
연구팀이 개발한 첫번째 기술인 ‘콜라보(CoLLaVO)’는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증해 보였다.
해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법‘크레용 프롬프트(Crayon Prompt)’라는 시각적 프롬프트를 새롭게 제안했다.
또한 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 ‘듀얼 큐로라(Dual QLoRA)’를 제안했다. 이를 통해, 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 밝혔다.
두 번째 대형언어모델인 ‘모아이(MoAI)’는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들어졌다고 밝혔다.
이는 기존 멀티모달 대형언어모델이 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 지적하며 이런 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다.
노용만 교수는 “연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있으며, 모든 모델을 공개형 대형언어모델로 출시 했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것이다”이라고 언급했다.
연구팀이 개발한 멀티모달 대형언어모델인 콜라보(CoLLaVO)와 모아이(MoAI)는 KAIST 전기및전자공학부 이병관 박사과정이 제1 저자로 참여하고 박범찬 석박사통합과정, 김채원 박사과정이 공동 저자로 참여했다.
콜라보(CoLLaVO)는 자연어 처리(NLP) 분야 최고의 국제 학회인 ‘Findings of the Association for Computational Linguistics(ACL Findings) 2024’에 5월 16일 자로 학회에 승인받았고, 모아이(MoAI)는 컴퓨터 비전 최고의 국제 학회인 ‘European Conference on Computer Vision(ECCV) 2024’학회 승인 결과를 기다리고 있다고 밝혔다.
한편 이번 연구는 KAIST 미래국방 인공지능 특화연구센터 및 전기및전자공학부의 지원을 받아 수행됐다.
[1] CoLLaVO 데모 GIF 영상
https://github.com/ByungKwanLee/CoLLaVO
[2] MoAI 데모 GIF 영상
https://github.com/ByungKwanLee/MoAI
2024.06.20
조회수 3889