< (왼쪽부터) 전기및전자공학부 김창익 교수, 박진영 석박사통합과정, 김희선 석박사통합과정, 고강욱 박사과정 >
챗GPT와 같은 거대 언어 모델의 근간이 되는 트랜스포머로 구축된 기존 비디오 모델보다 8배 낮은 연산량과 4배 낮은 메모리 사용량으로도 높은 정확도를 기록했으며, 추론 속도 또한 기존 트랜스포머 기반 모델 대비 4배의 매우 빠른 속도를 달성한 동영상 인식기술이 우리 연구진에 의해 개발됐다.
우리 대학 전기및전자공학부 김창익 교수 연구팀이 초고효율 동영상 인식 모델 ‘비디오맘바(VideoMamba)’를 개발했다고 23일 밝혔다.
비디오맘바는 기존 트랜스포머 기반 모델들이 가지고 있는 높은 계산 복잡성을 해결하기 위해 설계된 새로운 동영상 인식 모델이다. 기존의 트랜스포머 기반 모델들은 셀프-어텐션(self-attention)이라는 메커니즘에 의존해 계산 복잡도가 제곱으로 증가하는 문제를 가지고 있었다.
< 그림 1. 비디오맘바의 트랜스포머 기반 비디오 인식 모델 대비 낮은 메모리 사용량과 빠른 추론속도 >
김창익 교수 연구팀의 비디오맘바는 선택적 상태 공간 모델(Selective State Space Model, Selective SSM)* 메커니즘을 활용해 선형 복잡도**로 효율적인 처리가 가능하다. 이를 통해 비디오맘바는 동영상의 시공간적 정보를 효과적으로 포착해 긴 종속성을 가진 동영상 데이터도 효율적으로 처리할 수 있다.
*선택적 상태 공간 모델(Selective SSM): 입력에 따라 동적으로 매개변수를 조정하여 시퀀스 데이터의 문맥을 더 잘 이해하는 상태 공간 모델
**선형 복잡도:입력 데이터의 크기에 비례하여 계산량이 증가하는 알고리즘 복잡도
김창익 교수 연구팀은 동영상 인식 모델의 효율성을 극대화하기 위해 비디오맘바에 1차원 데이터 처리에 국한된 기존 선택적 상태 공간 메커니즘을 3차원 시공간 데이터 분석이 가능하도록 고도화한 시공간적 전방 및 후방 선택적 상태 공간 모델(spatio-temporal forward and backward SSM)을 도입했다. 이 모델은 순서가 없는 공간 정보와 순차적인 시간 정보를 효과적으로 통합해 인식 성능을 향상한다. 연구팀은 다양한 동영상 인식 벤치마크에서 비디오맘바의 성능을 검증했다.
연구팀이 개발한 비디오맘바는 영상 분석이 필요한 다양한 응용 분야에서 효율적이고 실용적인 솔루션을 제공할 수 있다. 예를 들어, 자율주행에서는 주행 영상을 분석해 도로 상황을 정확하게 파악하고, 보행자와 장애물을 실시간으로 인식해 사고를 예방할 수 있다. 의료 분야에서는 수술 영상을 분석해 환자의 상태를 실시간으로 모니터링하고 긴급 상황 발생 시 신속히 대처할 수 있다. 스포츠 분야에서는 경기 중 선수들의 움직임과 전술을 분석해 전략을 개선하고, 훈련 중 피로도나 부상 가능성을 실시간으로 감지해 예방할 수 있다.
< 그림 2. 비디오맘바 내부의 시공간적 전방 및 후방 선택적 상태 공간 모델 상세 구조 >
연구를 주도한 김창익 교수는 “비디오맘바의 빠른 처리 속도와 낮은 메모리 사용량, 그리고 뛰어난 성능은 우리 생활에서의 다양한 동영상 활용 분야에 큰 장점을 제공할 것이다”고 연구의 의의를 설명했다.
이번 연구에는 전기및전자공학부 박진영 석박사통합과정, 김희선 박사과정, 고강욱 박사과정이 공동 제1 저자, 김민범 박사과정이 공동 저자, 그리고 전기및전자공학부 김창익 교수가 교신 저자로 참여했다. 연구 결과는 올해 9월 이탈리아 밀라노에서 열리는 컴퓨터 비전 분야 최우수 국제 학회 중 하나인 ‘European Conference on Computer Vision(ECCV) 2024’에서 발표될 예정이다. (논문명: VideoMamba: Spatio-Temporal Selective State Space Model)
한편, 이번 연구는 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행됐다. (No. 2020-0-00153, 기계학습 모델 보안 역기능 취약점 자동 탐지 및 방어 기술 개발)
국제공동연구진이 인공지능 학습을 통해 배터리의 표면 형상만 보고 각 원소의 함량 그리고 충·방전 횟수에 대한 정보를 높은 정확도로 알아내는 영상인식 기술을 개발하여 화제다. 우리 대학 신소재공학과 홍승범 교수가 한국전자통신연구원(ETRI), 미국 드렉셀대학과 공동연구를 통해 다양한 조성과 각기 다른 충·방전 사이클의 NCM 양극재 주사전자현미경 사진을 합성곱 신경망* 기반 인공지능에 학습시켜 주요 원소 함량과 충·방전 상태를 99.6%의 높은 정확도로 맞추는 방법론을 세계 최초로 개발했다고 2일 밝혔다. *합성곱 신경망(콘볼루션 신경망, Convolutional Neural Network, CNN): 시각적 영상을 분석하는 데 사용되는 다층의 피드-포워드적인 인공신경망의 한 종류이다. 연구팀은 반도체 공정에서는 웨이퍼의 불량 검수를 위해 주사전자현미경(SEM)을 사용하는 반면 배터리 공정에서는 그런 경우가 드물고 연구 현장에서만 입자
2024-07-02우리 대학 김재철AI대학원 서민준 교수 연구팀(오한석 석사과정)이 마이크로소프트가 주최한 AI 영상 인식 대회(VALUE Challenge 2021, 이하 밸류 챌린지) 영상 검색 트랙(Video Retrieval Track)에서 텐센트, 카카오, 컬럼비아 대학 등 우수한 팀들을 제치고 우승했다. 이 대회에는 영상 AI 분야 스타트업 트웰브랩스(대표 이재성) 이승준 CTO와 함께 참여했다. 이번 밸류 챌린지는 컴퓨터 비전 분야 권위의 학회인 ICCV(International Conference on Computer Vision)의 행사 중 일환으로 진행된 대회로 영상에 대한 인공지능의 이해능력을 평가하는 세계 최초의 비교·평가 대회로, 올해 6월부터 9월까지 진행되었다. 밸류 챌린지에서는 3개의 트랙으로 나뉘어 진행됐다. 이 중 영상 검색 트랙에서는 7만4천 개의 특정 분야에 치우치지 않은 다양한 동영상에 담긴 시각 및 음성 정보를 분석하여, 주어진 문장에 해당되
2021-10-20올해로 9회를 맞이하는 세계 유일의 ‘지능형 SoC 로봇워 2010’ 대회의 참가접수가 시작됐다. 접수기간은 4월 1일부터 5월 31일까지며 본선대회는 오는 10월에 열릴 예정이다. 이 대회는 대학(원)생을 포함한 2인 이상 6인 이하로 구성된 팀이면 누구나 참가가 가능하다. 대회 종목은 ‘SoC 태권로봇’과 ‘HURO-Competition’ 두 부문으로 나눠 진행되며 로봇의 두뇌에 해당하는 지능로봇 플랫폼의 구현능력에 따라 승패가 결정된다. SoC 태권로봇은 머리에 장착된 카메라를 이용, 영상인식을 통해 상대로봇의 위치, 거리, 행동 등을 스스로 찾아내며 치러지는 2족 로봇간의 태권도 경기다. HURO(Humanoid Robot)-Competition은 2010년 새롭게 진행될 경기로, 미션수행과 로봇간의 격투를 통해 순위를 결정한다. 장애물이 설치된 트랙을 빠른 시간 내에 통과하는 경기로 장애물의 색깔,
2010-04-02