본문 바로가기 대메뉴 바로가기

KAIST

연구뉴스

홈페이지 통합검색

-

%EC%98%81%EC%83%81%EC%9D%B8%EC%8B%9D

차세대 새로운 패러다임 동영상 인식기술 개발 챗GPT와 같은 거대 언어 모델의 근간이 되는 트랜스포머로 구축된 기존 비디오 모델보다 8배 낮은 연산량과 4배 낮은 메모리 사용량으로도 높은 정확도를 기록했으며, 추론 속도 또한 기존 트랜스포머 기반 모델 대비 4배의 매우 빠른 속도를 달성한 동영상 인식기술이 우리 연구진에 의해 개발됐다. 우리 대학 전기및전자공학부 김창익 교수 연구팀이 초고효율 동영상 인식 모델 ‘비디오맘바(VideoMamba)’를 개발했다고 23일 밝혔다. 비디오맘바는 기존 트랜스포머 기반 모델들이 가지고 있는 높은 계산 복잡성을 해결하기 위해 설계된 새로운 동영상 인식 모델이다. 기존의 트랜스포머 기반 모델들은 셀프-어텐션(self-attention)이라는 메커니즘에 의존해 계산 복잡도가 제곱으로 증가하는 문제를 가지고 있었다. 김창익 교수 연구팀의 비디오맘바는 선택적 상태 공간 모델(Selective State Space Model, Selective SSM)* 메커니즘을 활용해 선형 복잡도**로 효율적인 처리가 가능하다. 이를 통해 비디오맘바는 동영상의 시공간적 정보를 효과적으로 포착해 긴 종속성을 가진 동영상 데이터도 효율적으로 처리할 수 있다. *선택적 상태 공간 모델(Selective SSM): 입력에 따라 동적으로 매개변수를 조정하여 시퀀스 데이터의 문맥을 더 잘 이해하는 상태 공간 모델 **선형 복잡도:입력 데이터의 크기에 비례하여 계산량이 증가하는 알고리즘 복잡도 김창익 교수 연구팀은 동영상 인식 모델의 효율성을 극대화하기 위해 비디오맘바에 1차원 데이터 처리에 국한된 기존 선택적 상태 공간 메커니즘을 3차원 시공간 데이터 분석이 가능하도록 고도화한 시공간적 전방 및 후방 선택적 상태 공간 모델(spatio-temporal forward and backward SSM)을 도입했다. 이 모델은 순서가 없는 공간 정보와 순차적인 시간 정보를 효과적으로 통합해 인식 성능을 향상한다. 연구팀은 다양한 동영상 인식 벤치마크에서 비디오맘바의 성능을 검증했다. 연구팀이 개발한 비디오맘바는 영상 분석이 필요한 다양한 응용 분야에서 효율적이고 실용적인 솔루션을 제공할 수 있다. 예를 들어, 자율주행에서는 주행 영상을 분석해 도로 상황을 정확하게 파악하고, 보행자와 장애물을 실시간으로 인식해 사고를 예방할 수 있다. 의료 분야에서는 수술 영상을 분석해 환자의 상태를 실시간으로 모니터링하고 긴급 상황 발생 시 신속히 대처할 수 있다. 스포츠 분야에서는 경기 중 선수들의 움직임과 전술을 분석해 전략을 개선하고, 훈련 중 피로도나 부상 가능성을 실시간으로 감지해 예방할 수 있다. 연구를 주도한 김창익 교수는 “비디오맘바의 빠른 처리 속도와 낮은 메모리 사용량, 그리고 뛰어난 성능은 우리 생활에서의 다양한 동영상 활용 분야에 큰 장점을 제공할 것이다”고 연구의 의의를 설명했다. 이번 연구에는 전기및전자공학부 박진영 석박사통합과정, 김희선 박사과정, 고강욱 박사과정이 공동 제1 저자, 김민범 박사과정이 공동 저자, 그리고 전기및전자공학부 김창익 교수가 교신 저자로 참여했다. 연구 결과는 올해 9월 이탈리아 밀라노에서 열리는 컴퓨터 비전 분야 최우수 국제 학회 중 하나인 ‘European Conference on Computer Vision(ECCV) 2024’에서 발표될 예정이다. (논문명: VideoMamba: Spatio-Temporal Selective State Space Model) 한편, 이번 연구는 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행됐다. (No. 2020-0-00153, 기계학습 모델 보안 역기능 취약점 자동 탐지 및 방어 기술 개발)
2024.07.23 조회수 5696
인공지능으로 배터리 원소, 충방전 상태 인식 국제공동연구진이 인공지능 학습을 통해 배터리의 표면 형상만 보고 각 원소의 함량 그리고 충·방전 횟수에 대한 정보를 높은 정확도로 알아내는 영상인식 기술을 개발하여 화제다. 우리 대학 신소재공학과 홍승범 교수가 한국전자통신연구원(ETRI), 미국 드렉셀대학과 공동연구를 통해 다양한 조성과 각기 다른 충·방전 사이클의 NCM 양극재 주사전자현미경 사진을 합성곱 신경망* 기반 인공지능에 학습시켜 주요 원소 함량과 충·방전 상태를 99.6%의 높은 정확도로 맞추는 방법론을 세계 최초로 개발했다고 2일 밝혔다. *합성곱 신경망(콘볼루션 신경망, Convolutional Neural Network, CNN): 시각적 영상을 분석하는 데 사용되는 다층의 피드-포워드적인 인공신경망의 한 종류이다. 연구팀은 반도체 공정에서는 웨이퍼의 불량 검수를 위해 주사전자현미경(SEM)을 사용하는 반면 배터리 공정에서는 그런 경우가 드물고 연구 현장에서만 입자의 크기 분석을 위해 SEM을 활용하고, 열화된 배터리 소재의 경우 입자가 깨지고 부서지는 형상으로부터 신뢰성을 예측하는 것에 착안했다. 연구팀은 반도체 공정에서와 같이 배터리 공정도 자동화된 SEM으로 양극재 표면을 검수해서 원하는 조성대로 합성이 되었는지 수명은 신뢰성 있게 나올 것인지를 확인해 불량률을 줄일 수 있다면 획기적일 것으로 판단했다. 연구진은 자율주행차에 적용가능한 합성곱 신경망 기반 인공지능에 배터리 소재의 표면 영상을 학습시켜서 양극재의 주 원소 함량과 충·방전 사이클 상태를 예측할 수 있게 했다. 이런 방법론이 첨가제가 들어간 양극재에도 적용가능한 지 확인한 결과 함량은 상당히 정확하게 예측하는 반면 충·방전 상태는 정확도가 낮다는 단점을 알게 됐다. 이에 연구팀은 향후 다양한 공정을 통해서 만든 배터리 소재의 형상을 학습시켜 차세대 배터리의 조성 균일성 검수 및 수명 예측에 활용할 계획이다. 연구를 이끈 홍승범 교수는 “이번 연구는 세계 최초로 마이크론 스케일의 주사전자현미경 사진의 소재 구조 데이터를 통해 주 원소 함량과 충·방전 상태를 빠르고 정확하게 예측할 수 있는 인공지능 기반 방법론을 개발한 데 의의가 있고 이번 연구에서 개발된 현미경 영상 기반 배터리 소재의 함량 및 상태 감별 방법론은 향후 배터리 소재의 성능과 품질을 향상하는 데 중요한 역할을 하게 될 것으로 기대된다”고 전망했다. 한편, 이번 연구는 공동 제1 저자인 신소재공학과 졸업생 오지민 박사와 염지원 박사와 공동저자인 ETRI 김광만 박사와 미국 드렉셀 대학교 아가르(Agar) 교수가 참여하였고, 한국연구재단(2020M3H4A3081880, RS-2023-00247245), KAIST 글로벌특이점 사업의 지원 및 미국 연구진과의 국제공동연구를 통해 수행됐으며, 국제 학술지 ‘엔피제이 컴퓨테이셔날 머티리얼즈(npj computational materials)’에 지난 5월 4일 자 출판됐다. (논문 제목: Composition and state prediction of lithium-ion cathode via convolutional neural network trained on scanning electron microscopy images)
2024.07.02 조회수 8420

34141 대전광역시 유성구 대학로 291 한국과학기술원(KAIST) T.042-350-2114 F.042-350-2210(2220)

Copyright (C) 2020, Korea Advanced Institute of Science and Technology, All Rights Reserved.