다크나잇 속 조커가 ‘내가 되는’ 기술 개발
만약 영화 다크나잇을 보면서 화면 속 조커를 바라보는 것이 아니라, 내가 조커가 되어 고담시를 직접 바라본다면 어떨까. 관객의 시선이 아닌 등장인물의 눈으로 세상을 경험하는 영상 기술이 현실이 되고 있다. 우리 대학 연구진이 일반 영상만으로도 사용자가 직접 보는 시점의 영상을 생성하는 새로운 인공지능 모델을 개발했다.
으리 대학은 김재철AI대학원 주재걸 석좌교수 연구팀이 관찰자 시점의 영상만을 활용해 영상 속 인물이 실제로 보고 있었을 장면을 정밀하게 생성하는 인공지능 모델 ‘에고엑스(EgoX)’를 개발했다고 23일 밝혔다.
최근 증강현실(AR), 가상현실(VR), AI 로봇 기술이 빠르게 발전하면서 ‘내가 직접 보는 장면’을 그대로 담은 1인칭 시점 영상(Egocentric video)의 중요성이 커지고 있다. 그러나 고품질의 1인칭 영상을 얻기 위해서는 사용자가 고가의 액션캠이나 스마트 글래스를 직접 착용해야 하는 한계가 있었다. 또한 이미 촬영된 일반 영상(제3자 시점, Exocentric video)을 1인칭 시점으로 자연스럽게 변환하는 데에도 기술적 제약이 존재했다.
이번 기술은 단순히 화면을 회전시키는 수준을 넘어, 인물의 위치와 자세, 주변 공간의 3차원(3D) 구조를 종합적으로 이해한 뒤 이를 기반으로 1인칭 시점 영상을 재구성한다는 점이 특징이다.
기존 기술은 정지 이미지만 변환하거나 4대 이상의 카메라 영상이 필요한 경우가 많았다. 또한 빛의 방향이나 움직임이 복잡한 동영상에서는 화면이 어색해지는 문제가 있었다.
반면 EgoX는 단 하나의 3인칭 시점 영상만으로도 고품질의 1인칭 영상을 생성할 수 있다. 연구팀은 특히 인물의 머리 움직임과 실제 시야 사이의 상관관계를 정밀하게 모델링함으로써, 고개를 돌릴 때 시야가 자연스럽게 전환되는 모습까지 사실적으로 구현하는 데 성공했다.
이 기술은 특정 환경에 국한되지 않고 요리, 운동, 작업 등 다양한 일상 상황에서도 안정적인 성능을 보였다. 이를 통해 별도의 웨어러블 장치를 착용하지 않고도 기존에 축적된 영상으로부터 고품질의 1인칭 시점 데이터를 확보할 수 있는 새로운 가능성을 열었다는 평가를 받고 있다.
EgoX는 향후 다양한 산업 분야에 상당한 파급력을 미칠 것으로 기대된다. AR·VR 및 메타버스 분야에서는 일반 영상을 사용자가 직접 체험하는 듯한 몰입형 콘텐츠로 전환해 사용자 경험을 극대화할 수 있다.
또한 로봇이 사람의 행동을 보고 학습하는 모방 학습(Imitation Learning)의 핵심 데이터로 활용될 수 있어 로봇과 AI 학습 분야에도 기여할 것으로 전망된다. 스포츠 중계나 브이로그를 선수나 주인공의 시점으로 전환하는 등 새로운 형태의 영상 서비스도 가능해질 것으로 기대된다.
주재걸 석좌교수는 “이번 연구는 단순한 영상 변환 기술을 넘어, 인공지능이 사람의 ‘시야’와 ‘공간 이해’를 학습해 재구성했다는 점에서 의미가 크다”며 “앞으로는 기존에 촬영된 영상만으로도 누구나 몰입형 콘텐츠를 제작하고 경험할 수 있는 환경이 열릴 것으로 기대한다”고 말했다. 이어 “KAIST는 생성형 AI 기반 비디오 기술 분야에서 세계적 경쟁력을 확보해 나갈 것”이라고 덧붙였다.
이번 연구는 강태웅, 김기남 KAIST 박사과정, 김도현 서울대 학부연구생이 제 1저자로 참여했으며, 논문은 2025년 12월 9일 arXiv에 선공개되어 미국 NVIDIA 및 Meta 등의 빅테크들을 비롯한 AI 산업 및 학계의 큰 주목을 받았으며, 2026년 6월 3일 미국 콜로라도에서 열리는 국제 학술대회인 The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)에 공식 발표될 예정이다.
※ 논문명: EgoX: Egocentric Video Generation from a Single Exocentric Video, 논문링크: https://keh0t0.github.io/EgoX/
※ 저자: 강태웅(제1저자, KAIST), 김기남(제1저자, KAIST), 김도현 (제1저자, 서울대학교), 박민호 (공동저자, KAIST), 형준하 (공동저자, KAIST), 주재걸(교신저자, KAIST)
한편, 이번 연구는 과학기술정보통신부 재원으로 한국연구재단의 지원을 받은 개인기초연구사업 ‘생성형 인공지능 기술을 통한 사용자 중심 콘텐츠 생성 및 편집 기술 연구’ 과제와, 슈퍼컴퓨터 5호기 초고성능컴퓨팅 기반 R&D 혁신 지원 사업 ‘디퓨전 모델 기반 비디오 촬영 시점 변환 연구’ 과제의 지원을 받아 수행됐다.
KAIST-카카오뱅크, '설명 가능한 AI' 속도 11배 높였다. "금융 AI 신뢰도↑"
우리 대학 김재철AI대학원 최재식 교수 연구팀이 ㈜카카오뱅크(대표 윤호영)와 공동으로 인공지능(AI) 모델의 판단 근거를 실시간으로 설명할 수 있는 가속화 설명 기술을 개발했다고 밝혔다.
이번 연구 성과는 AI 모델의 예측 결과에 대한 기존 설명 알고리즘 대비 평균 8.5배, 최대 11배 이상 빠른 처리 속도를 달성해, 금융 서비스 등 실시간 의사결정이 필요한 분야에서 설명가능 인공지능(Explainable Artificial Intelligence, 이하 XAI) 기술의 실용화 가능성을 크게 높였다.
금융 분야에서는 AI 시스템이 내린 결정에 대한 명확한 설명이 필수적이다. 특히 대출 심사나 이상거래 탐지와 같이 고객의 권익과 직결된 서비스에서는 AI 모델의 판단 근거를 투명하게 제시해야 하는 규제 요구가 점차 강화되고 있다. 하지만 기존의 설명가능 인공지능(XAI) 기술은 정확한 설명을 생성하기 위해 수백에서 수천 개의 기준점(Baseline)을 반복 계산해야 하므로 막대한 연산 비용이 발생했다. 이는 실시간 서비스 환경에서 설명가능 인공지능 (XAI) 기술의 적용을 제약하는 주요 요인이었다.
최재식 교수 연구팀은 이러한 문제를 해결하기 위해 'ABSQR(Amortized Baseline Selection via Rank-Revealing QR)'이라는 설명 알고리즘 가속화 프레임워크를 개발했다. ABSQR은 AI 모델 설명 과정에서 생성되는 가치 함수 행렬(value function matrix)이 저차원 구조를 가진다는 점에 착안해, 수백 개의 기준점 중에서 핵심적인 소수만을 선별하는 방식을 도입했다. 기준점 개수에 비례하던 연산량을 선별된 중요 기준점 개수에만 비례하도록 획기적으로 줄여, 설명 정확도는 유지하면서도 계산 효율성을 극대화했다.
구체적으로 ABSQR은 두 단계로 작동한다. 첫 번째 단계에서는 특이값 분해(SVD)와 랭크 판별형 QR 분해(Rank-Revealing QR decomposition) 기법을 활용해 중요한 기준점들을 체계적으로 선별한다. 이는 기존의 무작위 샘플링 방식과 달 정보력 복원 유지를 목적으로 한 결정론적 선택 방법으로, 설명의 정확도를 보장하면서도 계산량을 획기적으로 줄일 수 있다. 두 번째 단계에서는 사전에 계산해둔 기준점의 가중치들을 클러스터 기반 검색을 통해 재사용하는 가속화 추론(amortized inference) 메커니즘을 도입해, 실시간 서비스 환경에서 모델 평가를 반복하지 않고도 모델의 예측 결과에 대한 설명을 제공할 수 있게 했다.
연구팀은 다양한 실제 데이터셋을 대상으로 한 실험을 통해 ABSQR의 우수성을 검증했다. 금융, 마케팅, 인구통계 등 5개 분야의 표준 데이터셋에 대한 테스트 결과, ABSQR은 모든 기준점을 사용하는 기존 설명 알고리즘 대비 평균 8.5배 빠른 처리 속도를 달성했으며, 최대 11배 이상의 속도 향상을 기록했다. 또한, 속도 향상에 따른 설명 정확도 저하를 최소화하여 기준 알고리즘 대비 최대 93.5%의 설명 정확도를 유지했다. 이는 실무 환경에서 요구되는 설명 품질을 충분히 만족하는 수준이다.
카카오뱅크 관계자는 "앞으로도 끊임없는 연구개발을 통해 금융 서비스의 신뢰도와 편의성을 높이고, 고객이 체감할 수 있는 혁신적인 금융 기술을 선보이겠다"고 밝혔다.
공동 제1 저자인 KAIST 이찬우, 박영진 연구원은 "금융 분야에서 실시간 적용을 위해 가장 중요한 과제인 가속화 문제를 해결한 방법론으로, 사용자에게 학습 모델에 대한 의사결정 원인을 실시간으로 제공할 수 있음을 입증했다"라고 연구의 의의를 설명했다. 이어 "이번 연구는 설명 알고리즘에서 불필요한 연산과 중요한 기준점 선택이 무엇인지에 대한 새로운 통찰을 제공하며, 설명 기술의 효율성 향상에 실질적으로 기여할 것"이라고 덧붙였다.
KAIST 김재철AI대학원 이찬우, 박영진 박사 과정 연구원과 카카오뱅크 금융기술연구소 이현근, 유예은 연구원이 공동 제1 저자로 참여한 이번 연구는 정보 및 지식 관리 분야의 세계 최고 권위 학술대회인 'CIKM 2025(ACM International Conference on Information and Knowledge Management)'에서 11월 12일에 발표되었다.
※ 논문명: Amortized Baseline Selection via Rank-Revealing QR for Efficient Model Explanation
※ 저자 정보:
- 공동 제1저자: 이찬우(KAIST 김재철AI대학원), 박영진(KAIST 김재철AI대학원), 이현근(카카오뱅크), 유예은(카카오뱅크)
- 공저자: 한대희(카카오뱅크), 최준호(KAIST 김재철AI대학원), 김건형(KAIST 김재철AI대학원)
- 교신저자: 김나리(KAIST 김재철AI대학원), 최재식(KAIST 김재철AI대학원)
※ DOI: https://doi.org/10.1145/3746252.3761036
한편, 이번 연구성과는 카카오뱅크의 산학 연구과제 ‘금융분야 설명가능 인공지능 알고리즘 고도화 연구’와 과기정통부·정보통신기획평가원(IITP)의 지원 과제 ‘플러그앤플레이 방식으로 설명가능성을 제공하는 인공지능 기술 개발 및 인공지능 시스템에 대한 설명 제공 검증'를 통해 수행됐다.
AI로 인간 집단행동 예측! 세계 최고 학회에서 1위.. 23년 만의 쾌거
우리 대학은 김재철AI대학원 신기정 교수 연구팀이 개인의 나이, 역할 등 특성이 집단 관계에 미치는 영향을 분석해 복잡한 사회 집단행동을 예측하는 획기적인 AI 기술을 개발했다고 9일 밝혔다.
연구팀은 이 기술로 미국전기전자학회(IEEE) 주관 세계적 데이터마이닝 학술대회 'IEEE ICDM'에서 최우수 논문상(Best Paper Award)을 수상하는 쾌거를 이루었다. 이는 전 세계 785편 중 단 1편에게만 주어지는 최고 권위의 상으로, 한국 대학 연구팀으로서는 23년 만의 수상으로 KAIST가 다시 한 번 세계 연구 무대에서 기술 리더십을 입증했다.
오늘날 온라인 커뮤니티·연구 협업·단체 채팅 등 다수가 동시에 참여하는 집단 상호작용은 사회 곳곳에서 폭발적으로 늘고 있다. 그러나 이러한 집단 행동이 어떤 구조로 형성되고, 개인의 특성이 어떻게 영향을 미치는지를 동시에 정밀하게 설명해 내는 기술은 부족했다.
신기정 교수 연구팀은 이 한계를 뛰어넘기 위해 개인 특성과 집단 구조를 실제처럼 맞물리게 재현하는 AI 모델 ‘NoAH(Node Attribute-based Hypergraph Generator)’를 개발했다.
NoAH는 사람들의 특징이 모이면 어떤 그룹 행동이 만들어지는지를 설명하고 흉내내는 인공지능이다. 예를 들어, 어떤 사람이 어떤 관심사를 갖고 있는지, 어떤 역할을 하는지 등의 정보들이 실제로 어떻게 모여서 그룹 행동을 만들어 내는지를 분석해 그대로 재현할 수 있다.
그래서 NoAH는 사람의 성향과 관계를 동시에 반영해 ‘현실 같은 집단 행동’을 만들어 내는 AI로, 전자상거래에서의 구매 조합, 온라인 토론의 확산 과정, 연구자들의 논문 공저 네트워크 등 다양한 실제 집단 행동을 기존 모델보다 훨씬 더 사실적으로 재현하는 것으로 나타났다.
신기정 교수는 “이번 연구는 집단의 구조뿐 아니라 개인의 특성까지 함께 고려해, 복잡한 상호작용을 입체적으로 이해할 수 있는 새로운 AI 패러다임을 열었다”며 “온라인 커뮤니티, 메신저, 소셜 네트워크 분석 등이 한층 정밀해질 것”이라고 말했다.
이번 연구는 신기정 교수와 KAIST 김재철AI대학원 소속 전재완·윤석범 석사과정, 최민영·이건 박사과정으로 구성된 연구팀이 수행하였으며, IEEE ICDM에서 11월 18일 자 발표하였다.
※논문명: Attributed Hypergraph Generation with Realistic Interplay Between Structure and Attributes
논문원본: https://arxiv.org/abs/2509.21838
한편, 신 교수 연구팀은 이번 수상 논문을 포함해 올해 IEEE ICDM에서 총 네 편의 논문을 발표했다. 또한 2023년에도 같은 학술대회에서 상위 4등인 Best Student Paper Runner-up을 수상한 바 있다.
이 성과는 정보통신기획평가원의 지원을 받은 AI 연구거점 프로젝트, 인공지능 대학원 지원(KAIST), 인공지능 에이전트 협업기반 신경망 변이 및 지능 강화 기술 개발 과제의 지원을 받았다.
AI가 어떻게 생각하는가?...의사결정 내부 구조 첫 시각화
딥러닝 기반 이미지 인식 기술이 빠르게 고도화되고 있지만, AI가 내부에서 어떤 기준으로 이미지를 보고 판단하는지는 여전히 명확히 설명하기 어려운 영역으로 남아 있다. 특히 대규모 모델이 어떤 개념(예: 고양이 귀, 자동차 바퀴 등)을 어떻게 조합해 결론을 내리는지 분석하는 기술은 오랫동안 해결해야 할 과제로 제기돼 왔다.
우리 대학은 김재철AI대학원 최재식 교수 연구팀이 AI가 어떤 근거로 판단하는지를 인간이 이해할 수 있도록 보여주는‘설명가능성(XAI, Explainable AI)’분야에서, 모델 내부의 개념 형성 과정을 회로(circuit) 단위로 시각화하는 새로운 XAI 기술을 개발했다고 26일 밝혔다.
이번 연구는 ‘AI가 어떻게 생각하는지’를 구조적으로 들여다볼 수 있도록 한 중요한 진전으로 평가된다.
딥러닝 모델 내부에는 인간의 뇌처럼 ‘뉴런(Neuron)’이라는 기본 계산 단위가 존재한다. 뉴런은 이미지 속 작은 특징—예를 들어 귀 모양, 특정 색, 윤곽선 등—을 감지하는 기능을 갖고 있으며, 값(신호)을 계산해 다음 단계로 전달한다.
반면 ‘회로(circuit)’는 이러한 뉴런 여러 개가 서로 연결되어 하나의 의미(개념)를 함께 인식하는 구조를 말한다. 예를 들어 ‘고양이 귀’라는 개념을 인식하기 위해서는 귀의 윤곽을 감지하는 뉴런, 삼각형 형태를 감지하는 뉴런, 털 색 패턴을 감지하는 뉴런 등 여러 뉴런이 순차적으로 작동해야 하며, 이들이 하나의 기능 단위(회로)를 이룬다.
지금까지의 설명 기술은 “특정 뉴런이 특정 개념을 본다”는 단일 뉴런 중심의 접근이 많았다. 그러나 실제 딥러닝 모델은 여러 뉴런이 협력하는 회로 구조로 개념을 형성하며, KAIST 연구팀은 이 점에 착안해 AI의 개념 표현 단위를 '뉴런 → 회로'로 확장해 해석하는 기술을 제시했다.
연구팀이 개발한 ‘세분화된 개념회로(Granular Concept Circuits, GCC)’ 기술은 이미지 분류 모델이 내부에서 개념을 형성하는 과정을 회로 단위로 분석하고 시각화하는 새로운 방식이다.
GCC는 뉴런 민감도(Neuron Sensitivity), 의미 흐름 점수(Semantic Flow)를 계산해 회로를 자동적으로 추적한다. 뉴런 민감도는 특정 뉴런이 어떤 특징에 얼마나 민감하게 반응하는지, 의미 흐름 점수는 그 특징이 다음 개념으로 얼마나 강하게 전달되는지를 보여주는 지표로, 이를 통해 색·질감 같은 기본 특징이 어떻게 상위 개념으로 조립되는지 단계적으로 시각화할 수 있다.
연구팀은 특정 회로를 잠시 비활성화(ablation)하는 실험을 수행했다. 그 결과, 회로가 담당하던 개념이 사라지면서 AI의 예측이 실제로 달라지는 현상이 나타났다.
즉, 해당 회로가 실제로 그 개념을 인식하는 기능을 수행하고 있음을 직접적으로 입증한 것이다.
이번 연구는 복잡한 딥러닝 모델 내부에서 개념이 형성되는 실제 구조를 세밀한 회로 단위로 드러낸 최초의 연구로 평가된다. 이를 통해 AI 판단 근거의 투명성 강화, 오분류 원인 분석, 편향(Bias) 검출, 모델 디버깅 및 구조 개선, 안전성·책임성 향상 등 설명가능성(XAI) 전반에서 실질적인 응용 가능성을 제시한 것이다.
연구팀은 “AI가 내부에서 만드는 개념 구조를 사람이 이해할 수 있는 방식으로 보여주는 기술”이라며 “이번 연구는 AI가 ‘어떻게 생각하는지’를 과학적으로 연구할 수 있는 출발점”이라고 밝혔다.
최재식 교수는 “복잡한 모델을 단순화해 설명하던 기존 방식과 달리, 모델 내부를 세부 회로 단위로 정밀하게 해석한 최초의 접근”이라며 “AI가 학습한 개념을 자동으로 추적·시각화할 수 있음을 입증했다”고 말했다.
KAIST 김재철AI대학원 권다희 박사과정과 이세현 박사과정이 공동 제1 저자로 참여한 이번 연구는 국제 학술대회 `국제 컴퓨터 비전 학술대회 (International Conference on Computer Vision, ICCV)’에서 10월 21일 발표되었다.
※ 논문명 : Granular Concept Circuits: Toward a Fine-Grained Circuit Discovery for Concept Representations
※ 논문링크: https://openaccess.thecvf.com/content/ICCV2025/papers/Kwon_Granular_Concept_Circuits_Toward_a_Fine-Grained_Circuit_Discovery_for_Concept_ICCV_2025_paper.pdf
한편 이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 사람중심핵심원천기술개발사업의 일환으로 '플러그앤플레이 방식으로 설명가능성을 제공하는 인공지능 기술 개발 및 인공지능 시스템에 대한 설명 제공 검증' 과제, AI 연구거점 프로젝트 및 한국과학기술원 인공지능 대학원 프로그램과제의 지원을 받고 방위사업청과 국방과학연구소의 지원으로 한국과학기술원 미래 국방 인공지능 특화연구센터에서 수행됐다.
AI가 잘 작동할지 미리 안다. 그래프 학습으로 예측 속도 43배↑
목표 과업에 좋은 성능을 보이는 신경망 구조를 찾는 것은 큰 비용이 소요되어, 신경망의 성능을 효율적으로 예측하는 방법론이 활발히 연구되었다. 우리 대학 김재철AI대학원 소속 김선우 박사과정, 황현진 석박통합과정(지도교수 신기정)은 그래프 기반 사전학습을 이용하여, 기존의 효과적인 방법론의 성능을 개선하면서, 약 43배 빠른 예측 속도를 보이는 예측 기법을 개발하였다.
인공지능 모델은 최근 다양한 분야에서 괄목할 성과를 거두었지만, 모델의 신경망 구조가 해당 모델의 성능에 영향을 크게 미치는 특징이 있다. 그러나 목표 과업에 적합한 신경망 구조를 알고자 직접적으로 해당 신경망 구조를 학습 및 평가하는 방식은 큰 비용이 소요된다. 이를 해결하기 위해, 다른 인공지능 모델을 사용하여 특정 신경망 구조의 성능을 예측하는 방식이 사용되었다. 경량화된 예측 모델은 예측 속도는 빠르나 예측 성능이 낮다는 한계가 있었고, 최근 개발된 방법론은 예측 정확도는 높으나 예측 속도가 매우 느린 문제가 있었다.
우리 대학 김재철AI대학원 소속 김선우 박사과정, 황현진 석박통합과정(지도교수 신기정)은 경량화된 예측 모델에 특수한 그래프 기반 사전학습 방식을 적용하여, 해당 모델이 최근 방법론만큼의 예측 성능을 보이도록 개선하면서, 빠른 예측 속도를 유지하도록 하는 데 성공하였다.
연구팀이 제안한 FGP라는 그래프 기반 사전학습 기법은, 신경망 모델이 갖는 주요한 특징인 정보 흐름을 예측 모델이 포착할 수 있도록 하는 방식이다. 정보 흐름이란 신경망 내 순전파와 역전파를 의미하는 개념으로, 인공지능 모델의 학습에 핵심적이다. 연구팀은 그래프로 표현된 신경망 구조에서 위상 순서에 따라 벡터를 전파 시켜, 해당 신경망 구조의 정보 흐름을 모사한 표현 벡터를 생성하였다. 이후 신경망 성능 예측 모델은 해당 표현 벡터를 생성하는 사전학습 과정을 거치면서, 신경망의 정보 흐름을 포착하는 방식을 학습하게 된다.
연구팀을 다양한 실험을 통해 경량화된 예측 모델이 최신 모델보다 약 43배 빠르게 예측을 수행하면서, 최신 모델 대비 개선된 예측 성능을 보이는 것을 검증하였으며, 기존 사전학습 방법론과 비교하여도 성능 예측 과업 및 신경망 탐색 과업 등 다양한 응용 분야에서 더 효과적임을 검증하였다.
김선우 연구원은 “그래프의 위상 순서를 적절히 응용한 것이 본 방법론의 핵심”이라고 설명했다. 또한 “이 아이디어가 신경망 구조를 나타내는 그래프뿐만이 아니라, 위상 순서가 존재하는 그래프로 표현될 수 있는 다양한 데이터로 확장될 수 있기에, 더 넓은 분야에서 응용되기를 기대한다”고 덧붙였다.
본 연구는 인공지능 분야에서 권위 있는 국제 학술대회인 제39회 신경망 정보 처리 시스템 학회(39th Conference on Neural Information Processing System, 약칭 NeurIPS 2025)에 “Learning to Flow from Generative Pretext Tasks for Neural Architecture Encoding”이라는 제목으로 출판될 예정이다.
이 성과는 정보통신기획평가원의 지원을 받은 “강건하고 공정하며 확장 가능한 데이터 중심의 연속 학습 과제”과제, “인공지능 자율성장을 위한 멀티에이전트 기반 복합지능 강화 기술 개발”과제, “AI 거점 연구 프로젝트”과제의 성과다.
숨겨진 다자 간 관계를 추적·복원하는 AI '마리오' 개발
회의실에 여러 사람이 동시에 모여 회의하는 경우처럼, 다수의 객체가 동시에 상호작용하는 고차원 상호작용(higher-order interaction)은 다양한 분야에서 발생하며, 실세계의 복잡한 관계를 담고 있다. 하지만 기술적 제약으로 인해 많은 분야에서는 주로 개별 쌍 간의 저차원 정보만 수집돼, 전체 맥락이 손실되고 활용에 제약이 따랐다. KAIST 연구진이 이처럼 불완전한 정보만으로도 고차원 상호작용을 정밀하게 복원*하는 AI ‘마리오(MARIOH)’를 개발하며, 소셜 네트워크, 뇌과학, 생명과학 등 다양한 분야에서 혁신적 분석 가능성을 열었다.
*복원: 사라지거나 관측되지 않은 원래 구조를 추정/재구성하는 것
우리 대학 김재철AI대학원의 신기정 교수 연구팀이 저차원 상호작용 정보만으로 고차원 상호작용 구조를 높은 정확도로 복원할 수 있는 인공지능 기술인 ‘마리오(이하 MARIOH, Multiplicity-Aware Hypergraph Reconstruction)’를 개발했다고 5일 밝혔다.
고차원 상호작용 복원이 어려운 이유는 동일한 저차원 상호작용 구조로부터 파생될 수 있는 고차원 상호작용의 가능성이 무수히 많기 때문이다.
연구팀이 개발한 MARIOH의 핵심 아이디어는 저차원 상호작용의 다중도(multiplicity) 정보를 활용해, 해당 구조로부터 파생될 수 있는 고차원 상호작용의 후보 수를 획기적으로 줄이는 데 있다.
더불어, 효율적인 탐색 기법을 통해 유망한 상호작용 후보를 신속하게 식별하고, 다중도 기반의 심층 학습 기술을 활용해 각 후보가 실제 고차원 상호작용일 가능성을 정확하게 예측한다.
연구팀은 10개의 다양한 실세계 데이터 셋을 대상으로 한 실험 결과, MARIOH는 기존 기술 대비 최대 74% 높은 정확도로 고차원 상호작용을 복원하는 데 성공했다.
예를 들어, 논문 공저 관계 데이터(출처: DBLP)에서는 98% 이상의 복원 정확도를 달성해, 약 86% 수준에 머무는 기존 기술을 크게 앞질렀다. 또한, 복원된 고차원 구조를 활용할 경우, 예측, 분류 등 다양한 작업에서의 성능이 향상되는 것으로 나타났다.
신기정 교수는 “MARIOH는 단순화된 연결 정보 정보에만 의존하던 기존 접근에서 벗어나, 실제 세계의 복잡한 연결 관계를 정밀하게 활용할 가능성을 열어 준다”라며, “단체 대화나 협업 네트워크를 다루는 소셜 네트워크 분석, 단백질 복합체나 유전자 간 상호작용을 분석하는 생명과학, 다중 뇌 영역 간 동시 활동을 추적하는 뇌과학 등 다양한 분야에서 폭넓게 활용될 수 있을 것”이라고 밝혔다.
김재철AI대학원의 이규한 석박통합과정(現 GraphAI 소프트웨어 엔지니어)과 이건 석박사통합과정, 신기정 교수가 저자로 참여한 이번 연구는 지난 5월에 홍콩에서 열린 제41회 IEEE 국제 데이터공학 학회(IEEE International Conference on Data Engineering, IEEE ICDE)에서 발표됐다.
※논문명: MARIOH: Multiplicity-Aware Hypergraph Reconstruction
※DOI: https://doi.ieeecomputersociety.org/10.1109/ICDE65448.2025.00233
한편, 이번 연구는 정보통신기획평가원의 지원을 받은 ‘EntireDB2AI: 전체 관계형 데이터베이스를 종합적으로 활용하는 심층 표현 학습 및 예측 원천기술과 소프트웨어 개발’ 과제와 한국연구재단의 지원을 받은 ‘그래프 파운데이션 모델: 다양한 모달리티 및 도메인에 적용 가능한 그래프 기반 기계 학습’과제의 성과다.
‘뻔하지 않은 창의적인 의자’그리는 AI 기술 개발
최근 텍스트 기반 이미지 생성 모델은 자연어로 제공된 설명만으로도 고해상도·고품질 이미지를 자동 생성할 수 있다. 하지만, 대표적인 예인 스테이블 디퓨전(Stable Diffusion) 모델에서 ‘창의적인’이라는 텍스트를 입력했을 경우, 창의적인 이미지 생성은 아직은 제한적인 수준이다. KAIST 연구진이 스테이블 디퓨전(Stable Diffusion) 등 텍스트 기반 이미지 생성 모델에 별도 학습 없이 창의성을 강화할 수 있는 기술을 개발해, 예컨대 뻔하지 않은 창의적인 의자 디자인도 인공지능이 스스로 그려낼 수 있게 됐다.
우리 대학 김재철AI대학원 최재식 교수 연구팀이 네이버(NAVER) AI Lab과 공동 연구를 통해, 추가적 학습 없이 인공지능(AI) 생성 모델의 창의적 생성을 강화하는 기술을 개발했다.
최 교수 연구팀은 텍스트 기반 이미지 생성 모델의 내부 특징 맵을 증폭해 창의적 생성을 강화하는 기술을 개발했다. 또한, 모델 내부의 얕은 블록들이 창의적 생성에 중요한 역할을 한다는 것을 발견하고, 특징 맵을 주파수 영역으로 변환 후, 높은 주파수 영역에 해당하는 부분의 값을 증폭하면 노이즈나 작게 조각난 색깔 패턴의 형태를 유발하는 것을 확인했다. 이에 따라, 연구팀은 얕은 블록의 낮은 주파수 영역을 증폭함으로써 효과적으로 창의적 생성을 강화할 수 있음을 보였다.
연구팀은 창의성을 정의하는 두 가지 핵심 요소인 독창성과 유용성을 모두 고려해, 생성 모델 내부의 각 블록 별로 최적의 증폭 값을 자동으로 선택하는 알고리즘을 제시했다.
개발된 알고리즘을 통해 사전 학습된 스테이블 디퓨전 모델의 내부 특징 맵을 적절히 증폭해 추가적인 분류 데이터나 학습 없이 창의적 생성을 강화할 수 있었다.
연구팀은 개발된 알고리즘을 사용하면 기존 모델 대비 더욱 참신하면서도 유용성이 크게 저하되지 않은 이미지를 생성할 수 있음을 다양한 측정치를 활용해 정량적으로 입증했다.
특히, 스테이블 디퓨전 XL(SDXL) 모델의 이미지 생성 속도를 대폭 향상하기 위해 개발된 SDXL-Turbo 모델에서 발생하는 모드 붕괴 문제를 완화함으로써 이미지 다양성이 증가한 것을 확인했다. 나아가, 사용자 연구를 통해 사람이 직접 평가했을 때도 기존 방법에 비해 유용성 대비 참신성이 크게 향상됨을 입증했다.
공동 제1 저자인 KAIST 한지연, 권다희 박사과정은 "생성 모델을 새로 학습하거나 미세조정 학습하지 않고 생성 모델의 창의적인 생성을 강화하는 최초의 방법론ˮ이라며 "학습된 인공지능 생성 모델 내부에 잠재된 창의성을 특징 맵 조작을 통해 강화할 수 있음을 보였다ˮ 라고 말했다.
이어 “이번 연구는 기존 학습된 모델에서도 텍스트만으로 창의적 이미지를 손쉽게 생성할 수 있게 됐으며, 이를 통해 창의적인 상품 디자인 등 다양한 분야에서 새로운 영감을 제공하고, 인공지능 모델이 창의적 생태계에서 실질적으로 유용하게 활용될 수 있도록 기여할 것으로 기대된다”라고 밝혔다.
KAIST 김재철AI대학원 한지연 박사과정과 권다희 박사과정이 공동 제1 저자로 참여한 이번 연구는 국제 학술지 `국제 컴퓨터 비전 및 패턴인식 학술대회 (IEEE Conference on Computer Vision and Pattern Recognition, CVPR)’에서 6월 15일 발표됐다.
※논문명 : Enhancing Creative Generation on Stable Diffusion-based Models
※DOI: https://doi.org/10.48550/arXiv.2503.23538
한편 이번 연구는 KAIST-네이버 초창의적 AI 연구센터, 과학기술정보통신부의 재원으로 정보통신기획평가원의 지원을 받은 혁신성장동력프로젝트 설명가능인공지능, AI 연구거점 프로젝트, 점차 강화되고 있는 윤리 정책에 발맞춰 유연하게 진화하는 인공지능 기술 개발 연구 및 KAIST 인공지능 대학원 프로그램과제의 지원을 받았고 방위사업청과 국방과학연구소의 지원으로 KAIST 미래 국방 인공지능 특화연구센터에서 수행됐다.
새벽에도 답해주는 ‘인공지능 조교’ 강의 첫 도입·성공
“처음에는 인공지능 조교(VTA)에 대한 기대가 크지 않았지만, 밤늦게 갑자기 궁금해진 개념을 질문했을 때도 즉각적으로 답을 받을 수 있어서 매우 유용했다”며 “특히 인간 조교에게 질문하기 망설여졌던 부분들도 부담 없이 물어볼 수 있었고, 오히려 더 많이 질문하면서 수업 이해도가 높아졌다”(수강생 양지원 박사과정 학생)
우리 대학 김재철AI대학원 최윤재 교수와 산업디자인학과 홍화정 교수 공동 연구팀이 대형 강의에서도 학생 개개인에게 맞춤형 피드백을 제공할 수 있는 ‘인공지능 조교(Virtual Teaching Assistant, 이하 VTA)’를 개발해 실제 강의에 성공적으로 적용했다고 5일 밝혔다.
이번 연구는 2024년 가을학기 석·박사과정 학생 477명이 수강한 김재철AI대학원의 ‘인공지능을 위한 프로그래밍’ 교과목에 VTA를 도입해, 그 효과와 실용 가능성을 실제 교육 현장에서 대규모로 검증한 국내 최초 수준의 사례다.
이번 연구에서 개발된 인공지능 조교는 일반적인 챗GPT나 기존 챗봇과는 다른, 수업에 특화된 에이전트다. 연구팀은 강의 슬라이드, 코딩 실습 자료, 강의 영상 등 방대한 수업 자료를 자동으로 벡터화하고, 이를 기반으로 질의응답이 이뤄지는 검색증강생성(RAG: Retrieval Augmented Generation) 구조를 구현했다.
학생이 질문을 하면, 시스템은 질문의 맥락을 바탕으로 가장 관련된 수업 자료를 실시간으로 검색한 뒤, 응답을 생성한다. 이 과정은 단순한 대형언어모델(LLM)을 호출하는 것이 아니라, 수업 내용에 대응하는 자료 기반 질의응답으로 설계되어, 학습 신뢰도와 정확도를 모두 확보한 지능형 시스템이라 할 수 있다.
이번 연구의 제1 저자이자 해당 수업의 책임 조교였던 권순준 박사과정은 “기존에는 수업 때 이미 설명된 내용이나 간단한 개념 정의처럼 반복적이고 기본적인 질문이 상당히 많아, 조교들이 핵심적인 질문에 집중하기 어려운 상황이었다”며 “VTA 도입 이후에는 학생들이 반복 질문을 줄이고 꼭 필요한 질문에 집중하면서, 조교로서의 부담이 눈에 띄게 줄었고 보다 고차원적인 학습 지원에 집중할 수 있었다”고 전했다.
실제로 작년 수업 대비 조교가 직접 응답해야 하는 질문량은 약 40%가량 감소한 것으로 나타났다.
14주간 운영된 VTA는 전체 수강생의 절반 이상이 실제로 활용했으며, 총 3,869건에 달하는 질의응답이 기록됐다. 특히 인공지능 비전공자나 사전 지식이 부족한 학생일수록 VTA 사용 빈도가 높게 나타났으며, 이는 VTA가 학습 보조 수단으로 실질적인 도움을 주었음을 시사한다.
또한 분석 결과, 학생들은 인간 조교보다 VTA에게 이론적 개념에 대한 질문을 더 자주 하는 경향을 보였다. 이는 학생이 평가받거나 불편함을 느끼지 않고 자유롭게 질문할 수 있는 환경을 인공지능 조교가 제공함으로써, 학습 참여를 보다 적극적으로 유도한 것으로 해석된다.
수업 전·중·후 3회에 걸친 설문조사 결과, 학생들은 VTA에 대해 초기보다 높은 신뢰도와 응답 적절성, 편안함을 보고했다. 특히 인간 조교에게 질문을 주저한 경험이 있는 학생들일수록 인공지능 조교와의 상호작용에서 더 높은 만족도를 나타냈다.
해당 수업의 담당 교수이자 연구를 이끈 최윤재 교수는 “인공지능 기술이 수강생과 강사진 모두에게 실질적 도움을 줄 수 있다는 것을 확인했다는 데 연구의 의의가 있다. 앞으로 더욱 다양한 수업으로 해당 기술이 확대되기를 기대한다”고 말했다.
연구팀은 시스템의 소스코드를 개발자들의 플랫폼 깃허브(GitHub)에 공개해 다른 교육기관과 연구자들이 이를 바탕으로 맞춤형 학습 보조 시스템을 개발하고 교육 현장에 적용할 수 있도록 지원하고 있다.
관련 논문은 자연어처리(NLP) 분야 최고 권위의 국제 학회 중 하나인 ‘ACL 2025 인더스트리 트랙(Industry Track)’에 2025년 5월 9일 자로 채택되며 연구의 우수성을 인정받았다.
※ 논문 제목: A Large-Scale Real-World Evaluation of an LLM-Based Virtual Teaching Assistant
한편 이번 연구는 KAIST 교수학습혁신센터와 한국연구재단, 정보통신기획평가원의 지원을 받아 수행됐다.
화합물 생성AI 기술로 신약 개발 앞당긴다
신약 개발이나 재료과학과 같은 분야에서는 원하는 화학 특성 조건을 갖춘 물질을 발굴하는 것이 중요한 도전으로 부상하고 있다. 우리 대학 연구팀은 화학반응 예측이나 독성 예측, 그리고 화합물 구조 설계 등 다양한 문제를 동시에 풀면서 기존의 인공지능 기술을 뛰어넘는 성능을 보이는 기술을 개발했다.
김재철AI대학원 예종철 교수 연구팀이 분자 데이터에 다중 모달리티 학습(multi-modal learning) 기술을 도입해, 분자 구조와 그 생화학적 특성을 동시에 생성하고 예측이 가능해 다양한 화학적 과제에 광범위하게 활용가능한 인공지능 기술을 개발했다고 25일 밝혔다.
심층신경망 기술을 통한 인공지능의 발달 이래 이러한 분자와 그 특성값 사이의 관계를 파악하려는 시도는 꾸준히 이루어져 왔다. 최근 비 지도 학습(unsupervised training)을 통한 사전학습 기법이 떠오르면서 분자 구조 자체로부터 화합물의 성질을 예측하는 인공지능 연구들이 제시되었으나 새로운 화합물의 생성하면서도 기존 화합물의 특성 예측이 동시에 가능한 기술은 개발되지 못했다.
연구팀은 화학 특성값의 집합 자체를, 분자를 표현하는 데이터 형식으로 간주해 분자 구조의 표현식과 함께 둘 사이의 상관관계를 아울러 학습하는 AI학습 모델을 제안했다. 유용한 분자 표현식 학습을 위해 컴퓨터 비전 분야에서 주로 연구된 다중 모달리티 학습 기법을 도입해, 두 다른 형식의 데이터를 통합하는 방식으로, 바라는 화합물의 성질을 만족하는 새로운 화합물의 구조를 생성하거나 주어진 화합물의 성질을 예측하는 생성 및 성질 특성이 동시에 가능한 모델을 개발했다.
연구팀이 제안한 모델은 50가지 이상의 동시에 주어지는 특성값 입력을 따르는 분자 구조를 예측하는 등 분자의 구조와 특성 모두의 이해를 요구하는 과제를 해결하는 능력을 보였으며, 이러한 두 데이터 정보 공유를 통해 화학반응 예측 및 독성 예측과 같은 다양한 문제에도 기존의 인공지능 기술을 뛰어넘는 성능을 보이는 것으로 확인됐다.
이 연구는 독성 예측, 후보물질 탐색과 같이 많은 산업계에서 중요하게 다뤄지는 과제를 포함해, 더 광범위하고 풍부한 분자 양식과 고분자, 단백질과 같은 다양한 생화학적 영역에 적용될 수 있을 것으로 기대된다.
예종철 교수는 “새로운 화합물의 생성과 화합물의 특성 예측 기술을 통합하는 화학분야의 새로운 생성 AI기술의 개척을 통해 생성 AI 기술의 저변을 넓힌 것에 자부심을 갖는다”고 말했다.
예종철 교수 연구팀의 장진호 석박통합과정이 제1 저자로 참여한 이번 연구 결과는 국제 학술지 ‘네이처 커뮤니케이션즈(Nature Communications)’지난 3월 14일 자 온라인판에 게재됐다. (논문명 : Bidirectional Generation of Structure and Properties Through a Single Molecular Foundation Model)
한편 이번 연구는 한국연구재단의 AI데이터바이오선도기술개발사업으로 지원됐다.
기존 대비 50배 이상 압축 가능한 뉴크론 개발
희소 행렬에 해당하는 2억 건의 비디오 시청 내역을 10킬로바이트(KB) 크기로 성공적으로 압축할 수 있으며 기존 기술을 이용해 1기가바이트(GB)로 압축한 것보다도 압축으로 인한 정보 손실이 적은 기술이 개발됐다.
우리 대학 김재철AI대학원 신기정 교수 연구팀은 기존 대비 50배 이상 우수한 압축률의 희소 행렬 압축 기술인 뉴크론(NeuKron)을 개발했다고 9일 밝혔다.
희소 행렬이란 높은 비율의 원소가 0인 행렬을 의미하며, 전자상거래 구매 내역, 소셜 네트워크에서의 친구 관계, 문서와 단어 간 포함 관계 등 다양한 종류의 데이터가 희소 행렬 형태로 저장 및 활용된다. 예를 들어, 전자상거래 구매 내역의 경우, 행렬의 각 행이 각 구매자에 해당하고, 각 열이 각 상품에 해당하며, 각 원소는 해당 구매자가 해당 상품을 구매한 수량을 의미한다. 예를 들어, i행 j열 원소는, i번째 구매자가, j번째 상품을 구매한 수량에 해당한다. 각 구매자는 전체 상품 중, 일부만을 구매하기 때문에, 해당 행렬은 원소 대부분이 0인 희소 행렬이다.
실세계 데이터로부터 얻어진 대규모 희소 행렬을 효율적으로 다루기 위해서는, 압축 기술이 필수적이다. 예를 들어, 1억 명의 구매자와 1억 개의 상품으로 구성된 전자상거래 구매 내역의 경우, 행렬은 전체 구매자 수와 전체 상품 수의 곱에 해당하는 1경 개의 원소를 갖는다. 또한, 희소 행렬 압축은 많은 응용문제에 활용되고 있다. 예를 들어, 많은 추천시스템은 희소 행렬을 손실 압축한 뒤, 복원하는 과정을 통해, 각 구매자가 각 상품을 구매하고자 하는 의향을 추론한다. 또한, 이때의 복원 오차를 기반으로 이상 데이터를 탐지하고 교정하기도 하며, 매개 변수 행렬 압축을 통해서 인공지능 모델을 경량화하기도 한다.
신기정 교수팀은 희소 행렬의 압축률을 크게 개선할 수 있는 손실 압축 기술인 뉴크론을 개발했다. 뉴크론은 실세계 데이터에서 흔하게 발견되는 자기 유사성에 착안했는데, 자기 유사성이란 대상의 일부분을 확대해 볼 때, 대상의 전체와 닮은 패턴이 나타나는 성질을 의미한다. 뉴크론은 크게 세 가지 단계로 구성된다. 첫 번째 단계는, 행렬이 자기 유사적인 구조를 가질 수 있도록 행과 열을 재배열하는 것이며, 두 번째 단계는, 재배열된 행렬을 재귀적으로 분해하는 과정을 통해, 행렬의 각 원소를 위치 수열로 인코딩하는 것이다. 마지막 단계는 각 위치 수열을 입력으로 행렬의 원소값을 추론하는 순환신경망을 학습하는 것이다. 이때, 순환신경망은 행렬의 자기 유사성을 기반으로 정확한 추론을 수행한다.
신기정 교수팀의 뉴크론 기술은 희소 행렬뿐 아니라, 희소 텐서의 압축에도 적용할 수 있다. 행렬이 행과 열로 구성된 2차원 데이터라면, 텐서는 행렬을 3차원 이상으로 일반화한 것이다. 예를 들어, 3차원 텐서는 행렬을 수직으로 쌓은 형태이다. 실제로 행렬과 텐서를 포함 10개의 실세계 데이터 세트를 사용해 검증한 결과, 동일 복원 오차 하에서, 뉴크론은 기존 기술 대비 50배 이상 우수한 압축률을 보였다.
우리 대학 김재철AI대학원 권태형 박사과정, 고지훈 석박사통합과정이 공동 제1저자, 전북대학교 정진홍 교수가 공동 저자로 참여한 이번 연구는 올해 5월에 미국 오스틴에서 열리는 미 컴퓨터협회 웹 학술대회(이하 ACM WWW)에서 발표될 예정이다. (논문 제목: NeuKron: Constant-Size Lossy Compression of Sparse Reorderable Matrices and Tensors) 올해 32회를 맞은 ACM WWW는, 웹 분야 최우수 학회로, 전 세계에서 해당 분야 전문가들이 참석해 최신 연구 성과를 공유한다.
신기정 교수는 "다양한 실세계 데이터 그리고 인공지능 모델의 매개 변수가 희소 행렬의 형태로 표현된다ˮ라며, "희소 행렬 압축 기술을 추천시스템, 이상 탐지, 인공지능 모델 경량화 등 다양한 분야에 활용 가능할 것으로 기대한다ˮ라고 설명했다.
한편 이번 연구는 정보통신기획평가원의 지원을 받은 강건하고 공정하며 확장 가능한 데이터 중심의 연속 학습 과제와 한국연구재단의 지원을 받은 부호화된 그래프 마이닝 과제의 성과다.
인공지능으로 정확한 세포 이미지 분석..세계 AI 생명과학 분야 대회 우승
우리 대학 김재철AI대학원 윤세영 교수 연구팀이 세계 최고 수준의 인공지능(AI) 학회인 `뉴립스(NeurIPS, 신경정보처리시스템학회) 2022'에서 개최된 `세포 인식기술 경진대회'에서 취리히 리서치센터, 베이징대, 칭화대, 미시간대 등 다수의 세계 연구팀을 모두 제치고 1위로 우승을 달성했다고 28일 밝혔다.
뉴립스는 국제머신러닝학회(ICML), 표현학습국제학회(ICLR)와 함께 세계적인 권위의 기계학습 및 인공지능 분야 학회로 꼽힌다. 뛰어난 연구자들이 제출하는 논문들도 승인될 확률이 25%에 불과할 정도로 학회의 심사를 통과하기 어려운 것으로 알려져 있다.
윤세영 교수 연구팀은 이번 학회에서 `세포 인식기술 경진대회(Cell Segmentation Challenge)'에 참가했다. 이기훈(박사과정), 김상묵(박사과정), 김준기(석사과정)의 3명의 연구원으로 구성된 OSILAB 팀은 초고해상도의 현미경 이미지에서 인공지능이 자동으로 세포를 인식하는 MEDIAR(메디아) 기술을 개발해 2위 팀과 큰 성능 격차로 1위를 달성했다.
세포 인식은 생명 및 의료 분야의 시작이 되는 중요한 기반 기술이지만, 현미경의 측정 기술과 세포의 종류 등에 따라 다양한 형태로 관찰될 수 있어 인공지능이 학습하기 어려운 분야로 알려져 있다. 세포 인식기술 경진대회는 이러한 한계를 극복하기 위해 초고해상도의 현미경 이미지에서 제한된 시간 안에 세포를 인식하는 기술을 주제로 개최됐다.
연구팀은 기계학습에서 소수의 학습 데이터를 더 효과적으로 활용해 성능을 높이는 데이터 기반(Data-Centric) 접근법과 인공신경망의 구조를 개선하는 모델 기반(Model-Centric) 접근법을 종합적으로 활용해 MEDIAR(메디아) 기술을 개발했다. 개발된 인공지능 기술을 통해 정확하게 세포를 인식하고 고해상도 이미지를 빠르게 연산함으로써 대회에서 좋은 성과를 얻을 수 있었다. 지도교수인 KAIST 김재철AI대학원 윤세영 교수는 “MEDIAR는 세포 인식기술 경진대회를 통해 개발됐지만 기상 예측이나 자율주행과 같이 이미지 속 다양한 형태의 개체 인식을 통해 정확한 예측이 필요한 많은 분야에 적용할 수 있다”라고 향후 다양한 활용을 기대했다.
팀을 이끌었던 이기훈 박사과정은 "처음 접하는 분야에서도 성과를 낼 수 있었던 것은 평소 기본기를 중요시하는 교수님의 가르침 덕분ˮ이라며 "새로운 문제에 끊임없이 도전하자는 것이 연구팀의 기본 정신ˮ이라고 강조했다. 이어 같은 연구실 김상묵 박사과정은 "연구 과정에서 많은 실패가 있었지만, 세상에 꼭 필요한 기술이라는 생각으로 끝까지 노력했다ˮ라며 "혼자서라면 절대 해내지 못했던 결과인 만큼 팀원들에게 정말 감사하다ˮ라고 수상 소감을 전했다. 같은 연구실 김준기 석사과정은 "팀원들과 이룬 성과가 의료 분야 인공지능이 겪는 현실의 문제를 해결하는 데 도움이 될 수 있기를 바란다”라고 밝혔다.
연구팀은 생명과학 분야 연구의 발전을 돕기 위해 개발된 기술을 전면 오픈소스로 공개한다고 밝혔다. 학습된 인공지능 모델과 인공지능을 구현하기 위한 프로그램의 소스 코드는 개발자 플랫폼인 깃허브 (GitHub)를 통해 이용할 수 있다.
세계 최고 수준의 딥러닝 의사결정 설명기술 개발
우리 대학 김재철AI대학원 최재식 교수(㈜인이지 대표이사) 연구팀이 인공지능 딥러닝의 의사결정에 큰 영향을 미치는 입력 변수의 기여도를 계산하는 세계 최고 수준의 기술을 개발했다고 23일 밝혔다.
최근 딥러닝 모델은 문서 자동 번역이나 자율 주행 등 실생활에 널리 보급되고 활용되는 추세 및 발전에도 불구하고 비선형적이고 복잡한 모델의 구조와 고차원의 입력 데이터로 인해 정확한 모델 예측의 근거를 제시하기 어렵다. 이처럼 부족한 설명성은 딥러닝이 국방, 의료, 금융과 같이 의사결정에 대한 근거가 필요한 중요한 작업에 대한 적용을 어렵게 한다. 따라서 적용 분야의 확장을 위해 딥러닝의 부족한 설명성은 반드시 해결해야 할 문제다.
최교수 연구팀은 딥러닝 모델이 국소적인 입력 공간에서 보이는 입력 데이터와 예측 사이의 관계를 기반으로, 입력 데이터의 특징 중 모델 예측의 기여도가 높은 특징만을 점진적으로 추출해나가는 알고리즘과 그 과정에서의 입력과 예측 사이의 관계를 종합하는 방법을 고안해 모델의 예측 과정에 기여하는 입력 특징의 정확한 기여도를 계산했다. 해당 기술은 모델 구조에 대한 의존성이 없어 다양한 기존 학습 모델에서도 적용이 가능하며, 딥러닝 예측 모델의 판단 근거를 제공함으로써 신뢰도를 높여 딥러닝 모델의 활용성에도 크게 기여할 것으로 기대된다.
㈜인이지의 전기영 연구원, 우리 대학 김재철AI대학원의 정해동 연구원이 공동 제1 저자로 참여한 이번 연구는 오는 12월 1일, 국제 학술대회 `신경정보처리학회(Neural Information Processing Systems, NeurIPS) 2022'에서 발표될 예정이다.
모델의 예측에 대한 입력 특징의 기여도를 계산하는 문제는 해석이 불가능한 딥러닝 모델의 작동 방식을 설명하는 직관적인 방법 중 하나다. 특히, 이미지 데이터를 다루는 문제에서는 모델의 예측 과정에 많이 기여한 부분을 강조하는 방식으로 시각화해 설명을 제공한다.
딥러닝 예측 모델의 입력 기여도를 정확하게 계산하기 위해서 모델의 경사도를 이용하거나, 입력 섭동(행동을 다스림)을 이용하는 등의 연구가 활발히 진행되고 있다. 그러나 경사도를 이용한 방식의 경우 결과물에 잡음이 많아 신뢰성을 확보하기 어렵고, 입력 섭동을 이용하는 경우 모든 경우의 섭동을 시도해야 하지만 너무 많은 연산을 요구하기 때문에, 근사치를 추정한 결과만을 얻을 수 있다.
연구팀은 이러한 문제 해결을 위해 입력 데이터의 특징 중에서 모델의 예측과 연관성이 적은 특징을 점진적으로 제거해나가는 증류 알고리즘을 개발했다. 증류 알고리즘은 딥러닝 모델이 국소적으로 보이는 입력 데이터와 예측 사이의 관계에 기반해 상대적으로 예측에 기여도가 적은 특징을 선별 및 제거하며, 이러한 과정의 반복을 통해 증류된 입력 데이터에는 기여도가 높은 특징만 남게 된다. 또한, 해당 과정을 통해 얻게 되는 변형된 데이터에 대한 국소적 입력 기여도를 종합해 신뢰도 높은 최종 입력 기여도를 산출한다.
연구팀의 이러한 입력 기여도 측정 기술은 산업공정 최적화 프로젝트에 적용해 딥러닝 모델이 예측 결과를 도출하기 위해서 어떤 입력 특징에 주목하는지 찾을 수 있었다. 또한 딥러닝 모델의 구조에 상관없이 적용할 수 있는 이 기술을 바탕으로 복잡한 공정 내부의 다양한 예측변수 간 상관관계를 정확하게 분석하고 예측함으로써 공정 최적화(에너지 절감, 품질향상, 생산량 증가)의 효과를 도출할 수 있었다.
연구팀은 잘 알려진 이미지 분류 모델인 VGG-16, ResNet-18, Inception-v3 모델에서 개발 기술이 입력 기여도를 계산하는 데에 효과가 있음을 확인했다. 해당 기술은 구글(Google)이 보유하고 텐서플로우 설명가능 인공지능(TensorFlow Explainable AI) 툴 키트에 적용된 것으로 알려진 입력 기여도 측정 기술(Guided Integrated Gradient) 대비 LeRF/MoRF 점수가 각각 최대 0.436/0.020 개선됨을 보였다. 특히, 입력 기여도의 시각화를 비교했을 때, 기존 방식 대비 잡음이 적고, 주요 객체와 잘 정렬됐으며, 선명한 결과를 보였다. 연구팀은 여러 가지 모델 구조에 대해 신뢰도 높은 입력 기여도 계산 성능을 보임으로써, 개발 기술의 유효성과 확장성을 보였다.
연구팀이 개발한 딥러닝 모델의 입력 기여도 측정 기술은 이미지 외에도 다양한 예측 모델에 적용돼 모델의 예측에 대한 신뢰성을 높일 것으로 기대된다.
전기영 연구원은 "딥러닝 모델의 국소 지역에서 계산된 입력 기여도를 기반으로 상대적인 중요도가 낮은 입력을 점진적으로 제거하며, 이러한 과정에서 축적된 입력 기여도를 종합해 더욱 정확한 설명을 제공할 수 있음을 보였다ˮ라며 "딥러닝 모델에 대해 신뢰도 높은 설명을 제공하기 위해서는 입력 데이터를 적절히 변형한 상황에서도 모델 예측과 관련도가 높은 입력 특성에 주목해야 한다ˮ라고 말했다.
이번 연구는 2022년도 과학기술정보통신부의 재원으로 정보통신기획평가원의 지원을 받은 사람 중심 AI강국 실현을 위한 차세대 인공지능 핵심원천기술개발 사용자 맞춤형 플로그앤플레이 방식의 설명가능성 제공, 한국과학기술원 인공지능 대학원 프로그램, 인공지능 공정성 AIDEP 및 국방과학연구소의 지원을 받은 설명 가능 인공지능 프로젝트 및 인이지의 지원으로 수행됐다.