음악 창작자가 초기 아이디어를 생각하거나 창작 중간 막힐 때, 이를 같이 해결해 주고 다양한 음악적 방향 탐색에 실질적인 도움을 주는 동료가 있다면 얼마나 좋을까? KAIST 연구진이 이런 음악 창작을 돕는 동료 작가와 같은 AI 기술을 개발했다.
KAIST(총장 이광형)는 전기및전자공학부 이성주 교수 연구팀이 AI 기반 음악 창작 지원 시스템 어뮤즈(Amuse)를 개발하였다. 이 연구 결과는 4월 26일부터 5월 1일까지 일본 요코하마에서 열린 인간-컴퓨터 상호작용 분야 세계 최고 권위의 국제학술대회인 CHI(ACM Conference on Human Factors in Computing Systems)에서 전체 논문 중 상위 1%에게만 수여되는 최우수 논문상(Best Paper Award)을 수상했다고 7일 밝혔다.

< (왼쪽부터) 카네기 멜런대 크리스 도너휴 교수, 전기및전자공학부 김예원 박사과정, 이성주 교수 >
이성주 교수 연구팀이 개발한 어뮤즈(Amuse) 시스템은 텍스트, 이미지, 오디오와 같은 다양한 형식의 영감을 입력하면 이를 화성 구조(코드 진행)로 변환해 작곡을 지원해 주는 AI 기반 시스템이다.
예를 들어, 사용자가 ‘따뜻한 여름 해변의 기억’과 같은 문구나 이미지, 사운드 클립을 입력하면, 어뮤즈는 해당 영감에 어울리는 코드 진행을 자동으로 생성해 제안한다.
기존의 생성 AI와 달리, 어뮤즈는 사용자의 창작 흐름을 존중하고, AI의 제안을 유연하게 통합·수정할 수 있는 상호작용 방식을 통해 창의적 탐색을 자연스럽게 유도한다는 점에서 차별성을 갖는다.
어뮤즈 시스템의 핵심 기술은 대형 언어 모델의 이용해 사용자의 영감으로 프롬프트에 입력한 글자 따라 이에 어울리는 음악 코드를 생성하고, 실제 음악 데이터를 학습한 AI 모델이 부자연스럽거나 어색한 결과는 걸러내는(리젝션 샘플링) 과정을 거쳐 결합한 두 가지 방법을 자연스럽게 이어 재현하는 하이브리드 생성 방식이다.

< 그림. 어뮤즈(Amuse)의 시스템 구성. 사용자 입력으로부터 음악 키워드를 추출한 뒤, 대형 언어 모델 기반 코드 진행을 생성하고 리젝션 샘플링으로 정제한다(왼쪽). 오디오 입력으로부터 코드 추출도 가능하다(오른쪽). 하단은 생성된 코드의 화성 구조를 시각화한 예시이다. >
연구팀은 실제 뮤지션들을 대상으로 한 사용자 연구를 수행하여, 어뮤즈가 단순한 음악 생성 AI가 아닌, 사람과 AI가 협업하는 창작 동반자(Co-Creative AI)로서의 가능성이 높다는 평가를 받았다.
KAIST 전기 및 전자공학부 박사과정 김예원, 이성주 교수, 카네기 멜런 대학의 크리스 도너휴(Chris Donahue) 교수가 참여한 해당 논문은 학계 및 산업계 모두의 창의적 AI 시스템 설계의 가능성을 보여주었다.
※ 논문명 : Amuse: Human-AI Collaborative Songwriting with Multimodal Inspirations DOI : https://doi.org/10.1145/3706598.3713818
※ 연구 데모 영상: https://youtu.be/udilkRSnftI?si=FNXccC9EjxHOCrm1
※ 연구 홈페이지: https://nmsl.kaist.ac.kr/projects/amuse/
이성주 교수는 “ 최근 생성형 AI 기술은 저작권이 있는 콘텐츠를 그대로 모방하여 창작자의 저작권을 침해하거나, 창작자의 의도와는 무관하게 일방향으로 결과물을 생성한다는 점에서 우려를 낳고 있다. 이에 연구팀은 이러한 흐름에 문제 의식을 가지고, 창작자가 실제로 필요로 하는 것이 무엇인지에 주목하며 창작자 중심의 AI 시스템 설계에 주안점을 두었다.”라고 말했다.
이어 ”어뮤즈는 창작자의 주도권을 유지한 채, 인공지능과의 협업 가능성을 탐색하는 시도로, 향후 음악 창작 도구와 생성형 AI 시스템의 개발에 있어 보다 창작자 친화적인 방향을 제시하는 출발점이 될 것으로 기대된다.“라고 설명했다.
이 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행되었다.(RS-2024-00337007)
“사람처럼 판단하는 로봇, 생각보다 빨리 온다.” 로봇이 인간의 의도를 이해하고 스스로 올바른 행동을 선택하는 시대를 앞당길 핵심 기술이 국내에서 나왔다. KAIST 연구진이 단 몇 개의 영상만으로 AI가 인간의 판단 기준을 스스로 학습하는 기술을 개발하며 피지컬 AI 상용화의 핵심 난제를 해결했다. 우리 대학은 전기및전자공학부 유창동 교수 연구팀이 수천~수만 건의 인간 평가 데이터 대신 단 몇 개의 선호 영상만으로도 AI가 인간의 의도와 판단 기준을 학습할 수 있는 새로운 기술인 ‘VOTP(Video-based Optimal TransPort Preference)’를 세계 최초로 개발했다고 10일 밝혔다. 연구팀의 논문은 오는 7월 서울 코엑스에서 개최되는 세계 최고 권위의 AI학회인 ICML(International Conference on Machine Learning) 2026에 채택됐으며, 전체 제출 논문(23,918편
2026-06-10우리 대학은 메타버스대학원이 오는 6월 10일부터 12일까지 서울 코엑스에서 열리는 ‘가상융합산업대전(KMF: Korea Metaverse Festival) 2026’에 참가해 현실 공간을 인식·이해하고 사람과 사물의 위치·움직임·상황을 분석해 상호작용할 수 있도록 하는 ‘차세대 공간 AI(Spatial AI)’와 XR(확장현실) 분야 핵심 연구 성과를 공개한다고 5일 밝혔다. 이번 성과는 과학기술정보통신부와 정보통신기획평가원(IITP)이 미래 핵심 산업 대응을 위해 추진해 온 정보통신방송혁신인재양성사업‘가상융합대학원 사업’의 대표적 성과로 평가된다. KAIST 메타버스대학원은 올해 열린 세계 최고 권위의 가상현실(VR) 학술대회인 ‘IEEE VR 2026’에서 세계 대학·연구기관 가운데 두 번째로 많은 12편의 구두 논문을 발표하며 글로벌
2026-06-04우리 대학은 1일 오전 10시 KAIST 학술문화관(E9) 5층 정근모컨퍼런스홀에서 ‘KAIST AI대학 비전선포식’을 개최했다. 이번 행사는 AI 시대를 선도할 핵심 인재 양성과 교육·연구 혁신, 산업 협력, 책임 있는 AI 생태계 구축을 위한 비전과 추진 방향을 대내외에 공유하기 위해 마련됐다. KAIST AI대학은 인공지능을 단순한 활용 도구가 아닌 과학기술, 산업, 교육, 사회 전반의 변화를 이끄는 새로운 지식 생산의 기반으로 보고 있다. 이에 따라 AI 핵심 기술을 선도할 연구 인재와 다양한 분야에서 AI를 창의적으로 활용할 융합 인재를 함께 양성하고, 모델·알고리즘·시스템·인프라·도메인 융합은 물론 미래 사회 설계와 책임 있는 AI까지 포괄하는 교육·연구 체계를 구축해 나갈 계획이다. 비전선포식은 이광형 KAIST 총장의 환영사로 시작됐다. 이어 배경훈 부총리 겸 과학
2026-06-01챗GPT와 같은 거대언어모델(LLM·Large Language Model) 서비스를 운영하려면 수만 대 규모의 서버 인프라가 필요하다. 하지만 새로운 AI 반도체나 시스템 구조를 검증할 때마다 실제 장비를 구축하는 데에는 막대한 비용과 시간이 소요된다. 우리 대학 연구진은 실제 대규모 AI 서버를 구축하기 전에 컴퓨터 안에서 성능과 효율을 미리 검증할 수 있는 ‘가상 실험장’을 개발했다. 우리 대학은 전산학부 박종세 교수 연구팀이 개발한 거대언어모델(LLM) 서비스 인프라 시뮬레이터(simulator·가상 실험 소프트웨어) 연구가 컴퓨터 시스템 성능 분석 분야의 세계적 권위 학회인 ‘ISPASS 2026(IEEE International Symposium on Performance Analysis of Systems and Software)’에서 최우수 논문상을 수상했다고 29일 밝혔다. 연구팀이 개발한 &l
2026-05-29영화 ‘쥬라기 공원’에서 거대한 공룡이 걸어오는 장면을 보면 사람들은 자연스럽게 땅이 울리는 듯한 묵직한 저주파음을 떠올린다. 이는 인간이 단순히 사물의 형태뿐 아니라 크기와 무게, 움직임의 속도 같은 물리적 특성까지 함께 고려해 소리를 예측하기 때문이다. 하지만 기존 영상-음향 생성 AI는 화면 속 사물의 형태나 장면 정보에 주로 의존해 소리를 생성해, 무게나 속도에 따라 달라지는 물리적 특성까지는 충분히 반영하지 못했다. 우리 대학은 전산학부 오태현 교수 연구팀이 POSTECH(총장 김성근), 소니 AI(Sony AI) 공동 연구진과 함께 영상 속 물리적 상황을 이해해 보다 현실감 있는 소리를 생성하는 인공지능(AI) 기술 ‘파바스(PAVAS·Physics-Aware Video-to-Audio Synthesis)’를 개발했다고 26일 밝혔다. 이번 기술의 핵심은 영상 속 물체의 질량과 속도 등 눈에 보이지 않는 물
2026-05-27