< (왼쪽부터) 전기및전자공학부 노용만 교수, 박세진 박사과정 >
최근 음성 언어 모델(Spoken Language Model, SLM)은 텍스트 없이 인간의 음성을 학습해 음성의 언어적, 비언어적 정보를 이해 및 생성하는 기술로 텍스트 기반 언어 모델의 한계를 넘어서는 차세대 기술로 각광받고 있다. 하지만 기존 모델은 장시간 콘텐츠 생성이 요구되는 팟캐스트, 오디오북, 음성비서 등에서 한계가 두드러졌는데, 우리 연구진이 이런 한계를 뛰어넘어, 시간 제약 없이 일관되고 자연스러운 음성 생성을 실현한 ‘스피치SSM’을 개발하는데 성공했다.
우리 대학 전기및전자공학부 노용만 교수 연구팀의 박세진 연구원(박사과정)이 장시간 음성 생성이 가능한 음성 언어 모델 ‘스피치SSM(SpeechSSM)’을 개발했다고 3일 밝혔다.
이번 연구는 국제 최고 권위 머신러닝 학회인 ICML(International Conference on Machine Learning) 2025에 전체 제출된 논문 중 약 1%만이 선정되는 구두 논문 발표에 확정돼 뛰어난 연구 역량을 입증할 뿐만 아니라 우리 대학의 인공지능 연구 능력이 세계 최고 수준임을 다시 한번 보여주는 계기가 될 전망이다.
음성 언어 모델(SLM)은 중간에 텍스트로 변환하지 않고 음성을 직접 처리함으로써, 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질의 음성을 빠르게 생성할 수 있다는 점이 큰 강점이다.
< 그림 1. SpeechSSM 개요. SpeechSSM의 하이브리드 상태공간 모델은 중첩된 고정 크기 윈도우로 인코딩된 의미 토큰(USM-v2)에 대해 LM 목표로 학습됨. 비자기회귀 방식의 음성 디코더(SoundStorm)는 중첩된 의미 토큰 윈도우를 화자 조건에 따라 음향 코덱(SoundStream)으로 변환함 >
그러나 기존 모델은 음성을 아주 세밀하게 잘게 쪼개서 아주 자세한 정보까지 담는 경우, ‘음성 토큰 해상도’가 높아지고 사용하는 메모리 소비도 증가하는 문제로 인해 장시간 음성의 의미적, 화자적 일관성을 유지하기 어려웠다.
연구팀은 이러한 문제를 해결하기 위해 하이브리드 상태공간 모델(Hybrid State-Space Model)을 사용한 음성 언어 모델인‘스피치SSM’를 개발해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있게 설계했다.
이 모델은 최근 정보에 집중하는 ‘어텐션 레이어(attention layer)’와 전체 이야기 흐름(장기적인 맥락)을 오래 기억하는 ‘순환 레이어(recurrent layer)’를 교차 배치한 ‘하이브리드 구조’를 통해 긴 시간 동안 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다. 또한, 메모리 사용량과 연산량이 입력 길이에 따라 급격히 증가하지 않아, 장시간의 음성을 안정적이고 효율적으로 학습하고 생성할 수 있다.
스피치SSM은 음성 데이터를 짧은 고정된 단위(윈도우)로 나눠 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들 수 있어 무한한 길이의 음성 시퀀스(unbounded speech sequence)를 효과적으로 처리할 수 있게 했다.
또한 음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 ‘비자기회귀(Non-Autoregressive)’방식의 오디오 합성 모델(SoundStorm)을 사용해, 고품질의 음성을 빠르게 생성할 수 있게 했다.
기존은 10초 정도 짧은 음성 모델을 평가했지만, 연구팀은 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 ‘LibriSpeech-Long'을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다.
기존 음성 모델 평가 지표인 말이 문법적으로 맞는지 정도만 알려주는 PPL(Perplexity)에 비해, 연구팀은 시간이 지나면서도 내용이 잘 이어지는지 보는 'SC-L(semantic coherence over time)', 자연스럽게 들리는 정도를 시간 따라 보는 'N-MOS-T(naturalness mean opinion score over time)' 등 새로운 평가 지표들을 제안해 보다 효과적이고 정밀하게 평가했다.
< 그림 2. 다양한 음성 언어 모델(Spoken LM)에서 고려된 최대 시퀀스 길이. 기존 음성 언어 모델은 최대 200초 길이까지 학습 및 평가가 이루어졌으나, SpeechSSM은 16분 길이의 음성을 학습하고 평가할 수 있음. 본 연구의 모델은 일정한 메모리 사용으로 이론적으로 무한 길이 생성이 가능하지만, 실험에서는 평가를 위해 16분으로 제한함 >
새로운 평가를 통해 스피치SSM 음성 언어 모델로 생성된 음성은 긴 시간 생성에도 불구하고 초기 프롬프트에서 언급된 특정 인물이 지속적으로 등장하며, 맥락적으로 일관된 새로운 인물과 사건들이 자연스럽게 전개되는 모습을 확인했다. 이는 기존 모델들이 장시간 생성 시 쉽게 주제를 잃고 반복되는 현상을 보였던 것과 크게 대조적이다.
박세진 박사과정생은 “기존 음성 언어 모델은 장시간 생성에 한계가 있어, 실제 인간이 사용하도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 것이 목표였다”며 “이번 연구 성과를 통해 긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어, 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”라고 밝혔다.
< 그림 3. 임베딩 유사도(SC-L)를 이용하여 측정한 10초 프롬프트와 16분 생성 결과의 100단어 구간 간 의미 유사도. 생성 길이가 길어짐에 따라 의미 일관성이 저하되는 기존 방법들과 달리 SpeechSSM은 실제 음성과 비슷한 추이로 의미 일관성을 유지함 >
이 연구는 제1 저자인 우리 대학 박세진 박사과정 학생이 구글 딥마인드(Google DeepMind)와 협력해, ICML(국제 머신러닝 학회) 2025에서 7월 16일 구두 발표로 소개될 예정이다.
※ 논문제목: Long-Form Speech Generation with Spoken Language Models
※ DOI: 10.48550/arXiv.2412.18603
한편, 박세진 박사과정생은 비전, 음성, 언어를 통합하는 연구를 수행하며 CVPR(컴퓨터 비전 분야 최고 학회) 2024 하이라이트 논문 발표, 2024년 ACL(자연어 처리 분야 최고 학회)에서 우수논문상(Outstanding Paper Award) 수상 등을 통해 우수한 연구 역량을 입증한 바 있다.
< 그림 4. SpeechSSM의 연산 효율성. (좌) TPU v5e에서 모델별 및 생성 길이별 배치 디코딩 최대 처리량 (우) TPU v5e에서 단일 샘플(batch size 1)을 목표 길이까지 디코딩하는 데 소요된 시간 >
[데모 페이지 링크]
인공지능 심층신경망 모델의 추천시스템에서 시간이 지남에 따라 사용자의 관심이 변하더라도 변화한 관심 또한 효과적으로 학습할 수 있는 인공지능 훈련 기술 개발이 요구되고 있다. 사용자의 관심이 급변하더라도 기존의 지식을 유지하며 새로운 지식을 축적하는 인공지능 연속 학습을 가능하게 하는 기술이 KAIST 연구진에 의해 개발됐다. 우리 대학 전산학부 이재길 교수 연구팀이 다양한 데이터 변화에 적응하며 새로운 지식을 학습함과 동시에 기존의 지식을 망각하지 않는 새로운 연속 학습(continual learning) 기술을 개발했다고 5일 밝혔다. 최근 연속 학습은 훈련 비용을 줄일 수 있도록 프롬프트(prompt) 기반 방식이 대세를 이루고 있다. 각 작업에 특화된 지식을 프롬프트에 저장하고, 적절한 프롬프트를 입력 데이터에 추가해 심층신경망에 전달함으로써 과거 지식을 효과적으로 활용한다. 이재길 교수팀은 기존 접근방식과 다르게 작업 간의 다양한 변화 정도에 적응할 수 있는
2024-08-06우리 대학 산업및시스템공학과 문일철 교수 연구팀이 세계 최고 수준의 기계학습 학회인 ‘국제머신러닝학회(ICML, International Conference on Machine Learning) 2024’에서 개최된 ‘멀티모달 작업계획 생성 경진대회(EgoPlan)’에서 다수의 세계 연구팀을 모두 제치고 1위로 우승을 했다고 30일 밝혔다. 본 대회는 7월 21일부터 27일까지 오스트리아 비엔나에서 개최됐으며, 참가자는 북경대(中), 북경 AGI연구소(中) 및 임페리얼칼리지 런던(Imperial College London, 英) 등의 6개국 13개 기관이 참여해 경쟁했다. 우리 연구팀은 국내 유일의 참가 기관으로 7월 26일 우승상 및 혁신상을 수상했다. 이번 대회는 인공지능이 주방에서 요리하는 과정을 비디오 및 지문으로 학습한 이후, 경험하지 못한 요리 과정에서 상식적으로 합당한 의사결정을 내려 조리할 수 있는지를 경쟁하는 시합
2024-07-30인공지능 기술이 사회 전반에 걸쳐 광범위하게 활용되며 인간의 삶에 많은 영향을 미치고 있다. 최근 인공지능의 긍정적인 효과 이면에 범죄자의 재범 예측을 위해 머신러닝 학습에 사용되는 콤파스(COMPAS) 시스템을 기반으로 학습된 모델이 인종 별로 서로 다른 재범 확률을 부여할 수 있다는 심각한 편향성이 관찰되었다. 이 밖에도 채용, 대출 시스템 등 사회의 중요 영역에서 인공지능의 다양한 편향성 문제가 밝혀지며, 공정성(fairness)을 고려한 머신러닝 학습의 필요성이 커지고 있다. 우리 대학 전기및전자공학부 황의종 교수 연구팀이 학습 상황과 달라진 새로운 분포의 테스트 데이터에 대해서도 편향되지 않은 판단을 내리도록 돕는 새로운 모델 훈련 기술을 개발했다고 30일 밝혔다. 최근 전 세계의 연구자들이 인공지능의 공정성을 높이기 위한 다양한 학습 방법론을 제안하고 있지만, 대부분의 연구는 인공지능 모델을 훈련시킬 때 사용되는 데이터와 실제 테스트 상황에서 사용될 데이터가 같
2023-10-30최근 화학, 생명과학 등 다양한 기초과학 분야의 문제를 해결하기 위해 그래프 신경망 (Graph Neural Network) 기술이 널리 활용되고 있다. 그 중에서도 특히 두 물질의 상호작용에 의해 발생하는 물리적 성질을 예측하는 것은 다양한 화학, 소재 및 의학 분야에서 각광을 받고 있다. 예를 들어, 어떠한 약물 (Drug)이 용매 (Solvent)에 얼마나 잘 용해되는지 정확히 예측하고, 동시에 여러 가지 약물을 투여하는 다중약물요법 (Polypharmacy)의 부작용을 예측하는 것이 신약 개발 등에 매우 중요하다. 우리 대학 산업및시스템공학과 박찬영 교수 연구팀이 한국화학연구원(원장 이영국)과 공동연구를 통해 물질 내의 중요한 하부 구조(Substructure)를 탐지하여 두 물질의 상호작용에 의해 발생하는 물리적 성질 예측의 높은 정확도를 달성할 수 있는 새로운 그래프 신경망 기법을 개발했다고 18일 밝혔다. 기존 연구에서는 두 분자 쌍이 있을 때, 각 분자내에
2023-07-18인공지능 반도체(이하 AI 반도체)가 국가적인 전략기술로 두드러지면서 KAIST의 관련 성과도 주목받고 있다. 과학기술정보통신부는 지난해 2030년 세계 AI 반도체 시장 20% 점유를 목표로 인공지능 반도체 지원사업에 본격적으로 착수한 바 있다. 올해에는 산학연 논의를 거쳐 5년간 1조 200억 원을 투입하는 `인공지능 반도체 산업 성장 지원대책'으로 지원을 확대했다. 이에 따라 AI 반도체 전문가 양성을 위해 주요 대학들의 행보도 분주해졌다. KAIST는 반도체와 인공지능 양대 핵심 분야에서 최상급의 교육, 연구 역량을 쌓아 왔다. 반도체 분야에서는 지난 17년 동안 메사추세츠 공과대학(이하 MIT), 스탠퍼드(Stanford)와 같은 세계적인 학교를 제치고 국제반도체회로학회(이하 ISSCC, International Solid State Circuit Conference)에서 대학 중 1위를 지켜 왔다는 점이 돋보인다. ISSCC는 1954년 설립된 반도체 집적회로 설계
2022-08-04