본문 바로가기 대메뉴 바로가기

KAIST

연구뉴스

홈페이지 통합검색

-

%EC%9D%8C%EC%84%B1%EC%84%BC%EC%84%9C

인간 귀 모사한 음성 센서 세계 최초 상용화 길 터 우리 대학 신소재공학과 이건재 교수와 왕희승 박사팀이 *공진형 유연 압전 음성 센서를 개발해 정확도가 높은 초고감도의 인공지능 기반 화자(話者) 식별 및 음성 보안기술을 구현했으며, 이를 스마트폰과 인공지능 스피커에 탑재해 제품화하는 데도 성공했다고 15일 밝혔다. ☞ 공진형 압전 음성 센서: 공진이란 특정 주파수 영역에서 센서가 큰 진폭으로 진동하는 현상을 말하며, 압전이란 압력을 가했을 때, 전기적인 신호가 자발적으로 생성되는 현상을 말한다. 음성에 의해 센서의 막이 진동하게 될 때, 공진 현상이 일어나 민감도 높은 전압 신호를 얻을 수 있다. 인간이 먼 거리의 소리를 인식하는 방법은 달팽이관에 있는 사다리꼴 막이 가청주파수 대역에서 수많은 공진 현상을 발생시키며 소리를 증폭하는 원리에 있다. 연구진은 이러한 원리의 효과를 극대화하기 위해 매우 얇은 유연 압전 막을 사용해 인간의 귀를 모사했고, 여러 공진 채널을 구현해 소리를 초고감도로 식별할 수 있는 공진형 음성 센서를 제작했다. 이건재 교수팀은 2018년도에 세계 최초로 공진형 유연 압전 음성 센서 개념을 제시한 데 이어, 이번 연구에서는 센서 구조에 따른 공진, 주파수, 압전 막의 역할 등을 이론적으로 밝히고 크기를 매우 소형화함과 동시에 성능이 향상된 음성 센서를 개발했다. 유연 압전 음성 센서는 원거리에서 스마트 기기들을 정확하게 제어하는 미래 사물인터넷 기술과 음성을 암호화하는 보안기술을 연결함으로써 소비자 맞춤형 서비스 제공에 크게 이바지할 것으로 전망된다. 생체 모사된 공진형 음성 센서는 신호 대 잡음비(Signal to noise ratio, SNR)가 우수해 음성인식 기능이 뛰어나고 다수 채널을 보유하기 때문에, 인공지능 음성 서비스에 적은 데이터양으로도 화자 식별 정확도를 높이는 강점이 있다. 연구팀의 음성 센서는 같은 조건에서 정전용량형 상용 마이크로폰과 성능 비교를 진행한 결과, 음성 분석 및 화자 식별에 있어 인식률을 크게 높였고 조건에 따라 오류율을 60%에서 95%까지 줄일 수 있었다. 연구팀이 개발한 시제품은 이 교수가 교원 창업한 기업인 ㈜프로닉스 社를 통해 2020년 세계 가전박람회(CES)에서 공개된 바 있으며, 현재 해당 기술은 완성도 높은 인공지능 음성 기술을 시연하며 ㈜프로닉스 미국 지사를 통해 실리콘밸리의 유수 IT 기업들과 협업도 추진하고 있다. 이건재 교수는 "이번에 제품화된 모바일 음성 센서는 높은 민감도를 보유하면서도 크기를 획기적으로 줄였기 때문에 미래 인공지능기술을 구동하는 핵심 센서로 적용할 수 있다ˮ며 "현재 대량생산 상용화 공정도 완성 단계에 있어 실생활에 곧 적용될 수 있을 것이다”라고 말했다. 이번 연구는 한국연구재단의 휴먼플러스 인공지능 센서 센터의 지원을 받아 수행됐으며, 국제 학술지 `사이언스 어드밴시스(Science Advances)'에 2월 12일 字 게재됐다.
2021.02.16 조회수 81105
이건재 교수, 유창동 교수, 유연 압전 화자인식 음성센서 개발 〈 이 건 재 교수 〉 우리 대학 신소재공학과 이건재 교수와 전기및전자공학부 유창동 교수 공동 연구팀이 인공지능 기반의 화자(話者) 인식용 유연 압전 음성센서를 개발했다. 이번 연구를 통해 개인별 음성 서비스를 스마트 홈 가전이나 인공지능 비서, 생체 인증 분야 등 차세대 기술에 활용 가능할 것으로 기대된다. 이번 연구 결과는 국제 학술지 ‘나노 에너지(Nano Energy)’ 9월호에 ‘민감도’와 ‘화자인식’ 논문 두 편으로 동시 게재됐고 현재 관련 기술은 실용화 단계에 있다. (민감도 논문 : Basilar Membrane-Inspired Self-Powered Acoustic Sensor Enabled by Highly Sensitive Multi Tunable Frequency Band, 화자인식 논문 : Machine Learning-based Self-powered Acoustic Sensor for Speaker Recognition) 음성 센서는 인간과 기계 사이의 자유로운 소통을 가능하게 만드는 가장 직관적인 수단으로 4차 산업혁명의 핵심 기술로 주목받고 있다. 음성센서 시장은 2021년 대략 160억 달러 규모로 커질 것으로 예상된다. 그러나 현재 산업계에서는 음성 신호 수신 시 정전용량을 측정하는 콘덴서 형식을 사용하기 때문에 민감도가 낮고 인식 거리가 짧아 화자 인식률에 한계가 있다. 이번 연구에서 이 교수 연구팀은 인간의 달팽이관을 모사해 주파수에 따라 다른 영역이 진동하는 사다리꼴의 얇은 막을 제작했다. 음성신호에 따른 공진형 진동을 유연 압전 물질을 통해 감지하는 자가발전 고민감 음성 센서를 개발했다. 연구팀의 음성 센서는 기존 기술 대비 2배 이상 높은 민감도를 가져 미세한 음성 신호를 원거리에서도 감지할 수 있다. 또한 다채널로 신호를 받아들여 하나의 언어에 대해 복수 개의 데이터를 얻을 수 있다. 이 기술을 기반으로 누가 이야기하는지 찾아내는 화자인식 시스템에 적용해 97.5%의 화자인식 성공률을 무향실에서 달성했고 기존 기술 대비 오류를 75% 이상 줄였다. 화자인식 서비스는 음성 분야에 세상을 바꿀 next big thing으로 기대를 받고 있다. 기존 기술은 소프트웨어 업그레이드를 통한 접근으로 인식률에 한계가 있었지만 연구팀의 기술은 하드웨어 센서를 개발함으로써 능력을 크게 향상시켰다. 추후 첨단 소프트웨어를 접목한다면 다양한 환경에서도 화자 및 음성 인식률을 높일 수 있을 것으로 예상된다. 이건재 교수는 “이번에 개발한 머신 러닝 기반 고민감 유연 압전 음성센서는 화자를 정확하게 구별할 수 있기 때문에 개인별 음성 서비스를 스마트 가전이나 인공지능 비서에 접목할 수 있을 것이며 생체 인증 및 핀테크와 같은 보안 분야에서도 큰 역할을 할 수 있을 것이다”고 말했다. 이번 연구는 스마트 IT 융합시스템 연구단의 지원을 받아 수행됐다. <관련 영상> https://www.youtube.com/watch?v=QGEVJxCFVpc&feature=youtu.be □ 그림 설명 그림1. 인간의 달팽이관을 모사한 유연 압전 음성 센서 구조 그림2. 인공지능을 통한 화자 인식 개략도
2018.10.04 조회수 14534

34141 대전광역시 유성구 대학로 291 한국과학기술원(KAIST) T.042-350-2114 F.042-350-2210(2220)

Copyright (C) 2020, Korea Advanced Institute of Science and Technology, All Rights Reserved.