본문 바로가기
대메뉴 바로가기
KAIST
연구뉴스
유틸열기
홈페이지 통합검색
-
검색
메뉴 열기
%EC%8B%AC%EC%B8%B5%EC%8B%A0%EA%B2%BD%EB%A7%9D
최신순
조회순
대형언어모델로 42% 향상된 추천 기술 연구 개발
최근 소셜 미디어, 전자 상거래 플랫폼 등에서 소비자의 만족도를 높이는 다양한 추천서비스를 제공하고 있다. 그 중에서도 상품의 제목 및 설명과 같은 텍스트를 주입하여 상품 추천을 제공하는 대형언어모델(Large Language Model, LLM) 기반 기술이 각광을 받고 있다. 한국 연구진이 이런 대형언어모델 기반 추천 기술의 기존 한계를 극복하고 빠르고 최상의 추천을 해주는 시스템을 개발하여 화제다. 우리 대학 산업및시스템공학과 박찬영 교수 연구팀이 네이버와 공동연구를 통해 협업 필터링(Collaborative filtering) 기반 추천 모델이 학습한 사용자의 선호에 대한 정보를 추출하고 이를 상품의 텍스트와 함께 대형언어모델에 주입해 상품 추천의 높은 정확도를 달성할 수 있는 새로운 대형언어모델 기반 추천시스템 기술을 개발했다고 17일 밝혔다. 이번 연구는 기존 연구에 비해 학습 속도에서 253% 향상, 추론 속도에서 171% 향상, 상품 추천에서 평균 12%의 성능 향상을 이뤄냈다. 특히, 사용자의 소비 이력이 제한된 퓨샷(Few-shot) 상품* 추천에서 평균 20%의 성능 향상, 다중-도메인(Cross-domain) 상품 추천**에서 42%의 성능 향상을 이뤄냈다. *퓨샷 상품: 사용자의 소비 이력이 풍부하지 않은 상품. **다중-도메인 상품 추천: 타 도메인에서 학습된 모델을 활용하여 추가학습없이 현재 도메인에서 추천을 수행. 예를 들어, 의류 도메인에 추천 모델을 학습한 뒤, 도서 도메인에서 추천을 수행하는 상황을 일컫는다. 기존 대형언어모델을 활용한 추천 기술들은 사용자가 소비한 상품 이름들을 단순히 텍스트 형태로 나열해 대형언어모델에 주입하는 방식으로 추천을 진행했다. 예를 들어 ‘사용자가 영화 극한직업, 범죄도시1, 범죄도시2를 보았을 때 다음으로 시청할 영화는 무엇인가?’라고 대형언어모델에 질문하는 방식이었다. 이에 반해, 연구팀이 착안한 점은 상품 제목 및 설명과 같은 텍스트뿐 아니라 협업 필터링 지식, 즉, 사용자와 비슷한 상품을 소비한 다른 사용자들에 대한 정보가 정확한 상품 추천에 중요한 역할을 한다는 점이었다. 하지만, 이러한 정보를 단순히 텍스트화하기에는 한계가 존재한다. 이에 따라, 연구팀은 미리 학습된 협업 필터링 기반 추천 모델로부터 사용자의 선호에 대한 정보를 추출하고 이를 대형언어모델이 이해할 수 있도록 변환하는 경량화된 신경망을 도입했다. 연구팀이 개발한 기술의 특징으로는 대형언어모델의 추가적인 학습이 필요하지 않다는 점이다. 기존 연구들은 상품 추천을 목적으로 학습되지 않은 대형언어모델이 상품 추천이 가능하게 하도록 대형언어모델을 파인튜닝(Fine-tuning)* 하는 방법을 사용했다. 하지만, 이는 학습과 추론에 드는 시간을 급격히 증가시키므로 실제 서비스에서 대형언어모델을 추천에 활용하는 것에 큰 걸림돌이 된다. 이에 반해, 연구팀은 대형언어모델의 직접적인 학습 대신 경량화된 신경망의 학습을 통해 대형언어모델이 사용자의 선호를 이해할 수 있도록 했고, 이에 따라 기존 연구보다 빠른 학습 및 추론 속도를 달성했다. *파인튜닝: 사전 학습된 대규모 언어모델을 특정 작업이나 데이터셋에 맞게 최적화하는 과정. 연구팀을 지도한 박찬영 교수는 “제안한 기술은 대형언어모델을 추천 문제에 해결하려는 기존 연구들이 간과한 사용자-상품 상호작용 정보를 전통적인 협업 필터링 모델에서 추출해 대형언어모델에 전달하는 새로운 방법으로 이는 대화형 추천 시스템이나 개인화 상품 정보 생성 등 다양한 고도화된 추천 서비스를 등장시킬 수 있을 것이며, 추천 도메인에 국한되지 않고 이미지, 텍스트, 사용자-상품 상호작용 정보를 모두 사용하는 진정한 멀티모달 추천 방법론으로 나아갈 수 있을 것”이라고 말했다. 우리 대학 산업및시스템공학과 김세인 박사과정 학생과 전산학부 강홍석 학사과정(졸) 학생이 공동 제1 저자, 네이버의 김동현 박사, 양민철 박사가 공동 저자, KAIST 산업및시스템공학과의 박찬영 교수가 교신저자로 참여한 이번 연구는 데이터마이닝 최고권위 국제학술대회인 ‘국제 데이터 마이닝 학회 ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2024)’에서 올 8월 발표할 예정이다. (논문명: Large Language Models meet Collaborative Filtering: An Efficient All-round LLM-based Recommender System). 한편 이번 연구는 네이버 및 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행됐다. (NRF-2022M3J6A1063021, RS-2024-00335098)
2024.07.17
조회수 2519
인공지능 챗봇 이미지 데이터 훈련 비용 최소화하다
최근 다양한 분야에서 인공지능 심층 학습(딥러닝) 기술을 활용한 서비스가 급속히 증가하고 있다. GPT와 같은 거대 언어 모델을 훈련하기 위해서는 수백 대의 GPU와 몇 주 이상의 시간이 필요하다고 알려져 있다. 따라서, 심층신경망 훈련 비용을 최소화하는 방법 개발이 요구되고 있다. 우리 대학 전산학부 이재길 교수 연구팀이 심층신경망 훈련 비용을 최소화할 수 있도록 훈련 데이터의 양을 줄이는 새로운 데이터 선택 기술을 개발했다고 2일 밝혔다. 일반적으로 대용량의 심층 학습용 훈련 데이터는 레이블 오류(예를 들어, 강아지 사진이 `고양이'라고 잘못 표기되어 있음)를 포함한다. 최신 인공지능 방법론인 재(再)레이블링(Re-labeling) 학습법은 훈련 도중 레이블 오류를 스스로 수정하면서 높은 심층신경망 성능을 달성하는데, 레이블 오류를 수정하기 위한 추가적인 과정들로 인해 훈련에 필요한 시간이 더욱 증가한다는 단점이 있다. 한편 막대한 훈련 시간을 줄이려는 방법으로 중복되거나 성능 향상에 도움이 되지 않는 데이터를 제거해 훈련 데이터의 크기를 줄이는 핵심 집합 선별(coreset selection) 방식이 큰 주목을 받고 있다. 그러나 기존 핵심 집합 선별 방식은 훈련 데이터에 레이블 오류가 없다고 가정한 표준 학습법을 위해 개발됐고, 재레이블링 학습법을 위한 핵심 집합 선별 방식에 관한 연구는 부족한 실정이다. 이재길 교수팀이 개발한 기술은 레이블 오류를 스스로 수정하는 최신 재레이블링 학습법을 위해 핵심 집합 선별을 수행하여 심층 학습 훈련 비용을 최소화할 수 있도록 해준다. 따라서, 레이블 오류가 포함된 현실적인 훈련 데이터를 지원하므로 실용성이 매우 높다. 또한 이 교수팀은 특정 데이터의 레이블 오류 수정 정확도가 해당 데이터의 이웃 데이터의 신뢰도와 높은 상관관계가 있음을 발견했다. 즉, 이웃 데이터의 신뢰도가 높으면 레이블 오류 수정 정확도가 커지는 경향이 있다. 이웃 데이터의 신뢰도는 심층신경망의 충분한 훈련 전에도 측정할 수 있으므로, 각 데이터의 레이블 수정 가능 여부를 예측할 수 있게 된다. 연구팀은 이러한 발견을 기반으로 전체 훈련 데이터의 총합 이웃 신뢰도를 최대화하는 데이터 부분 집합을 선별해 레이블 수정 정확도와 일반화 성능을 최대화하는 `재레이블링을 위한 핵심 집합 선별'을 제안했다. 총합 이웃 신뢰도를 최대화하는 부분 집합을 찾는 조합 최적화 문제의 효율적인 해법을 위해 총합 이웃 신뢰도를 가장 증가시키는 데이터를 차례차례 선택하는 탐욕 알고리즘(greedy algorithm)을 도입했다. 연구팀은 이미지 분류 문제에 대해 다양한 실세계의 훈련 데이터를 사용해 방법론을 검증했다. 그 결과, 레이블 오류가 없다는 가정에 따른 표준 학습법에서는 최대 9%, 재레이블링 학습법에서는 최대 21% 최종 예측 정확도가 기존 방법론에 비해 향상되었고, 모든 범위의 데이터 선별 비율에서 일관되게 최고 성능을 달성했다. 또한, 총합 이웃 신뢰도를 최대화한 효율적 탐욕 알고리즘을 통해 기존 방법론에 비해 획기적으로 시간을 줄이고 수백만 장의 이미지를 포함하는 초대용량 훈련 데이터에도 쉽게 확장될 수 있음을 확인했다. 제1 저자인 박동민 박사과정 학생은 "이번 기술은 오류를 포함한 데이터에 대한 최신 인공지능 방법론의 훈련 가속화를 위한 획기적인 방법ˮ 이라면서 "다양한 데이터 상황에서의 강건성이 검증됐기 때문에, 실생활의 기계 학습 문제에 폭넓게 적용될 수 있어 전반적인 심층 학습의 훈련 데이터 준비 비용 절감에 기여할 것ˮ 이라고 밝혔다. 연구팀을 지도한 이재길 교수도 "이 기술이 파이토치(PyTorch) 혹은 텐서플로우(TensorFlow)와 같은 기존의 심층 학습 라이브러리에 추가되면 기계 학습 및 심층 학습 학계에 큰 파급효과를 낼 수 있을 것이다ˮ고 말했다. 우리 대학 데이터사이언스대학원에 재학 중인 박동민 박사과정 학생이 제1 저자, 최설아 석사과정, 김도영 박사과정 학생이 제2, 제3 저자로 각각 참여한 이번 연구는 최고권위 국제학술대회 `신경정보처리시스템학회(NeurIPS) 2023'에서 올 12월 발표될 예정이다. (논문명 : Robust Data Pruning under Label Noise via Maximizing Re-labeling Accuracy) 한편, 이 기술은 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받아 SW컴퓨팅산업원천기술개발사업 SW스타랩 과제로 개발한 연구성과 결과물(2020-0-00862, DB4DL: 딥러닝 지원 고사용성 및 고성능 분산 인메모리 DBMS 개발)이다.
2023.11.02
조회수 3776
뇌의 선천적 수량 비교 원리 규명
뇌의 선천적 인지 기능들은 학습이나 훈련 없이 신경망의 구조적 특성으로부터 자발적으로 발생할 수 있는 것인가? 우리 대학 뇌인지과학과 백세범 교수 연구팀이 두뇌에서 발견되는 선천적 수량 비교 능력이 자발적으로 형성되는 원리를 설명했다고 7일 밝혔다. 주어진 사물들의 수량을 비교하는 기능은 동물이나 인간의 생존에 필수적인 능력이다. 동물 그룹 간 다툼, 사냥, 먹이 수집 등 많은 상황에서 주어진 변수들의 수량 비율이나 차이에 따라 동물들의 의사결정 및 행동이 달라져야 하기 때문이다. 학습을 거치지 않은 어린 개체들의 행동 관찰로부터 수량 비교 능력은 두뇌의 선천적 기능이라는 가능성이 제기됐지만 이러한 능력이 학습 없이 발생하는 원리에 대한 설명은 아직 제시되지 않았다. 백세범 교수 연구팀은 두뇌 모사 인공신경망 모델을 활용해, 학습이 전혀 이뤄지지 않은 심층신경망 구조에서 시각적 수량 비율 및 차이 정보의 인지 기능이 자발적으로 발생할 수 있음을 증명했다. 또한 두 수량의 비율과 차이라는 서로 다른 종류의 정보를 비교하는 기능이 하나의 공통적인 발생 원리로부터 파생될 수 있다고 설명했다. 우리 대학 바이오및뇌공학과 이현수 박사과정, NYU 신경과학과 최우철 박사가 공동 제1 저자로 참여한 이번 연구는 국제 학술지 ‘셀(Cell)’의 온라인 자매지 ‘셀 리포츠(Cell Reports)’ 7월 29일 자에 게재됐다. (논문명: Comparison of visual quantities in untrained neural networks) 연구팀은 먼저 전혀 학습을 거치지 않은 신경망에서 두 수량의 비율과 차이에 선택적으로 반응하는 개별 신경세포가 자발적으로 발생하는 것을 발견했다. 초기화된 심층신경망에서 다양한 비율 혹은 차이를 가지는 시각적 수량 정보가 주어졌을 때, 이에 선택적으로 반응하는 신경세포들이 다수 발견되며, 이들로부터 측정된 신경 활동은 실제 동물 실험에서 관측된 신경 활동 특성과 매우 유사함을 확인하였다. 또한 연구팀은 이를 이용하여 지금까지 보고되어 온 동물들의 수량 비교 행동 특성을 상당 부분 재현할 수 있음을 확인했다. 이에 더해, 연구팀은 수량 비교 기능 신경세포 회로 구조의 발생 원리를 계산신경과학적 모델을 통해 설명하고 검증했다. 신경망에서 발견된 비율/차이 선택적 신경세포의 특징적 연결구조를 분석해, 특정 값에 대한 선택성이 신경망 하위 계층에서 자발적으로 발생된 단순 증가, 단순 감소 신경 활동의 결합을 통해 형성될 수 있음을 보였다. 또한 이러한 신경 활동이 증가, 감소할 때 관찰되는 비선형성의 타입에 따라 각각 수량 비율 또는 수량 차이를 인지하는 신경세포로 분화될 수 있음을 연구팀은 확인했다. 이러한 결과들을 통해 연구팀은 학습이 전혀 이뤄지지 않은 두뇌에서 비율/차이 인지와 같은 선천적 수량 비교 기능이 발생하는 원리에 대한 근본적인 이해를 제시했다. 백세범 교수는 “이번 연구는 상당한 정도의 학습 과정이 필요할 것이라 여겨지던 두뇌의 수량 인지 및 비교, 연산 기능이 그 어떤 학습도 이뤄지지 않은 초기 두뇌의 구조에서 자발적으로 발생할 수 있음을 보이는 연구”라며, “발생 초기 신경망의 구조적/물리적 특성으로부터 다양한 선천적 고등 인지 기능이 발생할 수 있음을 시사함으로써 뇌신경과학 연구뿐 아니라 새로운 개념의 인공지능 연구에도 의미있는 방향을 제시할 수 있을 것이라 기대한다”고 언급했다. 한편 이번 연구는 한국연구재단의 이공분야기초연구사업 및 원천기술개발사업, KAIST 특이점교수 사업의 지원을 받아 수행됐다.
2023.08.07
조회수 4131
인공지능 심층 학습(딥러닝) 서비스 구축 비용 최소화 가능한 데이터 정제 기술 개발
최근 다양한 분야에서 인공지능 심층 학습(딥러닝) 기술을 활용한 서비스가 급속히 증가하고 있다. 서비스 구축을 위해서 인공지능은 심층신경망을 훈련해야 하며, 이를 위해서는 충분한 훈련 데이터를 준비해야 한다. 특히 훈련 데이터에 정답지를 만드는 레이블링(labeling) 과정이 필요한데 (예를 들어, 고양이 사진에 `고양이'라고 정답을 적어줌), 이 과정은 일반적으로 수작업으로 진행되므로 엄청난 노동력과 시간적 비용이 소요된다. 따라서 훈련 데이터 구축 비용을 최소화하는 방법 개발이 요구되고 있다. 우리 대학 전산학부 이재길 교수 연구팀이 심층 학습 훈련 데이터 구축 비용을 최소화할 수 있는 새로운 데이터 동시 정제 및 선택 기술을 개발했다고 12일 밝혔다. 일반적으로 심층 학습용 훈련 데이터 구축 과정은 수집, 정제, 선택 및 레이블링 단계로 이뤄진다. 수집 단계에서는 웹, 카메라, 센서 등으로부터 대용량의 데이터가 정제되지 않은 채로 수집된다. 따라서 수집된 데이터에는 목표 서비스와 관련이 없어서 주어진 레이블에 해당하지 않는 분포 외(out-of-distribution) 데이터가 포함된다 (예를 들어, 동물 사진을 수집할 때 재규어 `자동차'가 포함됨). 이러한 분포 외 데이터는 데이터 정제 단계에서 정제돼야 한다. 모든 정제된 데이터에 정답지를 만들기 위해서는 막대한 비용이 소모되는데, 이를 최소화하기 위해 심층 학습 성능 향상에 가장 도움이 되는 훈련 데이터를 먼저 선택해 레이블링하는 능동 학습(active learning)이 큰 주목을 받고 있다. 그러나 정제와 레이블링을 별도로 진행하는 것은 데이터 검사 측면에서 중복적인 비용을 초래한다. 또한 아직 정제되지 않고 남아 있는 분포 외 데이터가 레이블링 단계에서 선택된다면 레이블링 노력을 낭비할 수 있다. 이재길 교수팀이 개발한 기술은 훈련 데이터 구축 단계에서 데이터의 정제 및 선택을 동시에 수행해 심층 학습용 훈련 데이터 구축 비용을 최소화할 수 있도록 해준다. 우리 대학 데이터사이언스대학원에 재학 중인 박동민 박사과정 학생이 제1 저자, 신유주 박사과정, 이영준 박사과정 학생이 제2, 제4 저자로 각각 참여한 이번 연구는 최고권위 국제학술대회 `신경정보처리시스템학회(NeurIPS) 2022'에서 올 12월 발표될 예정이다. (논문명 : Meta-Query-Net: Resolving Purity-Informativeness Dilemma in Open-set Active Learning) 데이터의 정제 및 선택을 동시에 고려하기 위해서 구체적으로 가장 분포 외 데이터가 아닐 것 같은 데이터 중에서 가장 심층 학습 성능 향상에 도움이 될 데이터를 선택한다. 즉, 주어진 훈련 데이터 구축 비용 내에서 최고의 효과를 내도록 데이터의 순도(purity) 지표와 정보도(informativeness) 지표의 최적 균형(trade-off)을 찾는다. 순도와 정보도는 일반적으로 서로 상충하므로 최적 균형을 찾는 것이 간단하지 않다. 이 교수팀은 이러한 최적 균형이 정제 전 데이터의 분포 외 데이터 비율과 현재 심층신경망 훈련 정도에 따라 달라진다는 점을 발견했다. 이 교수팀은 이러한 최적 균형을 찾아내기 위해 추가적인 작은 신경망 모델을 도입했다. 연구팀은 추가된 모델을 훈련하기 위해 능동 학습에서 여러 단계에 걸쳐 데이터를 선별하는 과정을 활용했다. 즉, 새롭게 선택돼 레이블링 된 데이터를 순도-정보도 최적 균형을 찾기 위한 훈련 데이터로 활용했고, 레이블이 추가될 때마다 최적 균형을 갱신했다. 이러한 방법은 목표 심층신경망의 성능 향상을 위해 추가적인 상위 레벨의 신경망을 사용하였다는 점에서 메타학습(meta-learning)의 일종이라 볼 수 있다. 연구팀은 이 메타학습 방법론을 `메타 질의 네트워크'라고 이름 붙이고 이미지 분류 문제에 대해 다양한 데이터와 광범위한 분포 외 데이터 비율에 걸쳐 방법론을 검증했다. 그 결과, 기존 최신 방법론과 비교했을 때 최대 20% 향상된 최종 예측 정확도를 향상했고, 모든 범위의 분포 외 데이터 비율에서 일관되게 최고 성능을 보였다. 또한, `메타 질의 네트워크'의 최적 균형 분석을 통해, 분포 외 데이터의 비율이 낮고 현재 심층신경망의 성능이 높을수록 정보도에 높은 가중치를 둬야 함을 연구팀은 밝혀냈다. 제1 저자인 박동민 박사과정 학생은 "이번 기술은 실세계 능동 학습에서의 순도-정보도 딜레마를 발견하고 해결한 획기적인 방법ˮ 이라면서 "다양한 데이터 분포 상황에서의 강건성이 검증됐기 때문에, 실생활의 기계 학습 문제에 폭넓게 적용될 수 있어 전반적인 심층 학습의 훈련 데이터 준비 비용 절감에 기여할 것ˮ 이라고 밝혔다. 연구팀을 지도한 이재길 교수도 "이 기술이 텐서플로우(TensorFlow) 혹은 파이토치(PyTorch)와 같은 기존의 심층 학습 라이브러리에 추가되면 기계 학습 및 심층 학습 학계에 큰 파급효과를 낼 수 있을 것이다ˮ고 말했다. 한편, 이 기술은 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받아 SW컴퓨팅산업원천기술개발사업 SW스타랩 과제로 개발한 연구성과 결과물(2020-0-00862, DB4DL: 딥러닝 지원 고사용성 및 고성능 분산 인메모리 DBMS 개발)이다.
2022.10.12
조회수 6707
소량의 데이터로 딥러닝 정확도 향상기술 발표
최근 다양한 분야에서 심층 학습(딥러닝) 기술을 활용한 서비스가 급속히 증가하고 있다. 서비스 구축을 위해서는 심층 학습 모델을 훈련해야 하며, 이를 위해서는 충분한 훈련 데이터를 준비해야 한다. 특히 훈련 데이터에 정답지를 만드는 레이블링(labeling) 과정이 필요한데 (예를 들어, 낙타 사진에 `낙타'라고 정답을 적어줌), 이 과정은 일반적으로 수작업으로 진행되므로 엄청난 노동력과 시간이 소요된다. 따라서 훈련 데이터가 충분하지 않은 상황을 효과적으로 타개하는 방법이 요구되고 있다. 우리 대학 전산학부 이재길 교수 연구팀이 적은 양의 훈련 데이터가 존재할 때도 높은 예측 정확도를 달성할 수 있는 새로운 모델 훈련 기술을 개발했다고 27일 밝혔다. 심층 학습 모델의 훈련은 주어진 훈련 데이터에서 레이블과 관련성이 높은 특성을 찾아내는 과정으로 볼 수 있다. 예를 들어, `낙타'의 주요 특성이 등에 있는 `혹'이라는 것을 알아내는 것이다. 그런데 훈련 데이터가 불충분할 경우 바람직하지 않은 특성까지도 같이 추출될 수 있는 문제가 발생한다. 예를 들어, 낙타 사진의 배경으로 종종 사막이 등장하기에 낙타에 대한 특성으로 `사막'이 추출되는 것도 가능하다. 사막은 낙타의 고유한 특성이 아닐뿐더러, 이러한 바람직하지 않은 특성으로 인해 사막이 아닌 곳(예: 동물원)에 있는 낙타는 인식하지 못할 수 있다. 이 교수팀이 개발한 기술은 심층 학습 모델의 훈련에서 바람직하지 않은 특성을 억제해 충분하지 않은 훈련 데이터를 가지고도 높은 예측 정확도를 달성할 수 있게 해준다. 우리 대학 지식서비스공학대학원에 재학 중인 박동민 박사과정 학생이 제1 저자, 송환준 박사, 김민석 박사과정 학생이 제2, 제3 저자로 각각 참여한 이번 연구는 최고권위 국제학술대회 `신경정보처리시스템학회(NeurIPS) 2021'에서 올 12월 발표될 예정이다. (논문명 : Task-Agnostic Undesirable Feature Deactivation Using Out-of-Distribution Data) 바람직하지 않은 특성을 억제하기 위해서 분포 外(out-of-distribution) 데이터를 활용한다. 예를 들어, 낙타와 호랑이 사진의 분류를 위한 훈련 데이터에 대해 여우 사진은 분포 외 데이터가 된다. 이때 이 교수팀이 착안한 점은 훈련 데이터에 존재하는 바람직하지 않은 특성은 분포 외 데이터에도 존재할 수 있다는 점이다. 즉, 위의 예에서 여우 사진의 배경으로도 사막이 나올 수 있다. 따라서 다량의 분포 외 데이터를 추가로 활용해 여기에서 추출된 특성은 영(0) 벡터가 되도록 심층 학습 모델의 훈련 과정을 규제해 바람직하지 않은 특성의 효과를 억제한다. 훈련 과정을 규제한다는 측면에서 정규화 방법론의 일종이라 볼 수 있다. 분포 외 데이터는 쓸모없는 것이라 여겨지고 있었으나, 이번 기술에 의해 훈련 데이터 부족을 해소할 수 있는 유용한 보완재로 탈바꿈될 수 있다. 연구팀은 이 정규화 방법론을 `비선호(比選好) 특성 억제'라고 이름 붙이고 이미지 데이터 분석의 세 가지 주요 문제에 적용했다. 그 결과, 기존 최신 방법론과 비교했을 때, 이미지 분류 문제에서 최대 12% 예측 정확도를 향상했고, 객체 검출 문제에서 최대 3% 예측 정확도를 향상했으며, 객체 지역화 문제에서 최대 8% 예측 정확도를 향상했다. 제1 저자인 박동민 박사과정 학생은 "이번 기술은 훈련 데이터 부족 현상을 해결할 수 있는 새로운 방법ˮ 이라면서 "분류, 회귀 분석을 비롯한 다양한 기계 학습 문제에 폭넓게 적용될 수 있어, 심층 학습의 전반적인 성능 개선에 기여할 수 있다ˮ 고 밝혔다. 연구팀을 지도한 이재길 교수도 "이 기술이 텐서플로우(TensorFlow) 혹은 파이토치(PyTorch)와 같은 기존의 심층 학습 라이브러리에 추가되면 기계 학습 및 심층 학습 학계에 큰 파급효과를 낼 수 있을 것이다ˮ고 말했다. 한편, 이 기술은 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받아 SW컴퓨팅산업원천기술개발사업 SW스타랩 과제로 개발한 연구성과 결과물(2020-0-00862, DB4DL: 딥러닝 지원 고사용성 및 고성능 분산 인메모리 DBMS 개발)이다. (끝).
2021.10.27
조회수 9931
우수한 소재를 설계하는 딥러닝 방법론 개발
우리 대학 기계공학과 유승화 교수 연구팀이 능동-전이 학습 (active-transfer learning)과 데이터 증강기법(Data augmentation)에 기반해, 심층신경망 초기 훈련에 쓰인 소재들과 형태와 조합이 매우 다른 우수한 특성을 지닌 소재를 효율적으로 탐색하고 설계하는 방법론을 개발했다고 16일 밝혔다. 인공신경망에 기반해 방대한 설계 공간에서 새로운 소재를 찾기 위한 역설계 연구는 최근 매우 활발하게 진행되고 있다. 하지만 이러한 기존 설계 방식은 목표로 하는 소재의 형태와 조합이 심층신경망 훈련에 활용된 소재들과 매우 다를 때 인공신경망이 가지는 낮은 예측능력으로 인해 극히 많은 수의 소재 데이터 검증이 요구되며, 이에 따라 제한적으로만 활용이 가능하다. 연구팀은 이번 연구에서 이를 극복하기 위해 초기 훈련 데이터 영역에서 벗어나 우수한 소재를 효율적으로 탐색할 수 있는 인공신경망 기반 전진 설계 (Forward design) 방법론을 제안했다. 이 방법론은, <그림 1>에 도시된 바와 같이 유전 알고리즘과 결합된 능동-전이 학습 및 데이터 증강기법을 통해 심층신경망을 점진적으로 업데이트함으로써, 초기 훈련데이터를 벗어난 영역에서 심층신경망의 낮은 예측능력을 적은 숫자의 데이터 검증 및 추가로 보완한다. 유전 알고리즘에 의해 제안되는 우수 소재 후보군은 기보유한 소재 데이터를 조합해 도출하기 때문에 심층신경망의 신뢰할 수 있는 예측 영역과 설계 공간 측면에서 상대적으로 가까워 예측정확도가 유지된다. 이 후보군과 능동-전이 학습을 활용해 점진적으로 심층신경망의 신뢰성 있는 예측 범위를 확장하면, 초기 훈련데이터 영역 밖에서도 적은 데이터를 생성해 효율적인 설계 과정이 가능하다. 이번 방법은 천문학적인 수의 설계 구성을 가지는 그리드 복합소재 최적화 문제에 적용해 검증했으며, 이를 통해 전체 가능한 복합재 구조의 1029분의 1 가량인 10만 개의 복합재들만 초기 훈련 데이터로 활용해 심층신경망을 학습한 후, 이후 약 500개에 미치지 못하는 데이터 검증을 통해 초기 훈련에 쓰인 복합재와 매우 다른 구조를 가지고 우수한 특성을 지닌 복합재 구조를 설계할 수 있음을 보였다. 연구진이 개발한 방법론은 국소 최적점(Local optima)에 수렴하는 문제를 완화하면서도 인공신경망의 신뢰할 수 있는 예측 영역을 점진적으로 확장하는 효율적인 방법을 제공하기 때문에, 큰 설계 공간을 다루는 다양한 분야의 최적화 문제에 적용할 수 있을 것으로 기대되며, 특히 설계에 요구되는 데이터 검증의 숫자가 적기 때문에 데이터 생성에 시간이 오래 걸리고 비용이 많이 드는 설계 문제에서 이 방법론이 크게 활용될 수 있을 것으로 기대된다. 이번 연구는 공동 제 1저자 김용태 박사과정, 김영수 박사(한국기계연구원) 주도하에 진행됐으며, 유승화 교수(우리 대학 기계공학과)가 교신저자로 참여해, 국제학술지인 `npj 컴퓨테이셔널 머터리얼(Computational Material, IF:12.241)'에 `Deep Learning Framework for Material Design Space Exploration using Active Transfer Learning and Data Augmentation' 라는 제목으로 게재됐다. 이번 연구는 한국연구재단의 중견 연구자지원사업(3D 프린팅 복합재의 최적설계기법 및 피로수명 예측기법 개발)과 미래소재 디스커버리 사업 (레이저-물질 상호작용 멀티스케일 모델링을 통한 분자디자인), KAIST 글로벌 특이점 프렙 사업의 지원을 통해 수행됐다.
2021.09.16
조회수 9720
인공지능으로 3차원 고해상도 나노입자 영상화 기술 개발
우리 대학 바이오및뇌공학과 예종철 교수 연구팀이 삼성전자 종합기술원과 공동연구를 통해 나노입자의 3차원 형상과 조성 분포의 복원 성능을 획기적으로 향상한 인공지능 기술을 개발했다고 16일 밝혔다. 공동연구팀은 에너지 분산형 X선 분광법(EDX)을 주사 투과전자현미경(STEM)과 결합한 시스템을 활용했다. 이번 연구를 통해 나노입자를 형성하고 있는 물질의 형상과 조성 분포를 정확하게 재구성함으로써, 실제 상용 디스플레이를 구성하는 양자점(퀀텀닷)과 같은 반도체 입자의 정확한 분석에 도움을 줄 것으로 기대된다. 예종철 교수 연구팀의 한요섭 박사, 차은주 박사과정, 정형진 석사과정과 삼성종합기술원의 이은하 전문연구원팀의 장재덕, 이준호 전문연구원이 공동 제1 저자로 참여한 이번 연구 결과는 국제 학술지 `네이처 머신 인텔리전스(Nature Machine Intelligence)' 2월 8일 字 온라인판에 게재됐다. (논문명 : Deep learning STEM-EDX tomography of nanocrystals) 에너지 분산형 X선 분광법(이하 EDX)은 나노입자의 성분 분석에 주로 이용되며, X선과 반응한 물체의 성분에 따라 고유한 방출 스펙트럼을 보인다는 점에서 화학적인 분석이 가능하다. 퀀텀닷 및 배터리 등 다양한 나노 소재의 열화 메커니즘과 결함을 해석하기 위해 형상 및 조성 분포 분석이 가능한 이 분광법의 필요성과 중요도가 급증하고 있다. 그러나 EDX 측정 신호의 해상도를 향상하기 위해, 나노 소재를 오랜 시간 전자빔에 노출하면 소재의 영구적인 피해가 발생한다. 이로 인해 나노입자의 3차원 영상화를 위한 투사(projection) 데이터 획득 시간이 제한되며, 한 각도에서의 스캔 시간을 단축하거나 측정하는 각도를 줄이는 방식이 사용된다. 기존의 방식으로 획득된 투사 데이터를 이용해 3차원 영상을 복원할 시, 미량 존재하는 원자 신호의 측정이 불가능하거나 복원 영상의 정밀도와 해상도가 매우 낮다. 그러나 공동 연구팀이 자체 개발한 인공지능 기반의 커널 회귀(kernel regression)와 투사 데이터 향상(projection enhancement)은 정밀도와 해상도를 획기적으로 발전시켰다. 연구팀은 측정된 데이터의 분포를 네트워크가 스스로 학습하는 인공지능 기반의 커널 회귀를 통해 스캔 시간이 단축된 투사 데이터의 신호 대 잡음비(SNR)를 높인 데이터를 제공하는 네트워크를 개발했다. 그리고 개선된 고화질의 EDX 투사 데이터를 기반으로 기존의 방법으로는 불가능했던 적은 수의 투사 데이터로부터 더욱 정확한 3차원 복원 영상을 제공하는 데 성공했다. 연구팀이 개발한 알고리즘은 기존의 EDX 측정 신호 기반 3차원 재구성 기법과 비교해 나노입자를 형성하고 있는 원자의 형상과 경계를 뚜렷하게 구별했으며, 복원된 다양한 코어-쉘(core-shell) 구조의 퀀텀닷 3차원 영상이 샘플의 광학적 특성과 높은 상관관계를 나타내는 것이 확인됐다. 예종철 교수는 "연구에서 개발한 인공지능 기술을 통해 상용 디스플레이의 핵심 기반이 되는 퀀텀닷 및 반도체 소자의 양자 효율과 화학적 안정성을 더욱 정밀하게 분석할 수 있다ˮ고 말했다.
2021.02.16
조회수 81918
<<
첫번째페이지
<
이전 페이지
1
>
다음 페이지
>>
마지막 페이지 1