본문 바로가기
대메뉴 바로가기
KAIST
연구뉴스
유틸열기
홈페이지 통합검색
-
검색
메뉴 열기
%EB%8D%B0%EC%9D%B4%ED%84%B0
최신순
조회순
인공지능 및 빅데이터 시대를 이끌어갈 차세대 CXL2.0 메모리 확장 플랫폼 세계 최초 개발
우리 대학 전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 메모리 시스템 연구실)이 대용량 메모리 장치부터 프로세스를 포함한 컴퓨트 익스프레스 링크(CXL) 2.0 기반의 차세대 메모리 확장 플랫폼 ‘다이렉트CXL(이하 DirectCXL)’을 세계 최초로 프로토타입 제작, 운영체제가 실장된 단대단(End-to-End) 시연에 성공했다고 1일 밝혔다. 오늘날 빅데이터 분석, 그래프 분석, 인메모리 데이터베이스 등 대규모 데이터에 기반한 응용처리가 증가함에 따라, 데이터 센터에서는 이를 더 빠르고 효율적으로 처리하기 위해 시스템의 메모리 확장에 많은 투자를 하고 있다. 그러나 우리가 흔히 알고 있는 메모리 확장 방식인 더블 데이터 대역폭(DDR) 인터페이스를 통한 메모리 확장은 추가할 수 있는 메모리 개수의 제한이 있어, 대규모 데이터 기반의 응용을 처리하기에 충분치 않다. 따라서 데이터 센터에서는 CPU와 메모리로 이루어진 메모리 노드들을 따로 구성하고, 응용을 수행하는 호스트의 메모리가 부족하면 네트워크로 연결된 메모리 노드를 자신의 메모리 공간으로 사용하는 원격 데이터 전송 기술(이하 RDMA) 기반의 메모리 확장을 사용한다. 여러 메모리 노드를 사용하는 RDMA 기반의 메모리 확장을 통해 데이터센터는 시스템의 메모리 크기를 늘릴 수 있었지만, 여전히 해결해야 할 문제들이 남아있었다. 우선 RDMA 기반 메모리 확장 시스템에서는 노드 간 데이터 이동 시 불필요한 데이터 복사, 소프트웨어의 개입 그리고 프로토콜 전환으로 인한 지연을 발생시켜 성능 저하가 발생했다. 또한 시스템의 메모리 확장 시 메모리만을 추가할 수 있는 것이 아닌, 메모리와 메모리를 제어할 CPU가 하나의 메모리 노드를 이루어 시스템에 추가되어야 했기 때문에, 추가적인 비용 소모가 발생했다. 최근 컴퓨트 익스프레스 링크(Compute Express Link, 이하 CXL) 프로토콜의 등장으로 많은 메모리 고객사와 제조사가 이러한 문제를 해결할 가능성을 확인하고 있다. CXL은 PCI 익스프레스(PCIe) 인터페이스 기반의 CPU-장치(Device) 간 연결을 위한 프로토콜로, 이를 기반으로 한 장치 연결은 기존보다 높은 성능과 확장성을 지원하는 것이 특징이다. 국내외 유수 기업들이 모여 CXL 인터페이스 표준 규약을 제안하는 CXL 컨소시엄은 지난 2019년 CXL 1.0/1.1을 처음 제안했고, 이후 CXL 2.0을 발표하며 CXL 1.0/1.1에서 하나의 포트당 하나의 지역 메모리 장치만을 연결할 수 있었던 확장성 문제를 스위치 네트워크를 통해 개선, 하나의 포트를 여러 포트로 확장할 수 있도록 했다. 따라서 CXL 1.0/1.1과 달리 CXL 2.0에서는 확장된 포트에 다수의 원격 CXL 메모리 장치를 연결하는 것이 가능해 더 높은 확장성을 지원할 수 있게 됐다. 그러나 CXL 2.0의 높은 확장성에도 불구하고, 아직 CXL 연구의 방향성을 제시해줄 수 있는 시제품 개발 및 연구들이 진행되지 않아, 메모리 업계와 학계에서는 여전히 CXL1.0/1.1을 기반으로 지역 메모리 확장 장치, 시제품 개발 및 연구를 진행하고 있는 실정이다. 따라서 새로운 CXL 2.0을 통한 메모리 확장 연구의 방향성 초석을 제시할 필요성이 커졌다. 정명수 교수 연구팀이 전 세계 최초로 프로토타입한 CXL 2.0 기반 메모리 확장 플랫폼 ‘DirectCXL’은 높은 수준의 메모리 확장성을 제공하며, 빠른 속도로 대규모 데이터 처리를 가능케 한다. 이를 위해 연구팀은 메모리를 확장해 줄 장치인 ‘CXL 메모리 장치’와 호스트 ‘CXL 프로세서 (CPU)’, 여러 호스트를 다수의 CXL 메모리 장치에 연결해주는 ‘CXL 네트워크 스위치’ 그리고 메모리 확장 플랫폼 전반을 제어할 리눅스 운영체제 기반의‘CXL 소프트웨어 모듈’을 개발해 플랫폼을 구성했다. 구성된 ‘DirectCXL’ 플랫폼을 사용한 시스템에서는 확장된 메모리 공간에 직접 접근해 데이터를 CPU의 캐시로 가져와 불필요한 메모리 복사와 소프트웨어의 개입이 없으며, PCIe 인터페이스만을 사용해 프로토콜 전환을 없애 지연시간을 최대한 줄였다. 또한 추가적인 CPU가 필요 없는 CXL 메모리 장치를 CXL 스위치에 연결하는 것만으로 메모리 확장이 가능해 효율적인 시스템의 구성이 가능했다. 국내외 소수 대기업에서 메모리 장치 일부 단품에 대한 구성을 보여준 준 사례는 있지만, CXL 2.0 기반, CPU부터 CXL 스위치, 메모리 장치가 장착된 시스템에서 운영체제를 동작시키고 데이터 센터와 응용을 실행하고 시연한 것은 정명수 교수 연구팀이 처음이다. 연구팀은 자체 제작한 메모리 확장 플랫폼 ‘DirectCXL’의 성능을 검증하기 위해 CXL 동작이 가능한 다수의 자체 개발 호스트 컴퓨터가 CXL 네트워크 스위치를 통해 연결된 다수 CXL 메모리 장치들을 제어하는 환경을 구성했다. 이후 구성된 플랫폼을 통해 CXL 메모리 장치의 성능을 기존 RDMA 기반 메모리 확장 솔루션과 비교했다. 연구팀이 제안한 ‘DirectCXL’은 확장된 메모리에 대한 접근 시간 검증에서 기존 RDMA 기반의 메모리 확장 솔루션 대비 8.3배의 성능 향상을 보였으며, 많은 메모리 접근을 요구하는 그래프 응용처리 및 인 메모리 데이터베이스 응용처리에서도 각각 2.3배, 2배의 성능 향상을 이뤄냈다. 정명수 교수는 "이번에 개발된 ‘DirectCXL’은 기존 RDMA기반 메모리 확장 솔루션보다 훨씬 적은 비용으로도 뛰어난 성능과 높은 확장성을 제공하는 만큼 데이터센터나 고성능 컴퓨팅 시스템에서의 수요가 클 것으로 기대한다ˮ며, "세계 최초로 개발된 CXL 2.0 기반의 단대단 프로토타입 플랫폼을 활용해 CXL이 적용된 새로운 운영체제(OS)는 물론 시스템 소프트웨어, 솔루션 시제품 고도화를 통해 향후 CXL을 활용한 시스템 구축에 초석을 제공할 것이다ˮ라고 말했다. 한편 이번 연구는 미국 칼스배드에서 지난 7월에 11에 열린 시스템 분야 최우수 학술대회인 유즈닉스 연례 회의 `USENIX Annual Technical Conference, 2022'에 ‘DirectCXL’이라는 논문명(Direct Access, High-performance Memory Disaggregation with DirectCXL)으로 발표되었다. 또한 미국 산호세에서 열리는 8월 2/3일에 플래시 메모리 정상회담(Flash Memory Summit)에서 CXL 컨소시움이 이끄는 CXL포럼에 발표될 예정이다. ‘DirectCXL’의 자세한 내용은 연구실 웹사이트(http://camelab.org)에서 확인할 수 있다. DirectCXL은 데이터센터와 클라우드 시스템에서 다양한 응용에 쉽게 적용 가능하며, 하나의 실시예로 메타(페이스북) 추천시스템 기계학습 데이터 가속에 대한 시연 영상을 연구실 유튜브(https://youtu.be/jm8k-JM0qbM) 에서 확인할 수 있다. 해당 영상은 각 개인의 대규모 특성 자료들(텐서)을 CXL 메모리 풀에 올려두고 빅데이터를 활용한 인공지능이 친구나 광고 등 개인 특성에 맞는 자료들을 추천하게 하는 시스템으로 기존 데이터 센터의 원격메모리에 비해 3.2배 이상의 사용자 수준 성능 향상을 보여주고 있다.
2022.08.01
조회수 7476
소량의 데이터로 딥러닝 정확도 향상기술 발표
최근 다양한 분야에서 심층 학습(딥러닝) 기술을 활용한 서비스가 급속히 증가하고 있다. 서비스 구축을 위해서는 심층 학습 모델을 훈련해야 하며, 이를 위해서는 충분한 훈련 데이터를 준비해야 한다. 특히 훈련 데이터에 정답지를 만드는 레이블링(labeling) 과정이 필요한데 (예를 들어, 낙타 사진에 `낙타'라고 정답을 적어줌), 이 과정은 일반적으로 수작업으로 진행되므로 엄청난 노동력과 시간이 소요된다. 따라서 훈련 데이터가 충분하지 않은 상황을 효과적으로 타개하는 방법이 요구되고 있다. 우리 대학 전산학부 이재길 교수 연구팀이 적은 양의 훈련 데이터가 존재할 때도 높은 예측 정확도를 달성할 수 있는 새로운 모델 훈련 기술을 개발했다고 27일 밝혔다. 심층 학습 모델의 훈련은 주어진 훈련 데이터에서 레이블과 관련성이 높은 특성을 찾아내는 과정으로 볼 수 있다. 예를 들어, `낙타'의 주요 특성이 등에 있는 `혹'이라는 것을 알아내는 것이다. 그런데 훈련 데이터가 불충분할 경우 바람직하지 않은 특성까지도 같이 추출될 수 있는 문제가 발생한다. 예를 들어, 낙타 사진의 배경으로 종종 사막이 등장하기에 낙타에 대한 특성으로 `사막'이 추출되는 것도 가능하다. 사막은 낙타의 고유한 특성이 아닐뿐더러, 이러한 바람직하지 않은 특성으로 인해 사막이 아닌 곳(예: 동물원)에 있는 낙타는 인식하지 못할 수 있다. 이 교수팀이 개발한 기술은 심층 학습 모델의 훈련에서 바람직하지 않은 특성을 억제해 충분하지 않은 훈련 데이터를 가지고도 높은 예측 정확도를 달성할 수 있게 해준다. 우리 대학 지식서비스공학대학원에 재학 중인 박동민 박사과정 학생이 제1 저자, 송환준 박사, 김민석 박사과정 학생이 제2, 제3 저자로 각각 참여한 이번 연구는 최고권위 국제학술대회 `신경정보처리시스템학회(NeurIPS) 2021'에서 올 12월 발표될 예정이다. (논문명 : Task-Agnostic Undesirable Feature Deactivation Using Out-of-Distribution Data) 바람직하지 않은 특성을 억제하기 위해서 분포 外(out-of-distribution) 데이터를 활용한다. 예를 들어, 낙타와 호랑이 사진의 분류를 위한 훈련 데이터에 대해 여우 사진은 분포 외 데이터가 된다. 이때 이 교수팀이 착안한 점은 훈련 데이터에 존재하는 바람직하지 않은 특성은 분포 외 데이터에도 존재할 수 있다는 점이다. 즉, 위의 예에서 여우 사진의 배경으로도 사막이 나올 수 있다. 따라서 다량의 분포 외 데이터를 추가로 활용해 여기에서 추출된 특성은 영(0) 벡터가 되도록 심층 학습 모델의 훈련 과정을 규제해 바람직하지 않은 특성의 효과를 억제한다. 훈련 과정을 규제한다는 측면에서 정규화 방법론의 일종이라 볼 수 있다. 분포 외 데이터는 쓸모없는 것이라 여겨지고 있었으나, 이번 기술에 의해 훈련 데이터 부족을 해소할 수 있는 유용한 보완재로 탈바꿈될 수 있다. 연구팀은 이 정규화 방법론을 `비선호(比選好) 특성 억제'라고 이름 붙이고 이미지 데이터 분석의 세 가지 주요 문제에 적용했다. 그 결과, 기존 최신 방법론과 비교했을 때, 이미지 분류 문제에서 최대 12% 예측 정확도를 향상했고, 객체 검출 문제에서 최대 3% 예측 정확도를 향상했으며, 객체 지역화 문제에서 최대 8% 예측 정확도를 향상했다. 제1 저자인 박동민 박사과정 학생은 "이번 기술은 훈련 데이터 부족 현상을 해결할 수 있는 새로운 방법ˮ 이라면서 "분류, 회귀 분석을 비롯한 다양한 기계 학습 문제에 폭넓게 적용될 수 있어, 심층 학습의 전반적인 성능 개선에 기여할 수 있다ˮ 고 밝혔다. 연구팀을 지도한 이재길 교수도 "이 기술이 텐서플로우(TensorFlow) 혹은 파이토치(PyTorch)와 같은 기존의 심층 학습 라이브러리에 추가되면 기계 학습 및 심층 학습 학계에 큰 파급효과를 낼 수 있을 것이다ˮ고 말했다. 한편, 이 기술은 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받아 SW컴퓨팅산업원천기술개발사업 SW스타랩 과제로 개발한 연구성과 결과물(2020-0-00862, DB4DL: 딥러닝 지원 고사용성 및 고성능 분산 인메모리 DBMS 개발)이다. (끝).
2021.10.27
조회수 9940
우수한 소재를 설계하는 딥러닝 방법론 개발
우리 대학 기계공학과 유승화 교수 연구팀이 능동-전이 학습 (active-transfer learning)과 데이터 증강기법(Data augmentation)에 기반해, 심층신경망 초기 훈련에 쓰인 소재들과 형태와 조합이 매우 다른 우수한 특성을 지닌 소재를 효율적으로 탐색하고 설계하는 방법론을 개발했다고 16일 밝혔다. 인공신경망에 기반해 방대한 설계 공간에서 새로운 소재를 찾기 위한 역설계 연구는 최근 매우 활발하게 진행되고 있다. 하지만 이러한 기존 설계 방식은 목표로 하는 소재의 형태와 조합이 심층신경망 훈련에 활용된 소재들과 매우 다를 때 인공신경망이 가지는 낮은 예측능력으로 인해 극히 많은 수의 소재 데이터 검증이 요구되며, 이에 따라 제한적으로만 활용이 가능하다. 연구팀은 이번 연구에서 이를 극복하기 위해 초기 훈련 데이터 영역에서 벗어나 우수한 소재를 효율적으로 탐색할 수 있는 인공신경망 기반 전진 설계 (Forward design) 방법론을 제안했다. 이 방법론은, <그림 1>에 도시된 바와 같이 유전 알고리즘과 결합된 능동-전이 학습 및 데이터 증강기법을 통해 심층신경망을 점진적으로 업데이트함으로써, 초기 훈련데이터를 벗어난 영역에서 심층신경망의 낮은 예측능력을 적은 숫자의 데이터 검증 및 추가로 보완한다. 유전 알고리즘에 의해 제안되는 우수 소재 후보군은 기보유한 소재 데이터를 조합해 도출하기 때문에 심층신경망의 신뢰할 수 있는 예측 영역과 설계 공간 측면에서 상대적으로 가까워 예측정확도가 유지된다. 이 후보군과 능동-전이 학습을 활용해 점진적으로 심층신경망의 신뢰성 있는 예측 범위를 확장하면, 초기 훈련데이터 영역 밖에서도 적은 데이터를 생성해 효율적인 설계 과정이 가능하다. 이번 방법은 천문학적인 수의 설계 구성을 가지는 그리드 복합소재 최적화 문제에 적용해 검증했으며, 이를 통해 전체 가능한 복합재 구조의 1029분의 1 가량인 10만 개의 복합재들만 초기 훈련 데이터로 활용해 심층신경망을 학습한 후, 이후 약 500개에 미치지 못하는 데이터 검증을 통해 초기 훈련에 쓰인 복합재와 매우 다른 구조를 가지고 우수한 특성을 지닌 복합재 구조를 설계할 수 있음을 보였다. 연구진이 개발한 방법론은 국소 최적점(Local optima)에 수렴하는 문제를 완화하면서도 인공신경망의 신뢰할 수 있는 예측 영역을 점진적으로 확장하는 효율적인 방법을 제공하기 때문에, 큰 설계 공간을 다루는 다양한 분야의 최적화 문제에 적용할 수 있을 것으로 기대되며, 특히 설계에 요구되는 데이터 검증의 숫자가 적기 때문에 데이터 생성에 시간이 오래 걸리고 비용이 많이 드는 설계 문제에서 이 방법론이 크게 활용될 수 있을 것으로 기대된다. 이번 연구는 공동 제 1저자 김용태 박사과정, 김영수 박사(한국기계연구원) 주도하에 진행됐으며, 유승화 교수(우리 대학 기계공학과)가 교신저자로 참여해, 국제학술지인 `npj 컴퓨테이셔널 머터리얼(Computational Material, IF:12.241)'에 `Deep Learning Framework for Material Design Space Exploration using Active Transfer Learning and Data Augmentation' 라는 제목으로 게재됐다. 이번 연구는 한국연구재단의 중견 연구자지원사업(3D 프린팅 복합재의 최적설계기법 및 피로수명 예측기법 개발)과 미래소재 디스커버리 사업 (레이저-물질 상호작용 멀티스케일 모델링을 통한 분자디자인), KAIST 글로벌 특이점 프렙 사업의 지원을 통해 수행됐다.
2021.09.16
조회수 9728
신소재 데이터 고속 분석을 위한 인공지능 훈련 방법론 개발
우리 대학 신소재공학과 홍승범 교수 연구팀이 시뮬레이션을 기반으로 한 신소재 데이터 분석을 위한 인공지능을 개발했다고 24일 밝혔다. 최근 컴퓨팅 파워가 기하급수적으로 증가함에 따라 인공지능을 활용한 다양한 응용들이 실생활에 활용되고 있으며, 이에 인공지능을 활용해 신소재 데이터를 고속으로 분석하고 소재를 역설계하는 기술의 연구 역시 가속화되고 있다. 최근 인공지능의 효율 및 정확도를 증가시키는 연구를 바탕으로 자율주행 자동차, 데이터베이스 기반의 마케팅 및 물류 시스템 보조 등의 분야에 인공지능의 활용이 높아지고 있다. 특히 신소재 개발에 장시간이 소요되는 점을 고려할 때, 소재 및 공정 개발에 인공지능을 활용해 다양한 구조 및 물성 데이터 사이의 상관관계를 빠르게 분석해 신소재 개발 소요 시간을 획기적으로 줄일 수 있는 인공지능 방법론이 주목을 받고 있다. 그러나 신소재 데이터의 경우, 대량의 유의미한 실험 데이터를 구하기 어렵고 기업들이 중요한 데이터는 대외비로 취급하고 있어서 인공지능을 소재 데이터 영역에 적용하는 것이 상당히 어려운 것이 현실이다. 이런 데이터의 다양성, 크기 및 접근성 문제가 해결돼야 하며, 이를 보완하기 위해 생성 모델 및 적절한 데이터의 합성에 관한 연구가 진행되고 있다. 인공지능의 성능 향상을 위해 생성되는 데이터 또한 실제 소재가 가지는 물리적 제약을 따라야 하며, 소재 데이터의 재료적 특징을 파악할 수 있는 기술이 필요하다. 홍승범 교수 연구팀이 이번에 개발한 인공지능 훈련 방법론은 훈련을 위해 생성되는 데이터가 물리적 제약을 공유하도록 위상 필드 시뮬레이션을 활용해 기초 데이터를 형성하고 소재 데이터가 가지고 있는 실제 측정 과정에서 발생하는 다양한 잡음, 입자의 분포 정보 및 입자의 경계를 모사해 크기가 작은 소재 데이터의 한계를 해결했다. 기존에 수작업으로 작성한 소재 데이터를 활용한 인공지능과의 상 분리 성능을 비교했으며, 생성된 데이터의 모사 요소가 상 분리에 영향을 미치는 영향을 파악했다. 아울러 이번 연구에서 제시하는 소재 데이터 생성을 활용한 인공지능 훈련 방법은 기존의 수작업으로 훈련 데이터를 준비하는 시간을 크게 단축할 수 있으며, 인공지능의 전이 학습 및 다양한 물리적 제약을 바탕으로 하는 위상 필드 시뮬레이션 활용을 바탕으로 다양한 소재 데이터에 빠르게 적용할 수 있는 장점이 있다. 홍승범 교수는 "인공지능은 분야를 막론하고 다양한 영역에서 활용되고 있으며, 소재 분야 역시 인공지능의 도움을 바탕으로 신소재 개발을 더욱 빠르게 완료할 수 있는 세상을 맞이할 것이다ˮ라며, "이번 연구 내용을 신소재 개발에 바로 적용하기에는 데이터 합성 측면에서의 여전히 보강이 필요하지만, 소재 데이터 활용에 큰 문제가 됐던 훈련 데이터를 준비하는 긴 시간을 단축해 소재 데이터의 고속 분석 가능성을 연 것에 연구의 의의가 있다ˮ고 말했다. 신소재공학과 염지원 연구원, 노스웨스턴(Northwestern) 대학의 티베리우 스탄(Tiberiu Stan) 박사가 공동 제1 저자로 참여한 이번 연구는 노스웨스턴 대학의 피터 부리스(Peter Voorhees) 교수 연구실과 함께 진행됐으며 연구 결과는 국제 학술지 `악타 머터리얼리아(Acta Materialia)'에 게재됐다. (논문명: Segmentation of experimental datasets via convolutional neural networks on phase field simulations) 한편 이번 연구는 KAIST 글로벌특이점 연구 지원으로 수행됐다.
2021.08.24
조회수 8589
경제 발전할수록 도심 녹지가 시민 행복에 직결돼
경제가 발전한 도시일수록 도심 속 녹지 공간이 시민의 행복에 큰 영향을 준다는 연구결과가 나왔다. 우리 대학 전산학부 차미영 교수 (기초과학연구원 수리및계산과학연구단 데이터 사이언스 그룹 CI) 연구팀은 정우성 포스텍 산업경영공학과 교수, 원동희 미국 뉴저지공대 교수 등과의 공동연구를 통해 인공위성 이미지 빅데이터를 분석해 세계 60개 국가의 도시 녹지 공간을 찾아내고, 녹지와 시민 행복 사이의 상관관계를 분석했다. 공원, 정원, 천변 등 도시 속 녹지 공간은 미적 즐거움은 물론 신체활동 및 사회적 상호작용 촉진 등 육체와 건강에 유익한 영향을 준다. 도심 녹지와 시민 행복간의 상관관계를 규명하기 위한 많은 연구가 이뤄졌지만, 지금까지는 주로 일부 선진국을 대상으로만 연구가 진행됐다. 이 때문에 녹지의 긍정적인 영향이 범지구적인 현상인지, 또 국가의 경제적 상황에 따라 영향이 어떻게 달라지는지에 대해서는 파악이 어려웠다. 또한, 현장을 직접 방문하는 실태조사나, 항공사진은 대대적인 조사가 이뤄지기 어려워 데이터 수집의 한계가 있었다. 연구진은 유럽우주국(ESA)이 운용하는 고해상도 위성인 센티넬-2(Sentinel-2) 위성자료를 이용해 세계 60개국, 90개 도시의 녹지 면적을 조사했다. 인구 밀도가 가장 높은 도시(최소 국가 인구의 10%를 포함하는 도시)를 분석대상으로 삼았으며, 선명한 이미지를 위해 각 지역의 여름 시기를 분석했다. 북반구는 2018년 6~9월, 남반구는 2017년 12월~2018년 2월의 이미지가 쓰였다. 이후 정량화된 도시 별 녹지 면적 데이터를 국제연합(UN)의 2018 세계행복보고서 및 국가별 국내총생산(GDP, 2018년 기준 한국 11위) 자료와 교차하여 녹지와 경제의 시민 행복과의 상관관계를 총괄 분석했다. 그 결과, 국가의 경제적 상황과 무관하게 모든 도시에서 녹지의 면적이 넓을수록 시민 행복도가 높아지는 경향이 있음을 파악했다. 다만, 60개 국가 중 GDP 하위 30개 국가는 경제 성장이 행복과 더 밀접한 관련이 있었다. 1인당 국민총소득(GNI)이 3만8,000달러(약 4,223만 원)가 넘는 도시에서는 녹지 공간 확보가 경제 성장보다 행복에 더 중요한 요소로 작용했다. 우리나라의 경우 서울 지역이 분석에 쓰였으며, 도심 녹지의 면적이 과거보다 증가하며 행복도가 높아지는 경향이 나타났다. 차미영 교수는 “최근 위성영상 빅데이터를 활용해 사회 난제를 해결하려는 연구가 활발하게 진행되고 있다”며 “이번에 개발된 도구를 호수 및 해안 등 수생 환경의 면적을 정량화하는데 적용하고, 수생 환경과 시민 행복간의 상관관계를 분석하는 연구도 진행할 수 있을 것”이라고 말했다. 공동 교신저자인 정우성 포스텍 교수는 “경제 발전 단계에서는 경제 성장이 시민 행복에 가장 중요한 요소지만, 경제가 일정 수준 발전한 뒤에는 다른 사회적 요인이 행복에 더 직접적인 영향을 미친다”며 “이번 연구에서는 빅데이터를 분석해 도심 녹지 공간이 행복감을 향상시키는 사회적 요인 중 하나임을 확인한 것”이라고 설명했다. 이번 연구는 막연하게 연관 있을 것이라 추측해온 녹지, 경제 그리고 행복간의 상관관계를 정밀하게 분석하고, 모든 국가에 걸쳐 분석할 수 있는 도구를 마련했다는 의미가 있다. 연구진은 실제 시민의 삶에 도움 될 수 있는 데이터 기반 정책 수립이 필요하다고 제언했다. 연구결과는 데이터 과학 분야 국제학술지인 ‘EPJ 데이터 사이언스(EPJ Data Science, IF 5.08)’ 5월 30일자 온라인 판에 게재됐다. UNICEF에서 발간한 2022년 보고서(제목: Places and Spaces: Environments and children's well-being)에서는 전세계 어린이들의 행복도에 영향을 미치는 중요한 지표 중 하나로 연구팀이 제시한 Urban Green Space Index를 언급하고 있다. <참고> UNICEF 보고서: https://www.unicef-irc.org/places-and-spaces
2021.06.08
조회수 56855
신소재 영상화 및 머신러닝을 활용한 미래 개척
우리 대학 신소재공학과 홍승범 교수 연구팀이 KAIST 10대 플래그쉽 분야이자, 글로벌 특이점 과제인 `KAIST 신소재 혁명: M3I3 이니셔티브' 과제의 배경, 역사, 진행 상황 그리고 미래 방향을 제시했다고 31일 밝혔다. 홍 교수 연구팀은 다중스케일 다중모드 영상화 기술과 머신러닝(기계학습) 기법을 융합해서 고차원의 구조-물성 및 공정-구조 상관관계를 도출했다. 그리고 이를 인공지능과 3차원 다중 스케일 프린팅 기술을 활용해서 신소재 디자인부터 시장 진입까지의 기간을 획기적으로 단축할 수 있는 비전과 실행 플랫폼을 제안했다. M3I3 플랫폼은 고용량 에너지 소재 디자인에서 시작해서, 고밀도 메모리 소재, 고성능 자동차/항공 소재에도 응용 가능할 것으로 기대된다. 우리 대학 신소재공학과 홍승범 교수가 제1 저자로, 리오치하오 박사가 제2 저자로 참여하고, 육종민 교수, 변혜령 교수, 양용수 교수, 조은애 교수, 최벽파 교수, 이혁모 교수가 공동 저자로 참여한 이번 연구는 국제 학술지 `에이씨에스 나노(ACS Nano)' 2월 12일 字 온라인 출판됐다. (논문명 : Reducing Time to Discovery: Materials and Molecular Modeling, Imaging, Informatics, and Integration) 역사의 큰 흐름을 결정한 신소재는 시행착오와 도제식의 비결 전수를 통해서 발견 및 개발돼왔다. 각종 무기와 그릇, 그리고 장신구들이 좋은 예다. 광학현미경이 발명되면서 검의 미세구조와 검의 강도 혹은 경도 간의 상관관계를 이해하기 시작했고, 투과전자현미경과 원자간력 현미경의 발명으로 원자 수준의 분해능으로 신소재를 영상화하기 시작했다. 고려청자를 현재 재현하지 못하는 것은 고려 시대의 장인들이 그 비결을 남기지 않았기 때문이라고 우리는 가르치고 있다. 그러나, 미래에는 고려청자의 다중 스케일 구조를 영상화해서 데이터화 하고, 구조를 구현할 수 있는 공정 과정을 머신러닝의 힘을 빌려 역설계한다면, 고려청자를 재현하는 일은 가능할 것으로 보인다. 우리 대학 M3I3 플랫폼은 이처럼 다중 스케일 및 다중 모드 영상화 기술, 데이터 마이닝과 머신러닝, 그리고 다중 스케일 제조 기술을 접목해 미래에 필요한 신소재를 역설계해서 빠르게 공정 레시피를 확보할 수 있게 만들어준다. 이번 논문에서는 M3I3 플랫폼의 유효성을 확인하기 위해 배터리 소재에 적용하는 연구를 진행했다. 고용량 배터리 소재의 개발 기간을 단축할 수 있다는 것을 검증하기 위해서 20년간의 논문 자료를 50여 명의 학생이 읽고 데이터를 추출해 양극재의 에너지 밀도와 소재 조성 간의 상관관계를 도출했다. 그리고 논문에 나와 있는 공정, 측정 및 구조 변수들을 머신러닝 기법을 활용해 모델을 수립한 후, 무작위 조건에서 합성해 모델의 정확도를 측정함으로써 데이터 마이닝과 머신러닝의 우수성을 입증했다. 또한 투과전자현미경(TEM), 주사투과전자현미경(STEM), 원자간력현미경(AFM), 광학현미경 등의 다양한 현미경과 엑스레이(X-ray), 라만(Raman), UV/Visible/IR 등 다양한 분광 장비들을 통해 얻은 영상과 스펙트럼 데이터를 기반으로 다중 스케일 구조↔물성 상관관계를 도출하고, 여러 가지 공정변수 데이터를 수집해, 공정↔구조 상관관계를 수립하는 것이 M3I3 플랫폼의 중요한 핵심이다. 특히, 실험데이터와 시뮬레이션 데이터를 융합하고, 머신러닝으로 생성한 가상의 데이터를 과학적인 기준에 맞춰 유의미한 빅데이터로 만들면, 머신러닝을 활용해 물성→구조→공정으로 연결되는 역설계 알고리즘을 개발하는 것이 가능해지며, 이를 통해 미래에 필요한 물성을 갖는 신소재 공정 레시피를 신속하게 확보할 수 있게 된다. 제1 저자인 홍승범 교수는 "과학은 날카로운 관찰과 정량적 측정에서 시작한 학문이며, 기술의 발전으로 현재는 눈에 보이는 소재의 모양과 구조뿐만 아니라 눈에 보이지 않는 소재의 구조를 볼 수 있는 시대가 왔고, 물성마저 공간과 시간의 함수로 영상화할 수 있는 시대가 도래했다ˮ라며 "신소재 영상화 기술과 머신러닝 기술을 융합하고 3D 프린팅 기술을 다중 스케일 자동 합성 기술로 승화시키게 되면 20년 걸리던 신소재 개발 기간을 5년 이내로 단축할 수 있을 것이다ˮ 라고 말했다. 한편, 이번 연구는 글로벌 특이점 사업의 지원을 받아 수행됐다.
2021.04.01
조회수 89569
인공지능으로 자폐 증상과 심각도 예측한다
뇌영상 빅데이터를 활용한 딥러닝(Deep Learning)으로 자폐 스펙트럼 장애(ASD)의 증상과 심각도를 예측할 수 있다는 것이 확인됐다. 이번 연구에 따라 ASD 환자들 진단과 예후에 따른 맞춤형 치료가 가능할 것으로 기대되고 있다. 우리 대학 바이오및뇌공학과 이상완 교수(신경과학-인공지능 융합연구센터장)와 세브란스병원 소아정신과 천근아 교수(연세자폐증연구소장) 연구팀은 ASD의 뇌영상 빅데이터를 활용해 자폐의 증상과 예후를 예측할 수 있다고 28일 밝혔다. 이번 연구결과는 ASD 아동들의 뇌영상 빅데이터를 이용한 국내 최초의 AI연구성과로, 국제전기전자기술자협회(IEEE)에서 발행하는 저널인 IEEE 엑세스(Access) 온라인판에 게재됐다. ASD는 뇌 발달 장애의 하나로 사회적 의사소통의 결함과 제한된 관심사 및 반복적인 행동이 대표적인 특징이다. 2020년도 미국 CDC(미국질병통제예방센터)의 통계자료에 따르면 ASD의 유병률은 54명당 1명으로 매년 증가하는 추세이다. 국내 유병률도 약 2% 내외이다. ASD는 아동 행동 관찰 및 상담과 정신질환 진단분류매뉴얼(DSM-5)에 근거해 진단한다. 하지만 환자 개인차가 심해 자폐에 대한 정확한 진단이 어렵고 예후를 예측하기도 힘들다. 이상완·천근아 교수 연구팀은 세브란스병원에 구축된 3~11세 ASD 환자 84건의 MRI 빅데이터와 국제컨소시엄으로 구축된 1000여 건의 자폐증 환자 MRI 빅데이터를 활용해 MRI 영상으로 자폐의 진단과 예후를 예측할 수 있는 딥러닝 모델을 개발했다. 연구팀은 공간 변경 네트워크(Spartial Transformer Network, STN)와 3D 컨볼루션 신경망(convolutional neural network, CNN)을 활용한 모델을 구축하고, MRI 빅데이터를 학습시켰다. 이렇게 구축된 모델에 클래스 활성화 매핑(class activation mapping) 기법을 적용해 형태학적인 특징을 추출하고 이를 뇌영상에 투영시키는 방식으로 분석했다. 더 나아가 인자들간의 관계 분석을 위해 강화학습 모델의 일종인 회귀형 주의집중 모델(recurrent attention model)을 학습시켰다. 분석결과 뇌의 기저핵을 포함한 피질 하 구조가 자폐 심각도와 관련이 있음을 확인했다. 이상완 교수는 “진료 현장에서 자폐를 진단하고 연구하는데 구조적 연관 후보를 제공할 수 있게 됐다”며 “이번 연구결과로 자폐 진단에서뿐만 아니라 앞으로 의사나 관련 전문가들이 인공지능을 활용해 복잡한 질병을 이해하고 더 많이 활용할 수 있게 될 것”이라고 설명했다. 천근아 교수도 “자폐스펙트럼장애를 진단함에 있어 뇌 영상 자료는 아직까지 의사들 사이에서 활용가치가 높지 않다는 인식이 보편적인데 이번 연구를 통해 자폐의 하위 증상과 심각도 사이에 뇌영상에서 차이가 있다는 것을 확인했다”며 “이번 연구는 다양한 임상표현형과 심각도를 지닌 자폐증 환자들에게 개별 맞춤 진단과 예후를 예측하는데 의미를 가진다”고 말했다. [보도자료 출처: 세브란스병원 홍보팀]
2020.08.28
조회수 23337
코로나19 해외유입 확진자 수 예측 기술 개발
최근 전 세계적으로 코로나바이러스감염증-19(COVID-19) 확진자 수가 2,000만 명을 넘어선 가운데 최근 국내에서도 코로나19 확진자 수가 급증해 2차 대유행 조짐을 보이면서 정부는 8월 23일부터 전국 대상으로 사회적 거리두기 단계를 2단계로 격상해 시행 중이다. 중앙재난안전대책본부(중대본)에 따르면 국내 코로나 누적 확진자 수는 8월 23일 오전 0시 기준으로 총 1만7,399명이다. 이 중 해외유입 감염자 수는 2,716명(8월 22일 오전 0시 기준)으로 전체 확진자의 약 16%를 차지한다. 대륙별로 보면 아시아(중국 외), 미주, 유럽, 아프리카 순이다. 지난 14일 이후 국내 지역 발생 신규확진자 수가 급증하고 있지만 향후 해외유입 확진자 수의 확산추세 또한 결코 장담할 수 없는 상황이다. 이런 가운데 우리 연구진이 해외유입 확진자 수를 예측할 수 있는 관련 기술을 개발했다. 우리 대학 산업및시스템공학과 이재길 교수 연구팀이 코로나19 해외유입 확진자 수를 예측하는 빅데이터‧인공지능(AI) 기술을 개발했다고 19일 밝혔다. 이재길 교수 연구팀이 개발한 이 기술은 해외 각국의 확진자 수와 사망자 수, 해외 각국에서의 코로나19 관련 키워드 검색빈도와 한국으로의 일일 항공편 수, 그리고 해외 각국에서 한국으로의 로밍 고객 입국자 수 등 빅 데이터에 인공지능(AI) 기술을 적용해 향후 2주간의 해외유입 확진자 수를 예측한다. 코로나19 확진자 수가 급증할수록 해외유입에 의한 지역사회 확산의 위험성도 항상 뒤따르기 마련이다. 이에 따라 이재길 교수 연구팀이 개발한 정확한 해외유입 확진자 수 예측기술은 방역 시설 및 격리 시설 확충, 고위험 국가 입국자 관리 정책 등에 폭넓게 응용 및 적용될 수 있을 것으로 기대가 크다. 우리 대학 지식서비스공학대학원에 재학 중인 김민석 박사과정 학생이 제1 저자로, 강준혁, 김도영, 송환준, 민향숙, 남영은, 박동민 학생이 제2~제7 저자로 각각 참여한 이번 연구는 최고권위 국제 학술대회 'ACM KDD 2020'의 'AI for COVID-19' 세션에서 오는 24일 발표된다. (논문명 : Hi-COVIDNet: Deep Learning Approach to Predict Inbound COVID-19 Patients and Case Study in South Korea) 해외유입 확진자 수는 다양한 요인에 의해서 영향을 받는다. 일반적으로 해외 각국에서의 코로나19 위험도와 비례하며, 해외 각국에서 한국으로의 입국자 수와도 비례한다. 그러나 코로나19 위험도와 입국자 수를 실시간으로 알아내기에는 많은 제약이 따르므로 연구진은 쉽게 구할 수 있는 종류의 빅데이터를 기반으로 하는 인공지능(AI) 모델을 구축하는 데 성공했다. 연구진은 기본적으로 해외 각국의 코로나19 위험도를 산출할 때, 보고된 확진자 수와 사망자 수를 활용했다. 그러나 이러한 수치는 진단검사 수에 좌우되기 때문에 코로나19 관련 키워드 검색빈도를 같이 입력 데이터로 활용해 해당 국가의 코로나19 위험도를 실시간으로 산출했다. 이와 함께 실시간 입국자 수는 기밀정보로서 외부에 공개되지 않기 때문에 매일 제공되는 한국에 도착하는 항공편수와 로밍 고객 입국자 수를 통해 이를 유추해냈다. 로밍 고객 입국자 수 데이터는 KT로부터 제공 받았지만 KT 고객 입국자만을 포함한다는 한계를 일일 항공편수를 함께 고려함으로써 이 문제를 해소했다. 이밖에 해외유입 확진자 수 예측을 위해서는 국가 간의 지리적 연관성도 매우 중요하게 고려해야 한다. 어느 특정 국가의 코로나19 발병이 이웃 국가로 더 쉽게 전파되며, 국가 간의 교류도 거리에 따라 영향을 받기 때문이다. 연구팀은 이러한 문제해결을 위해 지리적 연관성을 학습하도록 국가-대륙으로 구성되는 지리적 계층구조에 따라 우선 각 대륙으로부터의 해외유입 확진자 수를 정확히 예측함으로써 궁극적으로 전체 해외유입 확진자 수를 정확히 예측하도록 하는 인공지능(AI) 모델을 설계했다. 연구팀은 이 인공지능 모델을 'Hi-COVIDNet'라고 이름 붙였다. 이후 연구팀은 약 한 달 반에 걸친 단기간의 훈련 데이터만으로 생성된 `Hi-COVIDNet'을 통해 향후 2주 동안의 해외유입 확진자 수를 예측한 결과, 이 모델이 기존의 시계열 데이터기반의 예측 기계학습이나 딥러닝 기반의 모델과 비교했을 때 최대 35% 더 높은 정확성을 지니고 있음을 확인했다. 제1 저자인 김민석 박사과정 학생은 "이번 연구는 최신 AI 기술을 코로나19 방역에 적용할 수 있음을 보여준 사례ˮ 라면서 "K-방역의 위상을 높이는데 기여할 것으로 기대한다ˮ 고 밝혔다. 이번 연구는 KAIST 글로벌전략연구소(소장 김정호)의 코로나19 AI 태스크포스팀의 지원을 받았고, KT(담당 변형균 상무)와 과학기술정보통신부(담당 김수정 서기관)의 '코로나19 확산예측 연구 얼라이언스'를 통해 로밍 데이터 세트를 지원받아 이뤄졌다.
2020.08.23
조회수 34992
딥러닝 기반 실시간 기침 인식 카메라 개발
우리 대학 기계공학과 박용화 교수 연구팀이 ㈜에스엠 인스트루먼트와 공동으로 실시간으로 기침 소리를 인식하고 기침하는 사람의 위치를 이미지로 표시해주는 '기침 인식 카메라'를 개발했다고 3일 밝혔다. 작년 말부터 시작된 세계적 유행성 전염병인 코로나19가 최근 미국·중국·유럽 등 세계 각국에서 재확산되는 추세로 접어들면서 비접촉방식으로 전염병을 감지하는 기술에 대한 수요가 증가하고 있다. 코로나19의 대표적인 증상이 발열과 기침인데, 현재 발열은 열화상 카메라를 이용해 직접 접촉을 하지 않고도 체온을 쉽게 판별할 수 있다. 문제는 비접촉방식으로는 기침하는 사람의 증상을 쉽사리 파악하기 어렵다는 점이다. 박 교수 연구팀은 이런 문제를 해결하기 위해 기침 소리를 실시간으로 인식하는 딥러닝 기반의 기침 인식 모델을 개발했다. 또한 열화상 카메라와 같은 원리로 기침 소리와 기침하는 사람의 시각화를 위해 기침 인식 모델을 음향 카메라에 적용, 기침 소리와 기침하는 사람의 위치, 심지어 기침 횟수까지를 실시간으로 추적하고 기록이 가능한 '기침 인식 카메라'를 개발했다. 연구팀은 기침 인식 카메라가 사람이 밀집한 공공장소에서 전염병의 유행을 감지하거나 병원에서 환자의 상태를 상시 모니터링 가능한 의료용 장비로 활용될 것으로 기대하고 있다. 연구팀은 기침 인식 모델 개발을 위해 *합성 곱 신경망(convolutional neural network, CNN)을 기반으로 *지도학습(supervised learning)을 적용했다. 1초 길이 음향신호의 특징(feature)을 입력 신호로 받아, 1(기침) 또는 0(그 외)의 2진 신호를 출력하고 학습률의 최적화를 위해 일정 기간 학습률이 정체되면 학습률 값을 낮추도록 설정했다. 이어서 기침 인식 모델의 훈련 및 평가를 위해 구글과 유튜브 등에서 연구용으로 활발히 사용 중인 공개 음성데이터 세트인 `오디오세트(Audioset)'를 비롯해 `디맨드(DEMAND)'와 `이티에스아이(ETSI)', `티미트(TIMIT)' 등에서 데이터 세트를 수집했다. 이 중 `오디오세트'는 훈련 및 평가 데이터 세트 구성을 위해 사용했고 다른 데이터 세트의 경우 기침 인식 모델이 다양한 배경 소음을 학습할 수 있도록 데이터 증강(data augmentation)을 위한 배경 소음으로 사용했다. ☞ 합성 곱 신경망(convolutional neural network): 시각적 이미지를 분석하는 데 사용되는 인공신경망(생물학의 신경망에서 영감을 얻은 통계학적 학습 알고리즘)의 한 종류 ☞ 지도학습(Supervised Learning): 훈련 데이터(Training Data)로부터 하나의 함수를 유추해내기 위한 기계 학습(Machine Learning)의 한 방법 데이터 증강을 위해 배경 소음을 15%~75%의 비율로 `오디오세트'에 섞은 후, 다양한 거리에 적응할 수 있게 음량을 0.25~1.0배로 조정했다. 훈련 및 평가 데이터 세트는 증강된 데이터 세트를 9:1 비율로 나눠 구성했으며, 시험 데이터 세트는 따로 사무실에서 녹음한 것을 사용했다. 모델 최적화를 위해서는 '스펙트로그램(spectrogram)' 등 5개의 음향 특징과 7개의 최적화 기기(optimizer)를 사용해 학습을 진행하고 시험 데이터 세트의 정확도를 측정, 성능을 확인한 결과 87.4%의 시험 정확도를 얻을 수 있었다. 연구팀은 이어 학습된 기침 인식 모델을 소리를 수집하는 마이크로폰 어레이와 카메라 모듈로 구성되는 음향 카메라에 적용했다. 그 결과 수집된 데이터는 음원의 위치를 계산하는 빔 형성 과정을 거쳐 기침 인식 모델이 기침 소리로 인식할 경우 기침 소리가 난 위치에 기침 소리임을 나타내는 등고선과 라벨이 각각 표시된다. 박 교수팀은 마지막 단계로 기침 인식 카메라의 예비 테스트를 진행한 결과, 여러 잡음 환경에서도 기침 소리와 그 이외의 소리로 구분이 가능하며 기침하는 사람과 그 사람의 위치, 횟수 등을 실시간으로 추적해 현장에서의 적용 가능성을 확인했다. 이들은 추후 병원 등 실사용 환경에서 추가 학습이 이뤄진다면 정확도는 87.4%보다 더 높아질 것으로 기대하고 있다. 박용화 교수는 "코로나19가 지속적으로 전파되고 있는 상황에서 공공장소와 다수 밀집 시설에 기침 인식 카메라를 활용하면 전염병의 방역 및 조기 감지에 큰 도움이 될 것ˮ이라고 말했다. 박 교수는 이어 "특히 병실에 적용하면 환자의 상태를 24시간 기록해 치료에 활용할 수 있기 때문에 의료진의 수고를 줄이고 환자 상태를 더 정밀하게 파악할 수 있을 것ˮ 이라고 강조했다. 한편, 이번 연구는 에너지기술평가원(산업통상자원부)의 지원을 받아 수행됐다.
2020.08.03
조회수 29023
세계 최고 성능을 지닌 데이터베이스 관리 시스템(DBMS) 기술 개발
우리 연구진이 방대한 정보를 저장하고 목적에 맞게 검색, 관리할 수 있는 시스템을 통칭하는 데이터베이스관리시스템(DBMS, DataBase Management System)을 세계 최고 수준의 성능으로 끌어올렸다. 우리 대학 전산학부 김민수 교수 연구팀이 데이터베이스 질의 언어 SQL(Structured Query Language, 구조화 질의어) 처리 성능을 대폭 높인 세계 최고 수준의 DBMS 기술을 개발했다. 김 교수 연구팀은 데이터 처리를 위해 산업 표준으로 사용되는 SQL 질의를 기존 DBMS와는 전혀 다른 방법으로 처리함으로써 성능을 기존 옴니사이(OmniSci) DBMS 대비 최대 88배나 높인 신기술을 개발했다. 김 교수팀이 개발한 이 기술은 오라클·마이크로소프트 SQL서버·IBM DB2 등 타 DBMS에도 적용할 수 있어 고성능 SQL 질의 처리가 필요한 다양한 곳에 폭넓게 적용될 수 있을 것으로 기대된다. 대부분의 DBMS는 SQL 질의를 처리할 때 내부적으로 데이터 테이블들을 `왼쪽 깊은 이진 트리(left-deep binary tree)' 형태로 배치해 처리하는 방법을 사용한다. 지난 수십 년간 상용화돼 온 대부분의 DBMS는 데이터 테이블들의 배치 가능한 가지 수가 기하급수적으로 많기 때문에 이를 `왼쪽 깊은 이진 트리' 형태로 배치해 SQL 질의를 처리해 왔다. 임의의 두 테이블이 기본 키(primary key, PK)와 외래 키(foreign key, FK)라 불리는 관계로 결합(조인 연산)하는 경우에는 이러한 방법으로 SQL 질의를 효과적으로 처리할 수 있다. 여기서 기본 키는 각 데이터 행(row)을 유일하게 식별할 수 있는 열(column)이고, 외래 키는 그렇지 않은 열이다. 지난 수십 년간 산업에서 사용되는 DB의 구조가 점점 복잡해지면서 두 테이블은 PK-FK 관계가 아닌 FK-FK 관계, 즉 외래 키와 외래 키의 관계로 결합하는 복잡한 형태의 SQL 질의들이 많아지고 있다. 실제 DBMS의 성능을 측정하는 산업 표준 벤치마크인 TPC-DS에서 전체 벤치마크의 26%가 이런 복잡한 SQL 질의들로 구성돼 있고 기계학습(머신러닝), 생물 정보학 등 다양한 분야들서도 이러한 복잡한 SQL 질의 사용이 점차 증가하는 추세다. 이전에 나온 DBMS들은 두 테이블이 주로 PK-FK 관계로 결합한다는 가정하에 개발됐기 때문에 FK-FK 결합이 필요한 복잡한 SQL 질의를 매우 느리거나 심지어 처리하지 못하는 실패를 거듭해왔다. 김 교수팀은 문제 해결을 위해 테이블들을 하나의 커다란 `왼쪽 깊은 이진 트리' 형태가 아닌 여러 개의 작은 `왼쪽 깊은 이진 트리'를 `n항 조인 연산자'로 묶는 형태로 배치해 처리하는 기술을 개발했다. 이때 각각의 `작은 이진 트리' 안에는 FK-FK 결합 관계가 발생하지 않도록 테이블들을 배치하는 것이 핵심이다. 각각의 `작은 이진 트리'의 처리 결과물을 `n항 조인 연산자'로 결합해 최종 결과물을 구하는 것도 난제로 꼽히는데 연구팀은 `최악-최적(worst-case optimal) 조인 알고리즘'이라는 방법으로 이 문제를 해결했다. `최악-최적 조인 알고리즘'은 그래프 데이터를 처리할 때 이론적으로 가장 우수하다고 알려진 알고리즘이다. 김 교수 연구팀은 세계에서 가장 먼저 이 알고리즘을 SQL 질의 처리에 적용해 난제를 해결하는 데 성공했다. 김민수 교수 연구팀은 새로 개발한 DBMS 기술을 GPU 기반의 DBMS 개발업체인 미국 옴니사이(OmniSci)社 제품에 적용한 결과, OmniSci DBMS보다 성능이 최대 88배나 향상된 결과를 얻었다. 또 TPC-DS 벤치마크에서도 세계 최고 수준의 성능을 가진 기존의 상용 DBMS보다 5~20배나 더 빠른 사실을 확인했다. TPC-DS는 DBMS의 성능을 측정하기 위한 산업 표준의 최신 벤치마크이다. 교신저자로 참여한 김민수 교수는 "연구팀이 개발한 새로운 기술은 대부분의 DBMS에 적용할 수 있기 때문에 산업적 측면에서 파급 효과가 매우 클 것으로 기대한다ˮ 라고 말했다. 이번 연구에는 김 교수의 제자이자 미국 옴니사이(OmniSci)社에 재직 중인 남윤민 박사가 제1 저자로, 김 교수가 교신저자로 참여했으며 지난 18일 미국 오리건주 포틀랜드에서 열린 데이터베이스 분야 최고의 국제학술대회로 꼽히는 `시그모드(SIGMOD)'에서 발표됐다. (논문명 : SPRINTER: A Fast n-ary Join Query Processing Method for Complex OLAP Queries). 한편, 이 연구는 한국연구재단 선도연구센터 사업 및 중견연구자 지원사업, 과기정통부 IITP SW스타랩 사업의 지원을 받아 수행됐다.
2020.06.23
조회수 18604
세관 통관 속임수 적발하는 알고리즘 개발
우리대학 전산학부 차미영 교수 연구팀이 면세범위 초과 물품, 위장 반입, 원산지 조작 등 세관에서 벌어지는 불법적 행위를 빈틈없이 적발할 수 있는 기술을 개발했다. 차 교수는 기초과학연구원(IBS, 원장 노도영) 수리 및 계산과학 연구단 데이터 사이언스 그룹 CI(Chief Investigator)을 맡아 세계관세기구(WCO‧World Customs Organization)와의 협업을 통해 스마트 관세 행정을 위한 알고리즘 개발을 마쳤다. 데이터 사이언스 그룹은 2019년 9월부터 WCO의 바꾸다(BACUDA) 프로젝트(*한국정부가 WCO에 공여하는 세관협력기금(Customs Cooperation Fund of Korea)로 설립, 운영)에 참여해 알고리즘 개발을 주도해왔다. WCO는 지난 2월 홈페이지 기사를 통해 “세관 데이터 분석(BAnd of CUstoms Data Analysis)의 앞 글자를 따서 바꾸다 프로젝트로 이름 지었다”며 “한글로는 ‘변화’를 뜻하는 것처럼 스마트 관세 체계로의 변화를 추구하는 회원국들을 돕기 위해 데이터과학자들과 협업을 시작했다”고 프로젝트의 취지를 알렸다. IBS가 WCO, 대만 국립성공대(NKCU‧National Cheng Kung University)와 함께 개발한 알고리즘 데이트(DATE DATE : Dual-Attentive Tree-aware Embedding for Customs Fraud Detection의 약자)는 불법적 행위 발생 가능성이 높으면서도 세수 확보에 도움이 되는 물품을 우선적으로 선별해 세관원에게 알린다. 기존 알고리즘은 세관 검사 대상만 추천했으나, 데이트는 검사 대상의 선별 이유까지 설명해줌으로써 사기 적발의 근거를 세관원이 충분히 확보할 수 있다는 특징이 있다. 우리대학 산업및시스템공학과(지식서비스공학대학원)을 졸업한 김선동 IBS 연구위원은 “설명력이 훌륭한 데이트는 인간개입(human-in-the-loop)으로 작동하는 현 세관 시스템에 가장 적합한 알고리즘”이라며 “저위험 물품 검사 에 쓰이는 세관원의 불필요한 노동을 줄이고, 복잡한 통관 프로세스를 효율화하는 데 도움이 될 것으로 기대하고 있다”고 설명했다. 바꾸다 그룹은 지난 3월 나이지리아의 틴캔(Tin Can)과 온네(Onne) 항구에 데이트를 시범 도입했다. 사전 테스트 결과, 데이트 도입으로 인해 기존의 전수 조사 통관 방법에 비해 40배 이상 효율적으로 세관 사기를 적발할 수 있음이 확인됐다. 시범운영을 마치면 알고리즘을 개선하고, 기술이전을 통해 WCO 회원국 대상으로 확대 적용해나갈 계획이다. 데이터 사이언스 그룹은 데이트 개발 성과를 오는 8월 데이터 마이닝 및 인공지능 분야의 최고 학술대회인 ACM SIGKDD(The Association for Computing Machinery’s Special Interest Group on Knowledge Discovery and Data Mining) 2020에서 발표할 예정이다. 차미영 CI는 “데이트는 세관원들의 물품 검사 및 적발된 수입자와의 소통을 도와줌으로써 스마트 세관 행정 정착에 큰 기여를 할 것”이라며 “향후 물품의 X선 이미지를 활용하거나, 전이 학습(Transfer learning)을 통해 여러 국가의 통관 데이터를 함께 활용하는 방법까지 추가해 알고리즘의 정확성을 높여나갈 계획”이라고 말했다.
2020.06.01
조회수 11044
빅데이터로 인간의 창의성·혁신성을 계산하다
우리 대학 문화기술대학원의 박주용 교수 연구팀이 네트워크 과학과 빅데이터에 기반해 인간의 문화⋅예술 창작물의 혁신성과 영향력을 계산하는 이론물리학 알고리즘을 개발했다. 연구팀은 이 알고리즘을 통해 클래식 음악가들의 창작물의 창의성, 혁신성을 계산함으로써 음악의 발전에 베토벤이 끼친 영향력을 수치적으로 규명하고, 후기 낭만파 시대의 거장인 세르게이 라흐마니노프가 끊임없이 혁신을 시도한 대표적 예술가임을 밝혀냈다. 연구팀의 알고리즘은 예술 작품의 빅데이터로부터 창의성을 직접 계산함으로써 빠르게 증가하고 있는 창작 콘텐츠의 우수성을 효율적으로 판단할 수 있을 것으로 기대된다. 박도흠 박사과정이 1 저자로 참여한 이번 연구는 스프링어-네이처(Springer Nature) 그룹의 데이터 과학 전문 학술지인 ‘EPJ 데이터 사이언스(EPJ Data Science)’ 1월 30일 자 온라인판에 게제됐다. (논문명: Probabilistic Influence Networks and Quantifying Patterns of Advances in Works) 인간 고유의 영역으로 알려진 문화예술 창작에서도 인공지능 등의 컴퓨터 알고리즘이 널리 활용되며 예술 작품의 창의성을 과학적으로 평가하는 방법의 필요성이 커지고 있다. 그동안 인간 창의성의 산물인 문화예술은 수치적인 평가가 어려워 인공지능을 한 단계 발전시킨 ‘인공창의성’ 연구에 큰 장벽이 되어왔다. 개별 창작품들에 대한 사람들의 심리적 반응을 측정하는 시도는 종종 있었지만, 대규모의 객관적 실험을 수행하기에는 한계가 있다. 위와 같은 문제 해결을 위해 창작품 자체를 빅데이터화 한 뒤 그로부터 창의성을 평가하는 과학적 방법론 개발의 필요성이 커지고 있다. 연구팀은 1700년~1900년 사이에 작곡된 서양 피아노 악보로부터 동시에 연주되는 음정으로 만들어진 ‘코드워드(codeword)’를 추출하고 이론물리학의 한 분야인 네트워크 과학을 적용했다. 그리고 난 뒤 작품들 사이의 유사도를 측정해 작품들이 서로 얼마나 영향을 주고받았는지를 나타내는 네트워크를 만들어 각 작품이 얼마나 혁신적인지, 또한 후대의 작품에 얼마나 큰 영향을 끼쳤는지를 통해 창의성을 평가했다. 연구팀은 현대에도 큰 영향을 끼치고 있는 핵심적 음악 스타일이 확립된 200년에 걸쳐 음악 창작의 패러다임이 어떻게 변화해왔는지 이해했다고 밝혔다. 이 연구에서는 바로크⋅고전기(1710-1800년)의 대표 작곡가인 핸델과 하이든, 모차르트를 거쳐 고전-낭만 전환기(1800-1820년) 이후 베토벤이 최고의 영향력을 가진 작곡자로 떠오르고, 베토벤의 영향을 받아 리스트와 쇼팽 등 낭만기(1820-1910년)의 거장들이 등장하는 과정을 규명하였다. 올해로 탄생 250주년을 맞은 베토벤은 사후에도 100년 가까이 최고의 영향력을 유지한 것으로 밝혀졌다. 또한, 연구팀은 후기 낭만파의 거장인 라흐마니노프가 과거의 관습은 물론 자신의 작품으로부터 차별화를 끊임없이 시도한 최고의 혁신적 작곡가였음을 밝혀냈다. 코드워드에 기반한 네트워크로부터 음악의 창의성을 계산해내는 이 알고리즘은 낱말, 문장, 색상, 무늬 등으로 만들어진 문학 작품이나 그림, 건축, 디자인 등의 시각 예술의 창의성 연구에도 적용할 수 있을 것으로 보인다. 박주용 교수는 “문화예술 창작물의 과학적 연구에 장벽이 되어온 창의성 평가라는 난제를 네트워크 과학과 빅데이터를 활용해 해결할 수 있음을 보였다”라며 “특히 문화예술 창작 영역에서 컴퓨터의 활약이 커지는 상황에서 인간의 단순 계산력만을 따라하는 인공지능의 한계를 극복함으로써, 인간 창의성과 미적 감각의 잠재력을 극대화하는 인공창의성 발전에 큰 도움이 될 것이다”라고 말했다. 이번 연구는 한국연구재단 국제연구네트워크(GRN)와 한국사회과학연구지원(SSK) 사업, BK21 플러스사업의 지원을 통해 수행됐다. □ 그림 설명 그림1.시대별 작곡가들 사이의 영향력을 나타내는 네트워크 그림2. 연도별 대표적 작곡가들의 영향력 변천사
2020.02.04
조회수 12148
<<
첫번째페이지
<
이전 페이지
1
2
3
4
>
다음 페이지
>>
마지막 페이지 4