본문 바로가기 대메뉴 바로가기

KAIST

연구뉴스

홈페이지 통합검색

-

%EC%A0%95%EB%AA%85%EC%88%98

엔비디아를 긴장시킬 고용량·고성능 GPU 개발 최근 대규모 AI 서비스 제공 최전선에 있는 빅테크들은 더 좋은 성능을 사용자들에게 제공하기 위해 경쟁적으로 모델 및 데이터의 크기를 증가시키는 추세이며, 최신 대규모 언어모델은 학습을 위해 수에서 수십 테라바이트(TB, 10^12 바이트)의 메모리를 요구한다. 국내 연구진이 현재 AI 가속기 시장을 독점하고 있는 엔비디아(NVIDIA)에 맞설 수 있는 차세대 인터페이스 기술이 활성화된 고용량·고성능 AI 가속기를 개발했다. 우리 대학 전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 메모리 시스템 연구실)이 차세대 인터페이스 기술인 CXL(Compute Express Link)이 활성화된 고용량 GPU 장치의 메모리 읽기/쓰기 성능을 최적화하는 기술을 개발했다고 8일 밝혔다. 최신 GPU의 내부 메모리 용량은 수십 기가바이트(GB, 10^9 바이트)에 불과해 단일 GPU만으로는 모델을 추론·학습하는 것이 불가능하다. 대규모 AI 모델이 요구하는 메모리 용량을 제공하기 위해 업계에서는 일반적으로 GPU 여러 대를 연결하는 방식을 채택하지만, 이 방법은 최신 GPU의 높은 가격으로 인해 총소유비용(TCO·Total Cost of Ownership)을 과도하게 높이는 문제를 일으킨다. 이에 차세대 연결 기술인 CXL(Compute Express Link)을 활용해 대용량 메모리를 GPU 장치에 직접 연결하는‘CXL-GPU*’구조 기술이 다양한 산업계에서 활발히 검토되고 있다. 하지만 CXL-GPU의 고용량 특징만으로는 실제 AI 서비스에 활용되기 어렵다. 대규모 AI 서비스는 빠른 추론·학습 성능을 요구하기 때문에, GPU에 직접적으로 연결된 메모리 확장 장치로의 메모리 읽기/성능이 기존 GPU의 로컬 메모리에 준하는 성능이 보장될 때 비로소 실제 서비스에 활용될 수 있다. *CXL-GPU: CXL을 통해 연결된 메모리 확장 장치들의 메모리 공간을 GPU 메모리 공간에 통합시킴으로써 고용량을 지원한다. 통합된 메모리 공간 관리에 필요한 동작들은 CXL 컨트롤러가 자동으로 처리해주므로, GPU는 기존에 로컬 메모리에 접근하던 방식과 동일한 방식으로 확장된 메모리 공간에 접근할 수 있다. 기존 메모리 용량을 늘리기 위해 고가의 GPU를 추가 구매하던 방식과 달리, CXL-GPU는 GPU에 메모리 자원만 선택적으로 추가할 수 있어 시스템 구축 비용을 획기적으로 절감할 수 있다. 우리 연구진은 CXL-GPU 장치의 메모리 읽기/쓰기 성능이 저하되는 원인을 분석해 이를 개선하는 기술을 개발했다. 메모리 확장 장치가 메모리 쓰기 타이밍을 스스로 결정할 수 있는 기술을 개발하여 GPU 장치가 메모리 확장 장치에 메모리 쓰기를 요청하면서 동시에 GPU 로컬 메모리에도 쓰기를 수행하도록 설계했다. 즉, 메모리 확장 장치가 내부 작업을 수행 상태에 따라 작업을 하도록 하여, GPU는 메모리 쓰기 작업의 완료 여부가 확인될 때까지 기다릴 필요가 없어 쓰기 성능 저하 문제를 해결할 수 있도록 했다. 또한 연구진은 메모리 확장 장치가 사전에 메모리 읽기를 수행할 수 있도록 GPU 장치 측에서 미리 힌트를 주는 기술을 개발했다. 이 기술을 활용하면 메모리 확장 장치가 메모리 읽기를 더 빨리 시작하게 되어, GPU 장치가 실제 데이터를 필요로 할 때는 캐시(작지만 빠른 임시 데이터 저장공간)에서 데이터를 읽어 더욱 빠른 메모리 읽기 성능을 달성할 수 있다. 이번 연구는 반도체 팹리스 스타트업인 파네시아(Panmnesia)*의 초고속 CXL 컨트롤러와 CXL-GPU 프로토타입을 활용해 진행됐다. 연구팀은 파네시아의 CXL-GPU 프로토타입을 활용한 기술 실효성 검증을 통해 기존 GPU 메모리 확장 기술보다 2.36배 빠르게 AI 서비스를 실행할 수 있음을 확인했다. 해당 연구는 오는 7월 산타클라라 USENIX 연합 학회와 핫스토리지의 연구 발표장에서 결과를 선보인다. *파네시아는 업계 최초로 CXL 메모리 관리 동작에 소요되는 왕복 지연시간을 두 자리 나노초(nanosecond, 10^9분의 1초) 이하로 줄인 순수 국내기술의 자체 CXL 컨트롤러를 보유하고 있다. 이는 전세계 최신 CXL 컨트롤러등 대비 3배 이상 빠른 속도다. 파네시아는 고속 CXL 컨트롤러를 활용해 여러 개의 메모리 확장 장치를 GPU에 바로 연결함으로써 단일 GPU가 테라바이트 수준의 대규모 메모리 공간을 형성할 수 있도록 했다. 전기및전자공학부 정명수 교수는 “CXL-GPU의 시장 개화 시기를 가속해 대규모 AI 서비스를 운영하는 빅테크 기업의 메모리 확장 비용을 획기적으로 낮추는 데 기여할 수 있을 것”이라 말했다.
2024.07.08 조회수 6500
정명수 교수 연구팀, 美 CES 2024에서 혁신상 수상작 CXL 탑재 AI 가속기 선보여 시스템에 무한대에 가까운 용량의 메모리 자원을 제공하여 대규모 AI 기반 서비스를 고속 처리하는 기술, ‘CXL 탑재 AI 가속기’가 개발되었다. 우리 대학 전기및전자공학부 정명수 교수 연구팀이 세계 최대 규모의 IT 박람회‘CES 2024’에서‘CXL 탑재 AI 가속기(CXL-Enabled AI Accelerator)’를 선보였다. 해당 제품으로 연구팀은 CES 2024 혁신상을 수상하였으며, ARM, 휴렛페커드(HPE), 어드밴스드 머터리얼스(Advanced Materials), 메타등 글로벌 대기업들로부터 단독 미팅을 제안받아 지속적으로 협업을 논의할 예정이다. ‘CXL 탑재 AI 가속기’는 컴퓨트익스프레스링크(Computer Express Link, CXL) 기술을 통해 시스템에 무한대에 가까운 용량의 빠른 메모리 자원을 제공하여, 대규모 AI 기반 서비스를 고속으로 처리할 수 있다. 대표적인 AI 기반 서비스인 이미지 검색을 이용한 평가에서, 연구팀은 CXL 기술이 적용된 가속 시스템이 기존의 SSD 기반 가속시스템 대비 101배 빠른 성능을 보였다고 밝혔다. 수상작의 핵심인 CXL은 데이터처리 가속기, 메모리 확장장치, 프로세서, 스위치 등 다양한 시스템 장치를 고속으로 연결하는 기술이다. 이 기술은 여러 가속기 및 메모리 확장장치의 내부 메모리를 시스템에 연결하여 AI 서비스에 확장가능한 메모리 자원을 제공할 수 있다. 덕분에 AI 서비스는 처리할 수 있는 데이터의 양을 대폭 증가시킬 수 있으며, 이릍 통해 정확도와 품질을 향상시킬 수 있다. 이는 기존 AI 가속기가 제한된 메모리 용량으로 인해, 대용량의 데이터 관리에 느린 저장장치를 사용해야하던 것과 대비된다. 추가적으로, 연구팀은 AI 가속기 내부를 이미지 검색에 특화된 하드웨어 모듈로 구성하여 시스템의 성능을 더욱 높였다. AI 기반 서비스의 정확도 및 품질은 경쟁적인 AI 업계에서 기업의 생존과 직결되는 만큼, 연구팀의 기술은 산업계 파급효과가 클 것으로 예상된다. 정명수 교수 연구팀은 이번 연구개발의 결과물을 지난주 미국 라스베가스에서 열린 CES 2024에서 전시하였다. 가속기는 기술의 우수성을 인정받아 CES 주관기관으로부터 CES 혁신상을 수상하였으며, IEEE Spectrum, Storage Newsletter, Blocks and Files, Design and Reuse, TechRadar, 등의 해외 언론, 조선일보, 조선비즈, 한국경제, 서울경제, 파이낸셜뉴스, ZDnet 등의 국내 유수 언론을 포함한 20개 이상의 언론사가 부스에 방문하고, 출품 소식을 전하였다. 특히 한국경제에서는 연구팀의 기술을 ‘AI 도입 비용 문제의 해결책’으로써 대중들에게 소개하였다. 연구팀의 권미령 박사는 EETimes Gary Hilson 기자와의 단독 인터뷰에서 “최신 CXL 표준을 지원하는 연구팀의 하드웨어/소프트웨어를 활용하면 데이터센터 수준의 고효율 메모리 확장을 실현할 수 있다”며 연구팀의 기술을 소개하기도 했다. 뿐만 아니라, 연구팀의 기술은 이번 CES에서 다양한 글로벌 대기업들로부터 집중적으로 관심을 받았다. 세계 최대 IP 기업 ARM으로부터 초청받아 프라이빗 미팅을 진행하였으며, 글로벌 클라우드/데이터센터 기업 HPE 본사로부터 단독 대규모 미팅 제의를 받아 이달 말 협업을 논의할 예정이다. 현지 부스를 통해서 연구팀은 마이크로소프트, 애플, 인텔, 케이던스 등 다양한 글로벌 대기업의 고위 임원들과 국내 귀빈등에게 CXL 선도기술을 소개한 것으로 알려졌다. 정명수 교수 연구팀은 이전에도 세계 최초로 CXL CPU, CXL 스위치, CXL 메모리 확장장치를 모두 포함한 CXL 기반의 전체 시스템을 발표하여 AMD, 메타 등 산업계로부터 러브콜을 받은 바 있다. 본 성과는 우리 대학 전기및전자공학부 정명수 교수 연구실 학생들과 파네시아가 공동연구를 진행한 결과이다. 파네시아는 카이스트 교원창업기업이자 세계 최초로 CXL 3.0 IP(반도체 설계기술)를 개발하는 등 CXL 기술을 선도하고 있는 반도체 팹리스 스타트업이다. 카이스트 스타트업인 파네시아는 오는 19일 대전에서 개최되는 CXL 테크데이 행사를 통해서 CES에 소개된 CXL이외에도 다양한 최신 CXL 기술들을 여러 학부생들과 공유할 예정이다 (관련소개 뉴스 링크: https://news.nate.com/view/20231229n21475?mid=n0105).
2024.01.17 조회수 7008
111배 빠른 검색엔진용 CXL 3.0 기반 AI반도체 세계 최초 개발 최근 각광받고 있는 이미지 검색, 데이터베이스, 추천 시스템, 광고 등의 서비스들은 마이크로소프트, 메타, 알리바바 등의 글로벌 IT 기업들에서 활발히 제공되고 있다. 하지만 실제 서비스에서 사용되는 데이터 셋은 크기가 매우 커, 많은 양의 메모리를 요구하여 기존 시스템에서는 추가할 수 있는 메모리 용량에 제한이 있어 이러한 요구사항을 만족할 수 없었다. 우리 대학 전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 메모리 시스템 연구실)에서 대용량으로 메모리 확장이 가능한 컴퓨트 익스프레스 링크 3.0 기술(Compute eXpress Link, 이하 CXL)을 활용해 검색 엔진을 위한 AI 반도체를 세계 최초로 개발했다고 25일 밝혔다. 최근 검색 서비스에서 사용되는 알고리즘은 근사 근접 이웃 탐색(Approximate Nearest Neighbor Search, ANNS)으로 어떤 데이터든지 특징 벡터로 표현할 수 있다. 특징 벡터란 데이터가 가지는 특징들 각각을 숫자로 표현해 나열한 것으로, 이들 사이의 거리를 통해 우리는 데이터 간의 유사도를 구할 수 있다. 하지만 벡터 데이터 용량이 매우 커서 이를 압축해 메모리에 적재하는 압축 방식과 메모리보다 큰 용량과 느린 속도를 가지는 저장 장치를 사용하는 스토리지 방식(마이크로소프트에서 사용 중)이 사용되어 왔다. 하지만 이들 각각은 낮은 정확도와 성능을 가지는 문제가 있었다. 이에 정명수 교수 연구팀은 메모리 확장의 제한이라는 근본적인 문제를 해결하기 위해 CXL이라는 기술에 주목했다. CXL은 CPU-장치 간 연결을 위한 프로토콜로, 가속기 및 메모리 확장기의 고속 연결을 제공한다. 또한 CXL 스위치를 통해 여러 대의 메모리 확장기를 하나의 포트에 연결할 수 있는 확장성을 제공한다. 하지만 CXL을 통한 메모리 확장은 로컬 메모리와 비교해 메모리 접근 시간이 증가하는 단점을 가지고 있다. 데이터를 책으로 비유하자면 기존 시스템은 집에 해당하는 CPU 크기의 제한으로 서재(메모리 용량)를 무한정 늘릴 수 없어, 보관할 수 있는 책 개수에 제한이 있는 것이다. 이에 압축 방식은 책의 내용을 압축하여 더 많은 책을 보관하는 방법이고, 스토리지 방식은 필요한 책들을 거리가 먼 도서관에서 구해오는 것과 비슷하다. CXL을 통한 메모리 확장은 집 옆에 창고를 지어 책을 보관하는 것으로 이해될 수 있다. 연구진이 개발한 AI 반도체(CXL-ANNS)는 CXL 스위치와 CXL 메모리 확장기를 사용해 근사 근접 이웃 탐색에서 필요한 모든 데이터를 메모리에 적재할 수 있어 정확도를 높이고 성능 감소를 없앴다. 또한 근사 근접 이웃 탐색의 특징을 활용해 데이터 근처 처리 기법과 지역성을 활용한 데이터 배치 기법으로 CXL-ANNS의 성능을 한 단계 향상했다. 이는 마치 창고 스스로가 필요한 책들의 내용을 요약하고 정리해 전달하고, 자주 보는 책들은 서재에 배치해 집과 창고를 오가는 시간을 줄이는 것과 유사하다. 연구진은 CXL-ANNS의 프로토타입을 자체 제작해 실효성을 확인하고, CXL-ANNS 성능을 기존 연구들과 비교했다. 마이크로소프트, 메타, 얀덱스 등의 글로벌 IT 기업에서 공개한 검색 데이터 셋을 사용한 근사 근접 이웃 탐색의 성능 비교에서 CXL-ANNS는 기존 연구들 대비 평균 111배 성능 향상이 있었다. 특히, 마이크로소프트의 상용화된 서비스에서 사용되는 방식과 비교하였을 때 92배의 성능 향상을 보여줬다. 정명수 교수는 "이번에 개발한 CXL-ANNS는 기존 검색 엔진의 문제였던 메모리 용량 제한 문제를 해결하고, CXL 기반의 메모리 확장이 실제 적용될 때 발생하는 메모리 접근 시간 지연 문제를 해결했다ˮ며, “제안하는 CXL 기반 메모리 확장과 데이터 근처 처리 가속의 패러다임은 검색 엔진뿐만 아니라 빅 데이터가 필요한 고성능 컴퓨팅, 유전자 탐색, 영상 처리 등의 다양한 분야에도 적용할 수 있다ˮ라고 말했다. 이번 연구는 미국 보스턴에서 오는 7월에 열릴 시스템 분야 최우수 학술대회인 유즈닉스 연례 회의 `USENIX Annual Technical Conference, 2023'에 ‘CXL-ANNS’이라는 이름으로 발표된 예정이다. (논문명: CXL-ANNS: Software-Hardware Collaborative Memory Disaggregation and Computation for Billion-Scale Approximate Nearest Neighbor Search) 한편 해당 연구는 파네시아(http://panmnesia.com)의 지원을 받아 진행됐다.
2023.05.25 조회수 8842
인공지능 및 빅데이터 시대를 이끌어갈 차세대 CXL2.0 메모리 확장 플랫폼 세계 최초 개발 우리 대학 전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 메모리 시스템 연구실)이 대용량 메모리 장치부터 프로세스를 포함한 컴퓨트 익스프레스 링크(CXL) 2.0 기반의 차세대 메모리 확장 플랫폼 ‘다이렉트CXL(이하 DirectCXL)’을 세계 최초로 프로토타입 제작, 운영체제가 실장된 단대단(End-to-End) 시연에 성공했다고 1일 밝혔다. 오늘날 빅데이터 분석, 그래프 분석, 인메모리 데이터베이스 등 대규모 데이터에 기반한 응용처리가 증가함에 따라, 데이터 센터에서는 이를 더 빠르고 효율적으로 처리하기 위해 시스템의 메모리 확장에 많은 투자를 하고 있다. 그러나 우리가 흔히 알고 있는 메모리 확장 방식인 더블 데이터 대역폭(DDR) 인터페이스를 통한 메모리 확장은 추가할 수 있는 메모리 개수의 제한이 있어, 대규모 데이터 기반의 응용을 처리하기에 충분치 않다. 따라서 데이터 센터에서는 CPU와 메모리로 이루어진 메모리 노드들을 따로 구성하고, 응용을 수행하는 호스트의 메모리가 부족하면 네트워크로 연결된 메모리 노드를 자신의 메모리 공간으로 사용하는 원격 데이터 전송 기술(이하 RDMA) 기반의 메모리 확장을 사용한다. 여러 메모리 노드를 사용하는 RDMA 기반의 메모리 확장을 통해 데이터센터는 시스템의 메모리 크기를 늘릴 수 있었지만, 여전히 해결해야 할 문제들이 남아있었다. 우선 RDMA 기반 메모리 확장 시스템에서는 노드 간 데이터 이동 시 불필요한 데이터 복사, 소프트웨어의 개입 그리고 프로토콜 전환으로 인한 지연을 발생시켜 성능 저하가 발생했다. 또한 시스템의 메모리 확장 시 메모리만을 추가할 수 있는 것이 아닌, 메모리와 메모리를 제어할 CPU가 하나의 메모리 노드를 이루어 시스템에 추가되어야 했기 때문에, 추가적인 비용 소모가 발생했다. 최근 컴퓨트 익스프레스 링크(Compute Express Link, 이하 CXL) 프로토콜의 등장으로 많은 메모리 고객사와 제조사가 이러한 문제를 해결할 가능성을 확인하고 있다. CXL은 PCI 익스프레스(PCIe) 인터페이스 기반의 CPU-장치(Device) 간 연결을 위한 프로토콜로, 이를 기반으로 한 장치 연결은 기존보다 높은 성능과 확장성을 지원하는 것이 특징이다. 국내외 유수 기업들이 모여 CXL 인터페이스 표준 규약을 제안하는 CXL 컨소시엄은 지난 2019년 CXL 1.0/1.1을 처음 제안했고, 이후 CXL 2.0을 발표하며 CXL 1.0/1.1에서 하나의 포트당 하나의 지역 메모리 장치만을 연결할 수 있었던 확장성 문제를 스위치 네트워크를 통해 개선, 하나의 포트를 여러 포트로 확장할 수 있도록 했다. 따라서 CXL 1.0/1.1과 달리 CXL 2.0에서는 확장된 포트에 다수의 원격 CXL 메모리 장치를 연결하는 것이 가능해 더 높은 확장성을 지원할 수 있게 됐다. 그러나 CXL 2.0의 높은 확장성에도 불구하고, 아직 CXL 연구의 방향성을 제시해줄 수 있는 시제품 개발 및 연구들이 진행되지 않아, 메모리 업계와 학계에서는 여전히 CXL1.0/1.1을 기반으로 지역 메모리 확장 장치, 시제품 개발 및 연구를 진행하고 있는 실정이다. 따라서 새로운 CXL 2.0을 통한 메모리 확장 연구의 방향성 초석을 제시할 필요성이 커졌다. 정명수 교수 연구팀이 전 세계 최초로 프로토타입한 CXL 2.0 기반 메모리 확장 플랫폼 ‘DirectCXL’은 높은 수준의 메모리 확장성을 제공하며, 빠른 속도로 대규모 데이터 처리를 가능케 한다. 이를 위해 연구팀은 메모리를 확장해 줄 장치인 ‘CXL 메모리 장치’와 호스트 ‘CXL 프로세서 (CPU)’, 여러 호스트를 다수의 CXL 메모리 장치에 연결해주는 ‘CXL 네트워크 스위치’ 그리고 메모리 확장 플랫폼 전반을 제어할 리눅스 운영체제 기반의‘CXL 소프트웨어 모듈’을 개발해 플랫폼을 구성했다. 구성된 ‘DirectCXL’ 플랫폼을 사용한 시스템에서는 확장된 메모리 공간에 직접 접근해 데이터를 CPU의 캐시로 가져와 불필요한 메모리 복사와 소프트웨어의 개입이 없으며, PCIe 인터페이스만을 사용해 프로토콜 전환을 없애 지연시간을 최대한 줄였다. 또한 추가적인 CPU가 필요 없는 CXL 메모리 장치를 CXL 스위치에 연결하는 것만으로 메모리 확장이 가능해 효율적인 시스템의 구성이 가능했다. 국내외 소수 대기업에서 메모리 장치 일부 단품에 대한 구성을 보여준 준 사례는 있지만, CXL 2.0 기반, CPU부터 CXL 스위치, 메모리 장치가 장착된 시스템에서 운영체제를 동작시키고 데이터 센터와 응용을 실행하고 시연한 것은 정명수 교수 연구팀이 처음이다. 연구팀은 자체 제작한 메모리 확장 플랫폼 ‘DirectCXL’의 성능을 검증하기 위해 CXL 동작이 가능한 다수의 자체 개발 호스트 컴퓨터가 CXL 네트워크 스위치를 통해 연결된 다수 CXL 메모리 장치들을 제어하는 환경을 구성했다. 이후 구성된 플랫폼을 통해 CXL 메모리 장치의 성능을 기존 RDMA 기반 메모리 확장 솔루션과 비교했다. 연구팀이 제안한 ‘DirectCXL’은 확장된 메모리에 대한 접근 시간 검증에서 기존 RDMA 기반의 메모리 확장 솔루션 대비 8.3배의 성능 향상을 보였으며, 많은 메모리 접근을 요구하는 그래프 응용처리 및 인 메모리 데이터베이스 응용처리에서도 각각 2.3배, 2배의 성능 향상을 이뤄냈다. 정명수 교수는 "이번에 개발된 ‘DirectCXL’은 기존 RDMA기반 메모리 확장 솔루션보다 훨씬 적은 비용으로도 뛰어난 성능과 높은 확장성을 제공하는 만큼 데이터센터나 고성능 컴퓨팅 시스템에서의 수요가 클 것으로 기대한다ˮ며, "세계 최초로 개발된 CXL 2.0 기반의 단대단 프로토타입 플랫폼을 활용해 CXL이 적용된 새로운 운영체제(OS)는 물론 시스템 소프트웨어, 솔루션 시제품 고도화를 통해 향후 CXL을 활용한 시스템 구축에 초석을 제공할 것이다ˮ라고 말했다. 한편 이번 연구는 미국 칼스배드에서 지난 7월에 11에 열린 시스템 분야 최우수 학술대회인 유즈닉스 연례 회의 `USENIX Annual Technical Conference, 2022'에 ‘DirectCXL’이라는 논문명(Direct Access, High-performance Memory Disaggregation with DirectCXL)으로 발표되었다. 또한 미국 산호세에서 열리는 8월 2/3일에 플래시 메모리 정상회담(Flash Memory Summit)에서 CXL 컨소시움이 이끄는 CXL포럼에 발표될 예정이다. ‘DirectCXL’의 자세한 내용은 연구실 웹사이트(http://camelab.org)에서 확인할 수 있다. DirectCXL은 데이터센터와 클라우드 시스템에서 다양한 응용에 쉽게 적용 가능하며, 하나의 실시예로 메타(페이스북) 추천시스템 기계학습 데이터 가속에 대한 시연 영상을 연구실 유튜브(https://youtu.be/jm8k-JM0qbM) 에서 확인할 수 있다. 해당 영상은 각 개인의 대규모 특성 자료들(텐서)을 CXL 메모리 풀에 올려두고 빅데이터를 활용한 인공지능이 친구나 광고 등 개인 특성에 맞는 자료들을 추천하게 하는 시스템으로 기존 데이터 센터의 원격메모리에 비해 3.2배 이상의 사용자 수준 성능 향상을 보여주고 있다.
2022.08.01 조회수 11033
‘컴퓨터의 시간을 멈춘다’, 전원 공급 없이도 모든 정보가 복원, 작동되는 비휘발성 컴퓨터 최초 개발 우리 대학 전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 메모리 시스템 연구실)이 컴퓨터의 시간을 멈추는 하드웨어/소프트웨어 기술, `경량화된 비휘발성 컴퓨팅 시스템(Lightweight Persistence Centric System, 이하 라이트PC)'을 세계 최초로 개발했다고 25일 밝혔다. 연구진의 컴퓨터에서는 시간이 멈춰진 순간의 모든 정보(실행 상태 및 데이터)는 전원 공급 여부와 관계없이 유지되며, 유지되는 모든 정보는 언제든 사용자가 원할 때 바로 복원, 작동될 수 있다. 기존의 컴퓨터는 휘발성 메모리인 D램을 메인 메모리로 사용하기 때문에 전원이 사라지면 메모리가 저장하고 있는 데이터들을 잃어버린다. 이러한 D램보다 적은 전력 소모와 큰 용량을 제공하는 비휘발성 메모리(인텔의 옵테인 메모리)는 영구적으로 데이터를 기억할 수 있는 특징이 있다. 하지만, 복잡한 내부 구조 설계로 인한 느린 성능 때문에 온전히 메인 메모리로 사용되지 못하고, D램과 함께 사용해 비휘발성 메모리에 저장되는 일부 데이터만을 선택적으로 유지하는 형태로 사용된다. 또한 이상적인 환경 아래 비휘발성 메모리의 성능이 향상돼 메인 메모리로 단독 사용하더라도, 갑작스러운 전원 공급차단의 상황에서 컴퓨터의 모든 정보를 유지할 수는 없다. 비휘발성 메모리 내부에 존재하는 휘발성 구성요소와 프로세서 자체가 가지고 있는 레지스터나 캐시 메모리(휘발성) 같은 임시 저장 공간의 데이터는 전원 공급 없이 지속적 보존이 불가능하기 때문이다. 이러한 문제 때문에 기존의 컴퓨터에서 실행 상태와 데이터를 유지하기 위해서는, D램을 포함, 프로세서가 가지고 있는 휘발성 상태의 데이터들을 비휘발성 메모리나 저장장치인 SSD 등으로 옮기는 체크포인팅 기법등이 데이터 센터나 고성능 컴퓨터에서 사용되고 있다. 하지만 체크포인팅 방식은 주기적 데이터 이동에 추가적인 시간과 전력을 소모하며, 정전 후 전원이 인가되면 시스템 전체를 재부팅하는 데이터 복구 과정을 겪어야 하는 치명적인 단점이 존재한다. 우리 대학 정명수 교수 연구팀이 개발한 라이트PC는 이러한 과정 없이 컴퓨터의 모든 프로그램 실행 상태와 데이터들을 전원 없이 비휘발성으로 유지할 수 있는 프로세서와 메모리 컨트롤러, 그리고 운영체제 기술들을 개발해냈다. 이를 위해 연구팀은 기존 메모리나 스토리지 장치 없이 지속성 메모리만을 활용하여 시스템을 구성해, 시스템의 대부분 상태를 비휘발성으로 유지하게 했으며, 전원이 끊긴 직후 전원 공급 장치의 신호에 따라 프로세서의 남아 있는 비지속성 상태들을 비휘발성으로 변환하는 장치를 통해 정전 시에도 컴퓨터의 시간을 멈출 수 있게 만들었다. 이를 위해서 연구팀이 개발한 라이트PC 기술은 프로세서의 하드웨어 데이터 경로상의 휘발성 구성요소를 최소화하고, 복잡한 내부 구조를 최대한 단순화한 뒤, 데이터 처리의 병렬성을 극대화해 사용자가 일반적인 응용실행에서 D램만 사용하는 고성능 시스템과 큰 성능 차이를 느끼지 못하도록 성능을 개선했다. 또한, 컴퓨터의 시간을 멈추는 동안 일관성 유지를 위해 프로그램 실행이 비결정적으로 진행되지 않도록 임의의 상태/데이터의 변경을 막고 다양한 형태의 지속성 기능이 추가된 운영체제를 구축했다. 일관성이 유지되기 때문에 다시 전원이 인가되면 컴퓨터는 부팅 과정 없이 멈춘 시간부터 다시 실행될 수 있다. 연구팀은 라이트PC의 실효성을 검증하기 위해 자체 제작한 시스템 보드에 시제작한 지속성 메모리를 장착해 비휘발성 컴퓨터를 구축하고, 정전 시 컴퓨터의 시간을 멈추게 하는 운영체제 프로토타입을 제작해 비휘발성 컴퓨터 위에서 실행했다. 엔터프라이즈향 응용 프로그램이 실행되는 도중 무작위 시간에 전원을 제거한 뒤, 다시 인가했을 때 전원이 사라지기 직전의 상태로 모든 프로그램 실행과 데이터가 일관성 있게 복구되는 것을 연구팀은 확인했다. 이와 더불어 라이트PC는 기존 컴퓨터 대비 최대 8배 큰 메모리와 4.3배 빠른 응용실행 및 73%의 전력 소모 절감을 보였다. 정명수 교수는 "이번에 개발된 비휘발성 컴퓨터는 대용량 메모리 제공과 동시에 높은 신뢰성 및 서비스의 안전성을 제공할 수 있어 데이터 센터나 고성능 컴퓨팅의 저전력 운영으로 인한 탄소중립에너지 효율화에 극대화를 이룰 수 있을 것으로 예상된다. 또한 관련된 연구 핵심기술은 차량, 핸드폰 모바일, 사물인터넷 장치등의 베터리 사용량을 최소화하고 초연결사회를 이루는 등 다양하게 활용될 수 있을 것으로 기대한다ˮ라고 말했다. 한편 이번 연구는 미국 뉴욕시에서 오는 6월에 열릴 컴퓨터 구조 분야 최우수 학술대회인 `이스카(International Symposium on Computer Architecture, ISCA), 2022'에 라이트PC라는 논문명(LightPC: Hardware and Software Co-Desingn for Energy-Efficient Full System Persistence)으로 발표될 예정이다. 해당 연구는 차세대 메모리 개발 및 공급업체 멤레이, 과학기술정보통신부와 한국연구재단이 추진하는 우수신진(중견연계)사업, 그리고 정보통신기획평가원의 연구 지원을 받아 진행됐다. 비휘발성 컴퓨터의 실제 동작 및 자세한 내용은 연구실 웹사이트(http://camelab.org) 및 유튜브(https://youtu.be/mlF7W_RmYRk)에서 확인할 수 있다.
2022.04.25 조회수 10181
세계 최초 그래프 기반 인공지능 추론 가능한 SSD 개발 우리 대학 전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 메모리 시스템 연구실)이 세계 최초로 그래프 기계학습 추론의 그래프처리, 그래프 샘플링 그리고 신경망 가속을 스토리지/SSD 장치 근처에서 수행하는 `전체론적 그래프 기반 신경망 기계학습 기술(이하 홀리스틱 GNN)'을 개발하는데 성공했다고 10일 밝혔다. 연구팀은 자체 제작한 프로그래밍 가능 반도체(FPGA)를 동반한 새로운 형태의 계산형 스토리지/SSD 시스템에 기계학습 전용 신경망 가속 하드웨어와 그래프 전용 처리 컨트롤러/소프트웨어를 시제작했다. 이는 이상적 상황에서 최신 고성능 엔비디아 GPU를 이용한 기계학습 가속 컴퓨팅 대비 7배의 속도 향상과 33배의 에너지 절약을 가져올 수 있다고 밝혔다. 그래프 자료구조가 적용된 새로운 기계학습 모델은 기존 신경망 기반 기계학습 기법들과 달리, 데이터 사이의 연관 관계를 표현할 수 있어 페이스북, 구글, 링크드인, 우버 등, 대규모 소셜 네트워크 서비스(SNS)부터, 내비게이션, 신약개발 등 광범위한 분야와 응용에서 사용된다. 예를 들면 그래프 구조로 저장된 사용자 네트워크를 분석하는 경우 일반적인 기계학습으로는 불가능했던 현실적인 상품 및 아이템 추천, 사람이 추론한 것 같은 친구 추천 등이 가능하다. 이러한 신흥 그래프 기반 신경망 기계학습은 그간 GPU와 같은 일반 기계학습의 가속 시스템을 재이용해 연산 되어왔는데, 이는 그래프 데이터를 스토리지로부터 메모리로 적재하고 샘플링하는 등의 데이터 전처리 과정에서 심각한 성능 병목현상과 함께 장치 메모리 부족 현상으로 실제 시스템 적용에 한계를 보여 왔다. 정명수 교수 연구팀이 개발한 홀리스틱 GNN 기술은 그래프 데이터 자체가 저장된 스토리지 근처에서 사용자 요청에 따른 추론의 모든 과정을 직접 가속한다. 구체적으로는 프로그래밍 가능한 반도체를 스토리지 근처에 배치한 새로운 계산형 스토리지(Computational SSD) 구조를 활용해 대규모 그래프 데이터의 이동을 제거하고 데이터 근처(Near Storage)에서 그래프처리 및 그래프 샘플링 등을 가속해 그래프 기계학습 전처리 과정에서의 병목현상을 해결했다. 일반적인 계산형 스토리지는 장치 내 고정된 펌웨어와 하드웨어 구성을 통해서 데이터를 처리해야 했기 때문에 그 사용에 제한이 있었다. 그래프처리 및 그래프샘플링 외에도, 연구팀의 홀리스틱 GNN 기술은 인공지능 추론 가속에 필요한 다양한 하드웨어 구조, 그리고 소프트웨어를 후원할 수 있도록 다수 그래프 기계학습 모델을 프로그래밍할 수 있는 장치수준의 소프트웨어와 사용자가 자유롭게 변경할 수 있는 신경망 가속 하드웨어 프레임워크 구조를 제공한다. 연구팀은 홀리스틱 GNN 기술의 실효성을 검증하기 위해 계산형 스토리지의 프로토타입을 자체 제작한 후, 그 위에 개발된 그래프 기계학습용 하드웨어 *RTL과 소프트웨어 프레임워크를 구현해 탑재했다. 그래프 기계학습 추론 성능을 제작된 계산형 스토리지 가속기 프로토타입과 최신 고성능 엔비디아 GPU 가속 시스템(RTX 3090)에서 평가한 결과, 홀리스틱 GNN 기술이 이상적인 상황에서 기존 엔비디아 GPU를 이용해 그래프 기계학습을 가속하는 시스템의 경우에 비해 평균 7배 빠르고 33배 에너지를 감소시킴을 확인했다. 특히, 그래프 규모가 점차 커질수록 전처리 병목현상 완화 효과가 증가해 기존 GPU 대비 최대 201배 향상된 속도와 453배 에너지를 감소할 수 있었다. ☞ RTL (Registor Transistor Logic): 저항과 트랜지스터로 구성한 컴퓨터에 사용되는 회로 정명수 교수는 "대규모 그래프에 대해 스토리지 근처에서 그래프 기계학습을 고속으로 추론할 뿐만 아니라 에너지 절약에 최적화된 계산형 스토리지 가속 시스템을 확보했다ˮ며 "기존 고성능 가속 시스템을 대체해 초대형 추천시스템, 교통 예측 시스템, 신약 개발 등의 광범위한 실제 응용에 적용될 수 있을 것ˮ이라고 말했다. 한편 이번 연구는 미국 산호세에서 오는 2월에 열릴 스토리지 시스템 분야 최우수 학술대회인 `유즈닉스 패스트(USENIX Conference on File and Storage Technologies, FAST), 2022'에 관련 논문(논문명: Hardware/Software Co-Programmable Framework for Computational SSDs to Accelerate Deep Learning Service on Large-Scale Graphs)으로 발표될 예정이다. 해당 연구는 삼성미래기술육성사업 지원을 받아 진행됐고 자세한 내용은 연구실 웹사이트(http://camelab.org)에서 확인할 수 있다.
2022.01.10 조회수 11352
광 네트워크 기반 GPU 메모리 시스템 개발 소수의 글로벌 기업 주도하에 개발/생산되던 *GPU(Graphic Processing Unit)의 메모리 시스템을, *이종 메모리와 *광 네트워크를 활용해 용량과 대역폭 모두를 대폭 향상한 기술이 우리 연구진에 의해 개발됐다. ☞ 이종 메모리: 서로 다른 특성을 가진 메모리를 통합한 메모리 ☞ 광 네트워크: 빛으로 변환된 신호를 사용하여 정보를 전달하는 통신 수단. ☞ GPU: 여러 프로세스를 병렬적으로 빠르게 처리할 수 있는 연산 장치. 우리 대학 전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 운영체제 연구실)이 *3D XPoint 메모리(이하 XPoint)와 *DRAM 메모리를 통합한 이종 메모리 시스템에서 광 네트워크로 통신하는 `옴-지피유(Ohm-GPU)' 기술 개발에 성공함으로써 기존 DRAM을 단독으로 사용한 *전기 네트워크 기반의 GPU 메모리 시스템 대비 181% 이상의 성능 향상을 성취했다고 2일 밝혔다. ☞ 3D XPoint 메모리: DRAM에 비해 용량이 크지만 데이터 전송 속도가 느린 메모리. ☞ DRAM 메모리: 3D XPoint에 비해 데이터 전송 속도가 빠르지만 용량이 작은 메모리. ☞ 전기 네트워크: 전기적인 신호를 사용해 정보를 전달하는 통신 수단. 기존 GPU는 다수의 연산 장치로 구성되어 있어 연산 속도가 매우 빠르다는 장점이 있으나, DRAM을 단독으로 사용하는 메모리 시스템의 낮은 메모리 용량과 좁은 데이터 전송 대역폭으로 인해 연산 성능을 충분히 활용하지 못한다는 문제가 있다. 용량을 증가시키는 대안으로 DRAM을 XPoint로 대체하는 방법이 있으나, 이때 8배 큰 메모리 용량을 얻을 수 있는 반면 읽기/쓰기의 성능이 4배, 6배로 낮아진다. 또한, 대역폭을 증가시키는 대안으로 *HBM(High Bandwidth Memory) 기술을 활용할 수 있으나, 단일 면적 내 장착할 수 있는 전기 채널(*구리 선) 개수의 한계로 인해 GPU 메모리 시스템이 요구하는 고대역폭을 만족하기 어렵다. ☞ HBM: 3D로 DRAM을 쌓아 고대역폭을 얻을 수 있는 메모리. ☞ 구리 선(Copper wire): 전기 신호가 전달되는 통로. 정 교수팀이 개발한 Ohm-GPU 기술은 대용량 XPoint와 고성능의 DRAM을 통합한 이종 메모리 시스템을 채택함으로써, 기존 메모리 시스템과 동일한 성능을 가지면서도 메모리의 용량을 증가시켰다. 또한, 단일 광 채널(*광섬유)로 서로 다른 파장의 다중 광신호를 전달할 수 있는 광 네트워크의 장점을 활용해 메모리 대역폭을 대폭 넓힘으로써 기존 GPU 메모리 시스템의 한계점들을 전면 개선했다. ☞ 광섬유(Optic fiber): 광 신호가 전달되는 통로. Ohm-GPU 기술은 GPU 내부에 있는 메모리 컨트롤러 및 인터페이스를 수정해 이종 메모리의 모든 메모리 요청을 광신호로 처리한다. 메모리 요청은 일반적으로 DRAM 캐시 메모리에서 처리되지만, DRAM에 없는 데이터는 XPoint로부터 읽어와야 한다. 이때, 발생하는 이종 메모리 간 데이터 이동의 오버헤드(대기 시간)는 1) 연산을 위한 메모리 접근과 데이터 이동을 위한 메모리 접근의 광 파장을 다르게 설정하고, 2) 메모리 컨트롤러 개입을 최소화하고 XPoint 컨트롤러가 이종 메모리 간 데이터 이동을 수행함으로써 완화했다. 개발된 Ohm-GPU 기술은 기존 DRAM을 단독으로 사용하는 전기 네트워크 기반의 GPU 메모리 시스템 대비 다양한 그래 프처리, 과학응용 실행 등에서 181%의 성능 향상을 달성했다. 이는 인공지능(AI), 빅데이터, 클라우드 컴퓨팅 등 대용량, 고대역폭의 데이터 전송을 요구하는 고성능 가속기의 메모리 시스템을 대체할 수 있을 것으로 기대된다. 정명수 교수는 "GPU 메모리 시스템 기술은 일부 해외 유수 기업이 주도하고 있지만, 이번 연구성과를 기반으로 GPU 및 GPU와 유사한 모든 고성능 가속기 메모리 시스템 관련 시장에서 우위를 선점할 가능성을 열었다는 점에서 의미가 있다ˮ라고 강조했다. 한편 이번 연구는 올해 10월에 열릴 컴퓨터 구조 분야 최우수 학술대회인 `마이크로(International Symposium on Microarchitecture, MICRO), 2021'에 관련 논문(논문명: Ohm-GPU: Integrating New Optical Network and Heterogeneous Memory into GPU Multi-Processors)으로 발표될 예정이며, 이를 통해 정교수 팀은 스토리지 및 메모리 관련 연구로 2021, 당해, 전 세계 컴퓨터 구조에서 가장 잘 알려진 4개의 최우수 학술대회 모두에서 그 결과를 공유한다. 해당 연구에 대한 자세한 내용은 연구실 웹사이트(http://camelab.org)에서 확인할 수 있다.
2021.08.03 조회수 11407
정명수 교수, 테라바이트(TB) 메모리 시대 열어 *비휘발성 메모리(이하 NVDIMM)와 *초저지연 SSD(반도체 저장장치)가 하나의 메모리로 통합돼, 소수의 글로벌 기업만이 주도하고 있는 미래 *영구 메모리(Persistent Memory)보다 성능과 용량이 대폭 향상된 메모리 기술이 우리 연구진에 의해 개발됐다. ☞ 비휘발성 메모리(NVDIMM; Non-Volatile DIMM): 기존 D램(DRAM)에 플래시 메모리와 슈퍼 커패시터를 추가해 정전 때에도 데이터를 유지할 수 있는 메모리. ☞ 초저지연 SSD(Ultra Low Latency SSD): 기존 SSD를 개선해, 매우 낮은 지연시간을 갖는 SSD. ☞ 영구 메모리(Persistent Memory): 데이터의 보존성을 가지는 메모리. 우리 대학 전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 운영체제 연구실)이 비휘발성 메모리와 초저지연 SSD를 하나의 메모리 공간으로 통합하는 메모리-오버-스토리지(Memory-over-Storage, 이하 MoS) 기술 개발에 성공했다고 16일 밝혔다. 정 교수팀이 새롭게 개발한 이 기술은 기존 스토리지 기술을 재사용하는 데 인텔 옵테인 대비, 메모리 슬롯당 4배 이상인 테라바이트(TB=1,024GB) 수준의 저장 용량을 제공하면서도 휘발성 메모리(D램)과 유사한 사용자 수준의 데이터 처리 속도를 낼 수 있다. 기존 NVDIMM은 운영체제의 도움 없이 CPU가 직접 비휘발성 메모리에 접근할 수 있다는 장점이 있다. 반면 NVDIMM은 D램을 그대로 활용하고 배터리 크기를 무한히 키울 수 없기 때문에 대용량 데이터를 처리할 수 없다는 게 문제다. 이를 해결하기 위한 대안으로는 인텔의 옵테인 메모리 (Intel Optane DC PMM)와 메모리 드라이브 기술(Intel Memory Drive Technology) 등이 있다. 그러나 이러한 기술들은 비휘발성 메모리에 접근할 때마다 운영체제의 도움이 필요해 NVDIMM에 비해 50% 수준으로 읽기/쓰기 속도가 떨어진다. 정 교수팀이 제안한 MoS 기술은 초저지연 SSD를 주 메모리로 활용하고, NVDIMM을 *캐시메모리로 활용한다. 이 결과, SSD 대용량의 저장 공간을 사용자에게 메모리로 사용하게 해줌과 동시에 NVDIMM 단독 사용 시와 유사한 성능을 얻게 함으로써 미래 영구 메모리 기술들이 가지는 한계점을 전면 개선했다. ☞ 캐시: 자주 사용되는 데이터에 빨리 접근할 수 있도록 느린 메모리에 저장된 데이터를 빠른 메모리에 복사해 두는 기법. MoS 기술은 메인보드나 CPU 내부에 있는 *메모리 컨트롤러 허브(이하 MCH)에 적용돼 사용자의 모든 메모리 요청을 처리한다. 사용자 요청은 일반적으로 NVDIMM 캐시 메모리에서 처리되지만 NVDIMM에 저장되지 않은 데이터의 경우 초저지연 SSD에서 데이터를 읽어와야 한다. 기존 기술들은 운영체제가 이러한 SSD 읽기를 처리하는 반면, 개발된 MoS 기술은 MCH 내부에서 하드웨어가 SSD 입출력을 직접 처리함으로써 초저지연 SSD에 접근 시 발생하는 운영체제(OS)의 입출력 오버헤드(추가로 요구되는 시간)를 완화하는 한편 SSD의 큰 용량을 일반 메모리처럼 사용할 수 있게 해준다. ☞ 메모리 컨트롤러 허브: 일반적으로 노스 브릿지(North Bridge)로 알려져 있으며, CPU가 메모리(DRAM)나 그래픽 처리장치(GPU)와 같은 고대역폭 장치에 접근할 수 있도록 도와주는 하드웨어. 정 교수가 이번에 개발한 MoS 기술은 소프트웨어 기반 메모리 드라이브나 옵테인 영구 메모리 기술 대비 45% 절감된 에너지 소모량으로 110%의 데이터 읽기/쓰기 속도 향상을 달성했다. 결과적으로 대용량의 메모리가 필요하고 정전으로 인한 시스템 장애에 민감한 데이터 센터, 슈퍼컴퓨터 등에 사용되는 기존 메모리/미래 영구 메모리를 대체할 수 있을 것으로 기대된다. 정명수 교수는 "미래 영구 메모리 기술은 일부 해외 유수 기업이 주도하고 있지만, 이번 연구성과를 기반으로 국내 기술과 기존 스토리 및 메모리 기술을 통해 관련 시장에서 우위를 선점할 수 있는 가능성을 열었다는 점에서 의미가 있다"고 강조했다. 이번 연구는 올해 6월에 열릴 컴퓨터 구조 분야 최우수 학술대회인 '이스카(ISCA, International Symposium on Computer Architecture), 2021'에 관련 논문(논문명: Revamping Storage Class Memory With Hardware Automated Memory-Over-Storage Solution)으로 발표될 예정이다. 또 해당 연구에 대한 자세한 내용은 연구실 웹사이트(http://camelab.org)에서 확인할 수 있다. 한편 이번 연구는 과학기술정보통신부와 한국연구재단이 추진하는 우수신진(중견연계) 사업, KAIST 정착연구사업 등의 지원을 받아 수행됐다.
2021.03.16 조회수 105557
SSD보다 더 빠른 차세대 저장장치 만드는 기술 개발 데이터(DB)의 초고속·대용량 처리에 적합한 정보저장장치인 기존의 *NVMe 컨트롤러를 차세대 메모리 개발에 적합하도록 초당 입출력 처리 능력 등 각종 기능적 측면에서 성능을 대폭 향상시킨 차세대 NVMe 컨트롤러 관련 기술이 우리 연구진에 의해 세계 최초로 개발됐다. 연구진은 이와 함께 이 기술을 국내·외 대학과 연구소에 무상으로 공개함으로써 관련 연구비용을 대폭 절감할 수 있게 했다. ☞ NVMe(Non Volatile Memory express): 비휘발성 메모리 익스프레스. PCI 익스프레스(PCIe) 인터페이스를 기반으로 한 저장장치를 위한 통신 규격(프로토콜)이다. SATA 인터페이스 대비 최대 6배 이상의 속도를 낼 수 있어 초고속, 대용량 데이터 처리에 적합하다. 전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 메모리 시스템 연구실)이 *SSD의 데이터 병렬 입출력 처리를 순수 하드웨어로 구현한 차세대 NVMe 컨트롤러 'OpenExpress'를 개발하는 데 성공했다고 4일 밝혔다. ☞ SSD(Solid State Drive): 자기디스크를 이용하는 데이터 저장장치인 하드디스크(HDD)와는 달리 반도체를 이용해 데이터를 저장하는 장치로서 빠른 속도로 데이터의 읽기와 쓰기가 가능하다. 발열과 소음도 적으며, 소형화‧경량화할 수 있는 장점이 있으나, 비싼 가격이 단점으로 꼽힌다. 정 교수의 관련 논문(논문명: OpenExpress: Fully Hardware Automated Open Research Framework for Future Fast NVMe Devices)은 지난달 18일 열린 시스템 분야 최우수 학술대회인 'The USENIX Annual Technical Conference (ATC), 2020'에서 발표됐는데 아시아권 단일저자가 작성한 논문이 USENIX ATC 학술대회에 채택된 것은 해당 학술대회가 시작된 1993년 이후 27년 만에 처음이다. 빠른 입출력 장치에 특화된 NVMe 인터페이스 기술은 하드디스크(HDD)용으로 설계된 기존의 SATA(Serial ATA) 규격이 SSD에서 제대로 성능을 발휘하지 못하자 이를 대체하기 위해 개발됐다. NVMe는 SSD 성능을 최대한 활용할 수 있도록 개발된 초고속 데이터 전송규격으로 자리를 잡았으며 현재 다양한 플래시 기반 저장장치에 적용되고 있다. NVMe는 또 학계와 산업계에서 차세대 메모리를 기반으로 한 시스템 장치 구성을 위해 계속 연구되고 있다. 전 세계 ICT 분야의 주요 기업들은 NVMe를 사용하는 데 필요한 하드웨어 NVMe 컨트롤러 관련 지식 재산권(IP) 확보를 위해 막대한 비용을 투자해 독자적인 개발에 나서고 있다. 하지만 해당 IP는 외부에 공개가 되지 않아 대학이나 연구소 등에서 이를 연구목적으로 사용하기에는 어려움이 많다. 미국 실리콘밸리에 있는 소수의 벤처기업이 자체적으로 개발한 IP를 일부 제공하지만 한 달에 약 4천만 원의 이용료를 내야 한다. 또 IP 수정을 위한 단일 사용 소스 코드를 받기 위해서는 복사본 당 약 1억 원을 지급해야 하는 등 막대한 비용지출이 필요하다. 이러한 문제해결을 위해 정명수 교수 연구팀은 자유롭게 수정이 가능한 하드웨어 NVMe 컨트롤러 지식 재산권(IP)인 `OpenExpress'를 개발하고 이를 무상으로 공개했다. 이 공개용 컨트롤러는 수십 개 이상의 하드웨어 기본 IP들과 여러 핵심 NVMe IP 코어로 구성돼 있다. 정 교수팀은 실제 성능평가를 위해 OpenExpress를 이용한 NVMe 하드웨어 컨트롤러를 프로토타입(시제품)으로 제작하고, OpenExpress에서 제공되는 모든 로직은 높은 주파수에서 동작하도록 설계했다. 'OpenExpress'를 이용해 개발한 FPGA 스토리지 카드 시제품은 최대 7GB/s의 대역폭을 지원한다. 따라서 초고속 차세대 메모리 등의 연구에 적합하며, 다양한 스토리지 서버 작업 부하를 비교 테스트에서도 인텔의 새로운 고성능 저장장치인 옵테인 SSD(Optane SSD)보다 76% 높은 대역폭과 68% 낮은 입출력 지연시간을 보였다. 사용자의 필요에 따라 실리콘 장치 합성을 하게 되면 훨씬 더 높은 성능을 도출할 수 있을 것으로 예상된다. 정 교수팀이 개발한 이 컨트롤러는 비영리를 목적으로 하는 대학 및 연구소들이라면 `OpenExpress' 공개 소스 규약 내에서 자유로운 사용과 함께 수정사용도 가능해서 차세대 메모리를 수용하는 NVMe의 컨트롤러와 소프트웨어 스택에 관한 연구에 적합하다. 정명수 교수는 "이번 연구성과를 공개했기 때문에 기존 SSD 기술을 이끄는 몇몇 세계 최고 기업들만이 갖고 있던 컨트롤러를 대학과 연구소에서도 이젠 무상 사용이 가능하다ˮ면서 "초고속 차세대 메모리 등 저장장치 시스템의 연구를 위한 초석을 다졌다는 점에서 의미가 있다ˮ고 강조했다. 한편 이번 연구는 차세대 메모리 개발 및 공급업체인 '멤레이(MemRay)'의 지원을 받아 진행됐으며 해당 연구에 대한 자세한 내용은 웹사이트(http://camelab.org)에서 확인할 수 있다.
2020.08.04 조회수 28375

34141 대전광역시 유성구 대학로 291 한국과학기술원(KAIST) T.042-350-2114 F.042-350-2210(2220)

Copyright (C) 2020, Korea Advanced Institute of Science and Technology, All Rights Reserved.