본문 바로가기 대메뉴 바로가기

KAIST

연구뉴스

홈페이지 통합검색

-

NPU

60% 이상 챗GPT 추론 성능 향상할 NPU 핵심기술 개발 오픈AI 챗GPT4, 구글 Gemnini 2.5 등 최신 생성형AI 모델들은 높은 메모리 대역폭(Bandwidth) 뿐만 아니라 많은 메모리 용량(Capacity)를 필요로 한다. 마이크로소프트, 구글 등 생성형AI 클라우드 운영 기업들이 엔비디아 GPU를 수십만 장씩 구매하는 이유다. 이런 고성능 AI 인프라 구축의 핵심 난제를 해소할 방안으로, 한국 연구진이 최신 GPU 대비 약 44% 낮은 전력 소모에도 평균 60% 이상 생성형 AI 모델의 추론 성능을 향상할 NPU(신경망처리장치)* 핵심 기술을 개발하는데 성공했다. *NPU(Neural Processing Unit): 인공신경망(Neural Network)을 빠르게 처리하기 위해 만든 AI 전용 반도체 칩 우리 대학 전산학부 박종세 교수 연구팀과 (주)하이퍼엑셀(전기및전자공학부 김주영 교수 창업기업)이 연구 협력을 통해, 챗GPT와 같은 생성형AI 클라우드에 특화된 고성능·저전력의 NPU(신경망처리장치) 핵심기술을 개발했다고 4일 밝혔다. 연구팀이 제안한 기술은 컴퓨터 아키텍처 분야에서 최고 권위를 자랑하는 국제 학회인 ‘2025 국제 컴퓨터구조 심포지엄(International Symposium on Computer Architecture, ISCA 2025)’에 채택됐다. 이번 연구의 핵심은 추론 과정에서 경량화를 통해 정확도 손실을 최소화하면서도 메모리 병목 문제를 해결해 대규모 생성형AI 서비스의 성능을 개선하는 것이다. 이번 연구는 AI인프라의 핵심 구성요소인 AI반도체와 AI시스템SW를 통합 설계했다는 점에서 그 가치를 높게 인정받았다. 기존 GPU 기반 AI 인프라는 높은 메모리 대역폭과 메모리 용량 요구를 충족하기 위해 다수의 GPU 디바이스가 필요한 반면, 이번 기술은 메모리 사용의 대부분을 차지하는 KV 캐시의 양자화*를 통해 적은 수의 NPU 디바이스만으로 동일 수준의 AI 인프라를 구성할 수 있어, 생성형 AI 클라우드 구축 비용을 크게 절감할 수 있다. *KV 캐시(Key-Value Cache)의 양자화: 생성형 AI 모델을 작동할 때 성능을 높이기 위해 사용하는 일종의 임시 저장 공간에 데이터 크기를 줄이는 것을 의미(32비트로 저장된 수를 4비트로 바꾸면, 데이터 크기는 1/8로 줄어듬) 연구팀은 기존 NPU 아키텍처의 연산 로직을 변경하지 않으면서 메모리 인터페이스와 통합될 수 있도록 설계했다. 이번 하드웨어 아키텍처 기술은 제안된 양자화 알고리즘을 구현할 뿐만 아니라, 제한된 메모리 대역폭 및 용량을 효율적으로 활용하기 위한 페이지 단위 메모리 관리 기법*과 양자화된 KV 캐시에 최적화된 새로운 인코딩 기법 등을 개발했다. *페이지 단위 메모리 관리 기법: CPU처럼 메모리 주소를 가상화하여 NPU 내부에서 일관된 방식으로 접근할 수 있게 함 또한, 최신 GPU 대비 비용·전력 효율성이 우수한 NPU 기반 AI 클라우드를 구성할 경우, NPU의 고성능, 저전력 특성을 활용해 운영 비용 역시 크게 절감할 수 있을 것으로 기대된다. 박종세 교수는 “이 연구는 (주)하이퍼엑셀과의 공동연구를 통해 생성형AI 추론 경량화 알고리즘에서 그 해법을 찾았고 ‘메모리 문제’를 해결할 수 있는 NPU 핵심기술 개발에 성공했다. 이 기술을 통해 추론의 정확도를 유지하면서 메모리 요구량을 줄이는 경량화 기법과, 이에 최적화된 하드웨어 설계를 결합해 최신 GPU 대비 평균 60% 이상 성능이 향상된 NPU를 구현했다” 고 말했다. 이어 “이 기술은 생성형AI에 특화된 고성능·저전력 인프라 구현 가능성을 입증했으며, AI클라우드 데이터센터뿐 아니라 능동적인 실행형 AI인 ‘에이전틱 AI ’등으로 대표되는 AI 대전환(AX) 환경에서도 핵심 역할이 기대된다”고 강조했다. 이 연구는 김민수 박사과정 학생과 ㈜하이퍼엑셀 홍성민 박사가 공동 제1 저자로 지난 6월 21일부터 6월 25일까지 일본 도쿄에서 열린 ‘2025 국제 컴퓨터구조 심포지엄(ISCA)’에 발표됐다. 국제적 저명학회인 ISCA는 올해는 570편의 논문이 제출됐으며 그중 127편 만이 채택됐다. (채택률 22.7%). ※논문 제목: Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization ※DOI: https://doi.org/10.1145/3695053.3731019 한편 이번 연구는 한국연구재단 우수신진연구자지원사업, 정보통신기획평가원(IITP), 인공지능반도체대학원지원사업의 지원을 받아 수행됐다.
2025.07.04 조회수 181
로봇 등 온디바이스 인공지능 실현 가능 자율주행차, 로봇 등 온디바이스 자율 시스템 환경에서 클라우드의 원격 컴퓨팅 자원 없이 기기 자체에 내장된 인공지능 칩을 활용한 온디바이스 자원만으로 적응형 AI를 실현하는 기술이 개발됐다. 우리 대학 전산학부 박종세 교수 연구팀이 지난 6월 29일부터 7월 3일까지 아르헨티나 부에노스아이레스에서 열린 ‘2024 국제 컴퓨터구조 심포지엄(International Symposium on Computer Architecture, ISCA 2024)’에서 최우수 연구 기록물상(Distinguished Artifact Award)을 수상했다고 1일 밝혔다. * 논문명: 자율 시스템의 비디오 분석을 위한 연속학습 가속화 기법(DaCapo: Accelerating Continuous Learning in Autonomous Systems for Video Analytics) 국제 컴퓨터 구조 심포지움(ISCA)은 컴퓨터 아키텍처 분야에서 최고 권위를 자랑하는 국제 학회로 올해는 423편의 논문이 제출됐으며 그중 83편 만이 채택됐다. (채택률 19.6%). 최우수 연구 기록물 상은 학회에서 주어지는 특별한 상 중 하나로, 제출 논문 중 연구 기록물의 혁신성, 활용 가능성, 영향력을 고려해 선정된다. 이번 수상 연구는 적응형 AI의 기반 기술인 ‘연속 학습’ 가속을 위한 NPU(신경망처리장치) 구조 및 온디바이스 소프트웨어 시스템을 최초 개발한 점, 향후 온디바이스 AI 시스템 연구의 지속적인 발전을 위해 오픈소스로 공개한 코드, 데이터 등의 완성도 측면에서 높은 평가를 받았다. 연구 결과는 소프트웨어 중심 자동차(SDV; Software-Defined Vehicles), 소프트웨어 중심 로봇(SDR; Software-Defined Robots)으로 대표되는 미래 모빌리티 환경에서 온디바이스 AI 시스템을 구축하는 등 다양한 분야에 활용될 수 있을 것으로 기대된다. 상을 받은 전산학부 박종세 교수는 “이번 연구를 통해 온디바이스 자원만으로 적응형 AI를 실현할 수 있다는 것을 입증하게 되어 매우 기쁘고 이 성과는 학생들의 헌신적인 노력과 구글 및 메타 연구자들과의 긴밀한 협력 덕분이다”라며, “앞으로도 온디바이스 AI를 위한 하드웨어와 소프트웨어 연구를 지속해 나갈 것이다”라고 소감을 전했다. 이번 연구는 우리 대학 전산학부 김윤성, 오창훈, 황진우, 김원웅, 오성룡, 이유빈 학생들과 메타(Meta)의 하딕 샤르마(Hardik Sharma) 박사, 구글 딥마인드(Google Deepmind)의 아미르 야즈단바크시(Amir Yazdanbakhsh) 박사, 전산학부 박종세 교수가 참여했다. 한편 이번 연구는 한국연구재단 우수신진연구자지원사업, 정보통신기획평가원(IITP), 대학ICT연구센터(ITRC), 인공지능대학원지원사업, 인공지능반도체대학원지원사업의 지원을 받아 수행됐다.
2024.08.01 조회수 6802
고정확도 실시간 학습 가능한 모바일 인공지능 반도체 칩 세계 최초 개발 우리 대학 전기및전자공학부 유회준 교수 연구팀이 인공지능의 실시간 학습을 모바일 기기에서 구현, 고정확도 인공지능(AI: Artificial Intelligent) 반도체*를 세계 최초로 개발했다고 23일 밝혔다. * 인공지능 반도체 : 인식·추론·학습·판단 등 인공지능 처리 기능을 탑재하고, 초지능·초저전력·초신뢰 기반의 최적화된 기술로 구현한 반도체 연구팀이 개발한 인공지능 반도체는 저비트 학습과 저지연 학습 방식을 적용해, 모바일 기기에서도 학습할 수 있다. 특히 이번 반도체 칩은 인공지능의 예상치 못한 성능 저하를 막을 수 있는 실시간 학습 기술을 성공적으로 구현했다. 전기및전자공학부 한동현 박사과정이 제1 저자로 참여한 이번 연구는 지난 6월 12일부터 15일까지 인천 연수구 송도 컨벤시아에서 개최된 국제 인공지능 회로 및 시스템 학술대회(AICAS)에서 발표됐으며 응용 예시를 현장에서 시연했고, 최우수 논문상과 최우수 데모상을 모두 석권해 그 우수성을 널리 알렸다. (논문명 : A 0.95 mJ/frame DNN Training Processor for Robust Object Detection with Real-World Environmental Adaptation (저자: 한동현, 임동석, 박광태, 김영우, 송석찬, 이주형, 유회준)) 인공지능 (AI) 반도체 기술을 망라하는 국제 학술 대회 ‘AICAS 2022’는 인공지능 반도체 분야 세계 최고 권위를 가진 IEEE(미국 전기 전자 기술자 협회)학회로 평가받으며, 삼성, SK를 필두로, 한국전자통신연구원(ETRI), 엔비디아(NVIDIA), 케이던스(Cadence) 등 국내외 저명한 기업과 기관 등이 참석해 인공지능 반도체 회로와 시스템 전 분야, 인공지능 반도체와 관련된 연구성과를 공유하는 행사다. 기존 인공지능은 사전에 학습된 지능만으로 추론을 진행했기 때문에 학습하지 않은 새로운 환경 혹은 물체에 대해서는 물체 검출이 어려웠다. 하지만 유회준 교수 연구팀이 개발한 실시간 학습은 추론만 수행하던 기존 모바일 인공지능 반도체에 학습 기능을 부여함으로써, 인공지능의 지능 수준을 크게 끌어올렸다. 유 교수팀의 새로운 인공지능 반도체는 사전에 학습한 지식과 애플리케이션 수행 중에 학습한 지식을 함께 활용해 고정확도 물체검출 성능을 보였다. 특히 유회준 교수 연구팀은 렌즈가 깨지거나, 기계 오류로 인한 인공지능의 예상치 못한 정확도 감소도 자동으로 인지하고 이를 실시간 학습을 통해 보정, 기존 인공지능의 문제점을 해결했다. 유 교수팀은 실시간 학습 기능에 더해, 모바일 기기에서 저전력으로 학습이 가능할 수 있도록, 저비트 인공지능 학습 방법, 직접 오류 전사 기반 저지연 학습 방식을 제안, 이를 최적화할 수 있는 반도체(HNPU) 와 응용 시스템을 모두 개발했다. 저전력, 실시간 학습을 수행할 수 있는 모바일 인공지능 전용 반도체, HNPU는 다음과 같이 6가지 핵심 기술이 도입됐다. ○ 확률적 동적 고정 소수점 활용 저비트 학습 방식 (SDFXP: Stochastic Dynamic Fixed-point Representation) - 동적 고정 소수점에 확률적 표현을 결합하고 확률적 반올림을 도입하여 인공지능 학습에 필요한 비트 정밀도를 최소화 할 수 있는 방법 ○ 레이어별 자동 정밀도 검색 알고리즘 및 하드웨어 (LAPS: Layer-wise Adaptive Precision Scaling) - 학습의 난이도를 자동으로 파악하고 심층신경망의 레이어별로 최적의 비트수를 자동으로 찾아주는 알고리즘 및 이를 가속하는 하드웨어 ○ 입력 비트 슬라이스 희소성 활용* (ISS: Input Slice Skipping or Bit-slice Level Sparsity Exploitation) - 데이터를 이진수로 표현했을 때 중간중간 나타나는 ‘0’ 비트를 활용하여, 데이터 처리량을 높이는 방식 ○ 내재적 순수 난수 생성기 (iTRNG: Intrinsic True Random Number Generator) 인공지능 연산을 활용한 순수 난수 생성기를 설계, 데이터의 암호화 및 확률적 반올림을 구현 ○ 다중 학습 단계 할당을 통한 고속 학습 알고리즘 및 하드웨어 (MLTA: Multi Learning Task Allocation & Backward Unlocking) 기존 역전파 (Back-propagation) 알고리즘에서 탈피해, 직접 오류 전사를 통한 저지연 학습 구현 ○ 실시간 인공지능 학습 기반 자동 오류 검출 기능 저하 보정 시스템 개발 (Real-time DNN Training based Automatic Performance Monitor and Performance Recovery System) 평상시 물체 검출 결과를 주기적으로 모니터링하면서, 갑작스러운 확률 변화를 자동으로 인식, 정확도 저하를 보정하기 위해 실시간 학습을 적용 * 희소성 활용 (Sparsity Exploitation) : 심층 신경망 모델의 연산은 수많은 곱셈누적(MAC: Multiply-And-Accumulate)연산의 연속이다. 연산자에 0이 존재할 시, 굳이 연산을 해보지 않아도 결과는 0임을 알기에 이를 뛰어넘는 방식으로 연산 속도를 높이는 방식. 이러한 기술을 사용해 HNPU는 저전력 물체검출을 구현하여, 다른 모바일 물체검출 시스템과 비교해 75% 높은 속도, 44% 낮은 에너지 소모를 달성하면서도, 실시간 학습으로 고정확도 물체검출을 개발해 주목을 받았다. 연구팀은 HNPU의 활용 예시로 카메라 렌즈가 깨지거나, 기계 오류, 조명, 밝기 변화로 인공지능의 추론 능력이 떨어졌을 때, 실시간 학습을 통해 다시 정확도를 높이는 고정확도 물체검출 시스템을 개발했다. 이는 이후 자율 주행, 로봇 등 다양한 곳에 활용될 것으로 기대된다. 특히 연구팀의 HNPU 연구는 2022 국제인공지능회로및시스템학술대회(AICAS 2022)에서 발표돼, 최우수 논문상과 최우수 데모상을 모두 석권하여 그 우수성을 널리 알렸다. 연구를 주도한 KAIST 전기및전자공학부 유회준 교수는 “현재 인공지능은 사전에 학습한 지식만으로 주어진 문제를 해결하고 있으며, 이는 변화하는 환경과 상황에 맞춰 계속 학습하는 인간의 지능과 뚜렷한 차이를 보인다”라며 “이번 연구는 실시간 학습 인공지능 반도체를 통해 인공지능의 지능 수준을 사람 수준으로 한층 더 끌어올리는 연구”라고 본 연구의 의의를 밝혔다.
2022.06.23 조회수 9835
스스로 그림 그리는 인공지능 반도체 칩 개발 전기및전자공학부 유회준 교수 연구팀이 생성적 적대 신경망(GAN: Generative Adversarial Network)을 저전력, 효율적으로 처리하는 인공지능(AI: Artificial Intelligent) 반도체를 개발했다. 연구팀이 개발한 인공지능 반도체는 다중-심층 신경망을 처리할 수 있고 이를 저전력의 모바일 기기에서도 학습할 수 있다. 연구팀은 이번 반도체 칩 개발을 통해 이미지 합성, 스타일 변환, 손상 이미지 복원 등의 생성형 인공지능 기술을 모바일 기기에서 구현하는 데 성공했다. 강상훈 박사과정이 1 저자로 참여한 이번 연구결과는 지난 2월 17일 3천여 명 반도체 연구자들이 미국 샌프란시스코에 모여 개최한 국제고체회로설계학회(ISSCC)에서 발표됐다. (논문명 : GANPU: A 135TFLOPS/W Multi-DNN Training Processor for GANs with Speculative Dual-Sparsity Exploitation) 기존에 많이 연구된 인공지능 기술인 분류형 모델(Discriminative Model)은 주어진 질문에 답을 하도록 학습된 인공지능 모델로 물체 인식 및 추적, 음성인식, 얼굴인식 등에 활용된다. 이와 달리 생성적 적대 신경망(GAN)은 새로운 이미지를 생성·재생성할 수 있어 이미지 스타일 변환, 영상 합성, 손상된 이미지 복원 등 광범위한 분야에 활용된다. 또한, 모바일 기기의 다양한 응용 프로그램(영상·이미지 내 사용자의 얼굴 합성)에도 사용돼 학계뿐만 아니라 산업계에서도 주목을 받고 있다. 그러나 생성적 적대 신경망은 기존의 딥러닝 네트워크와는 달리 여러 개의 심층 신경망으로 이루어진 구조로, 개별 심층 신경망마다 다른 요구 조건으로 최적화된 가속을 하는 것이 어렵다. 또한, 고해상도 이미지를 생성하기 위해 기존 심층 신경망 모델보다 수십 배 많은 연산량을 요구한다. 즉, 적대적 생성 신경망은 연산 능력이 제한적이고 사용되는 메모리가 작은 모바일 장치(스마트폰, 태블릿 등)에서는 소프트웨어만으로 구현할 수 없었다. 최근 모바일 기기에서 인공지능을 구현하기 위해 다양한 가속기 개발이 이뤄지고 있지만, 기존 연구들은 추론 단계만 지원하거나 단일-심층 신경망 학습에 한정돼 있다. 연구팀은 단일-심층 신경망뿐만 아니라 생성적 적대 신경망과 같은 다중-심층 신경망을 처리할 수 있으면서 모바일에서 학습도 가능한 인공지능 반도체 GANPU(Generative Adversarial Networks Processing Unit)를 개발해 모바일 장치의 인공지능 활용범위를 넓혔다. 연구팀이 개발한 인공지능 반도체는 서버로 데이터를 보내지 않고 모바일 장치 내에서 생성적 적대 신경망(GAN)을 스스로 학습할 수 있어 사생활을 보호를 가능케 하는 프로세서라는 점에서 그 활용도가 기대된다. 모바일 기기에서 저전력으로 다중-심층 신경망을 가속하기 위해서 다양한 핵심 기술이 필요하다. 연구팀이 개발한 GANPU에 사용된 핵심 기술 중 대표적인 기술 3가지는 ▲적응형 워크로드 할당(ASTM, 처리해야 할 워크로드*를 파악해 칩 상의 다중-심층 신경망의 연산 및 메모리 특성에 맞춰 시간·공간으로 나누어 할당함으로써 효율적으로 가속하는 방법) ▲입출력 희소성 활용 극대화(IOAS, 인공신경망 입력 데이터에서 나타나는 0뿐만 아니라 출력의 0도 예측해 연산에서 제외함으로써 추론 및 학습 과정에서의 속도와 에너지효율 극대화) ▲지수부만을 사용한 0 패턴 추측(EORS, 인공신경망 출력의 0을 예측하기 위한 알고리즘으로 인공신경망 입력과 연결 강도(weight)의 부동소수점 데이터 중 지수 부분만을 사용해 연산을 간단히 수행하는 방법)이다. 위의 기술을 사용함으로써 연구팀의 GANPU는 기존 최고 성능을 보이던 심층 신경망 학습 반도체 대비 4.8배 증가한 에너지효율을 달성했다. 연구팀은 GANPU의 활용 예시로 태블릿 카메라로 찍은 사진을 사용자가 직접 수정할 수 있는 응용 기술을 시연했다. 사진상의 얼굴에서 머리·안경·눈썹 등 17가지 특징에 대해 추가·삭제 및 수정사항을 입력하면 GANPU가 실시간으로 이를 자동으로 완성해 보여 주는 얼굴 수정 시스템을 개발했다.
2020.04.06 조회수 20438

34141 대전광역시 유성구 대학로 291 한국과학기술원(KAIST) T.042-350-2114 F.042-350-2210(2220)

Copyright (C) 2020, Korea Advanced Institute of Science and Technology, All Rights Reserved.