본문 바로가기
대메뉴 바로가기
KAIST
연구뉴스
유틸열기
홈페이지 통합검색
-
검색
메뉴 열기
%EB%B0%94%EC%9D%B4%EC%98%A4%EC%9D%B8%ED%8F%AC%EB%A9%94%ED%8B%B1%EC%8A%A4
최신순
조회순
최초 머신러닝 기반 유전체 정렬 소프트웨어 개발
우리 대학 전기및전자공학부 한동수 교수 연구팀이 머신러닝(기계학습)에 기반한 *유전체 정렬 소프트웨어를 개발했다고 12일 밝혔다. ☞ 유전체(genome): 생명체가 가지고 있는 염기서열 정보의 총합이며, 유전자는 생물학적 특징을 발현하는 염기서열들을 지칭한다. 유전체를 한 권의 책이라고 비유하면 유전자는 공백을 제외한 모든 글자라고 비유할 수 있다. 차세대 염기서열 분석은 유전체 정보를 해독하는 방법으로 유전체를 무수히 많은 조각으로 잘라낸 후 각 조각을 참조 유전체(reference genome)에 기반해 조립하는 과정을 거친다. 조립된 유전체 정보는 암을 포함한 여러 질병의 예측과 맞춤형 치료, 백신 개발 등 다양한 분야에서 사용된다. 유전체 정렬 소프트웨어는 차세대 염기서열 분석 방법으로 생성한 유전체 조각 데이터를 온전한 유전체 정보로 조립하기 위해 사용되는 소프트웨어다. 유전체 정렬 작업에는 많은 연산이 들어가며, 속도를 높이고 비용을 낮추는 방법에 관한 관심이 계속해서 증가하고 있다. 머신러닝(기계학습) 기반의 인덱싱(색인) 기법(Learned-index)을 유전체 정렬 소프트웨어에 적용한 사례는 이번이 최초다. 전기및전자공학부 정영목 박사과정이 제1 저자로 참여한 이번 연구는 국제 학술지 `옥스포드 바이오인포메틱스(Oxford Bioinformatics)' 2022년 3월에 공개됐다. (논문명 : BWA-MEME: BWA-MEM emulated with a machine learning approach) 유전체 정렬 작업은 정렬해야 하는 유전체 조각의 양이 많고 참조 유전체의 길이도 길어 많은 연산량이 요구되는 작업이다. 또한, 유전체 정렬 소프트웨어에서 정렬 결과의 정확도에 따라 추후의 유전체 분석의 정확도가 영향을 받는다. 이러한 특성 때문에 유전체 정렬 소프트웨어는 높은 정확성을 유지하며 빠르게 연산하는 것이 중요하다. 일반적으로 유전체 분석에는 하버드 브로드 연구소(Broad Institute)에서 개발한 유전체 분석 도구 키트(Genome Analysis Tool Kit, 이하 GATK)를 이용한 데이터 처리 방법을 표준으로 사용한다. 이들 키트 중 BWA-MEM은 GATK에서 표준으로 채택한 유전체 정렬 소프트웨어이며, 2019년에 하버드 대학과 인텔(Intel)의 공동 연구로 BWA-MEM2가 개발됐다. 연구팀이 개발한 머신러닝 기반의 유전체 정렬 소프트웨어는 연산량을 대폭 줄이면서도 표준 유전체 정렬 소프트웨어 BWA-MEM2과 동일한 결과를 만들어 정확도를 유지했다. 사용한 머신러닝 기반의 인덱싱 기법은 주어진 데이터의 분포를 머신러닝 모델이 학습해, 데이터 분포에 최적화된 인덱싱을 찾는 방법론이다. 데이터에 적합하다고 생각되는 인덱싱 방법을 사람이 정하던 기존의 방법과 대비된다. BWA-MEM과 BWA-MEM2에서 사용하는 인덱싱 기법(FM-index)은 유전자 조각의 위치를 찾기 위해 유전자 조각 길이만큼의 연산이 필요하지만, 연구팀이 제안한 알고리즘은 머신러닝 기반의 인덱싱 기법(Learned-index)을 활용해, 유전자 조각 길이와 상관없이 적은 연산량으로도 유전자 조각의 위치를 찾을 수 있다. 연구팀이 제안한 인덱싱 기법은 기존 인덱싱 기법과 비교해 3.4배 정도 가속화됐고, 이로 인해 유전체 정렬 소프트웨어는 1.4 배 가속화됐다. 연구팀이 이번 연구에서 개발한 유전체 정렬 소프트웨어는 오픈소스 (https://github.com/kaist-ina/BWA-MEME)로 공개돼 많은 분야에 사용될 것으로 기대되며, 유전체 분석에서 사용되는 다양한 소프트웨어를 머신러닝 기술로 가속화하는 연구들의 초석이 될 것으로 기대된다. 한동수 교수는 "이번 연구를 통해 기계학습 기술을 접목해 전장 유전체 빅데이터 분석을 기존 방식보다 빠르고 적은 비용으로 할 수 있다는 것을 보여줬으며, 앞으로 인공지능 기술을 활용해 전장 유전체 빅데이터 분석을 효율화, 고도화할 수 있을 것이라 기대된다ˮ고 말했다. 한편 이번 연구는 과학기술정보통신부의 재원으로 한국연구재단의 지원을 받아 데이터 스테이션 구축·운영 사업으로서 수행됐다.
2022.04.17
조회수 8223
웹 기반 가상세포 분석시스템 WebCell 개발 공개
-생물정보학 관련 전문 학술지인 바이오인포메틱스지 5월호에 게재 - 과학기술부 특정연구개발사업『시스템생물학연구사업』에 참여하고 있는 KAIST 이상엽, 박선원 교수팀은 생명체의 대사 및 신호전달 기능과 특성의 동적 분석을 위한 웹 기반 소프트웨어 ‘WebCell 시스템’을 개발하여 공개했다. 이 시스템은 현재까지 전 세계적으로 개발된 생체 및 세포 동적 모사 시스템 중 가장 다양한 기능을 제공하는 것으로 시스템 생물학 연구의 국제 공동체인 SBML에 등록되어 공개되며, 연구결과는 영국 옥스퍼드대학 출판사 발간 생물정보학 관련 전문 학술지인 바이오인포메틱스 (Bioinformatics)지 5월호에 게재되었다. KAIST(한국과학기술원) 생명화학공학과 이상엽(李相燁, 42, LG화학 석좌교수, 생물정보연구센터 소장), 박선원(朴善遠, 58)교수팀은 과학기술부 특정연구개발사업의『시스템생물학연구개발사업』지원을 받아 다양한 생명현상의 정성 정량적 동적모사가 가능한 웹기반 가상세포 “WebCell”을 개발하여 전 세계에 공개했다. WebCell은 세포 내에서 일어나는 반응들에 대한 결과 예측 뿐 만아니라, 시간에 따른 변화들을 보여주는 동적 분석을 상세한 설명을 따라 인터넷 상에서 쉽게 수행할 수 있다. 또한, 기존 가상세포 소프트웨어의 프로그램마다 다른 형식으로 이루어져 사용에 어려움이 많던 파일들도 자유롭게 원하는 양식으로 변환이 가능하도록 하여, 연구 과정과 결과를 공유하여 더 빠르고 효율적인 연구가 가능해졌다. 또한, 인터넷 상에서 생물학적 네트워크를 모델링하고 만들어진 모델을 저장 및 교환할 수 있으며, 열역학 정보를 이용한 모델 검증, 변수 추정, 구조적 경로 분석 및 대사 조절 분석, 동적 시각화 등을 통한 네트워크의 체계적인 분석 기능을 통합적으로 제공한다. 그리고 기존에 발표된 모델들의 라이브러리도 제공하며 이용자가 자신의 ID로 접속할 수 있는 개인 라이브러리도 가질 수 있으므로, 가상세포 연구에 큰 역할을 할 것으로 기대된다. WebCell이 발표되자마자 시스템 생물학 연구 국제공동체인 SBML(http://sbml.org)에 등록되어 공개되었으며, 연구결과는생물정보학 분야 전문 국제 학술지인 영국 옥스퍼드대학 출판사 발간 바이오인포메틱스(Bioinformatics)지 5월호에 게재되었다. 이상엽 교수는 “향후 대사 흐름 분석 프로그램인 MetaFluxNet, 대사흐름분석 언어인 MFAML, 대사네트워크 전문 데이터베이스인 BioSilico와 연동하여 업그레이드 된 버전의 WebCell을 개발할 예정이며, 궁극적으로 이 모두가 통합된 가상세포를 개발할 예정이다”라고 밝혔다. WebCell 시스템은 웹브라우저를 통해 http://webcell.kaist.ac.kr 이나 http://www.webcell.org로 접속하여 사용자 계정을 획득한 뒤 이용할 수 있다. <용어설명> * SBML(Systems Biology Markup Language): XML을 기반으로 한 언어의 일종으로, 각기 다른 시스템 생물학 소프트웨어간의 가상 세포 모델의 교환을 용이하게 하기 위해 제안된 표준이다. 현재는 국제 공동 프로젝트로 발전하여, 전 세계 60여개 프로젝트가 이 사업에 공동으로 참여하고 있다. << WebCell 사용 샘플그림>>
2006.04.28
조회수 19603
새로운 가상세포 모델링 언어 MFAML 개발
KAIST(총장 로버트 러플린)는 생명화학공학과 이상엽 교수(李相燁, 41, LG화학 석좌교수, 생물정보연구센터 소장)가 이끄는 생물정보연구센터 연구팀이 가상세포 모델의 새로운 국제표준어를 개발하는데 성공, 일반에 공개한다고 24일 밝혔다. 1. 개발 배경 현재까지 국내는 물론 전 세계 생명 과학 분야 기업이나 연구 기관들은 연구 결과로부터 얻어진 생물 정보 데이터를 각기 다른 독자적인 포맷으로 저장해 왔다. 또한 생명 과학 연구에 필요한 분석 도구들도 역시 각자의 언어와 환경을 기반으로 개발된 것이 현실이다. 단순한 서열 분석뿐만 아니라 세포내부 대사물질의 흐름 분석과 같은 복잡한 연구를 위해서는 다양한 형태의 데이터와 정보를 얻고, 이를 여러 가지 분석 도구를 통해 입력 데이터로 넣어서 처리하게 된다. 이때 필요한 데이터와 정보에 쉽게 접근하여 분석하기 위해서는 데이터 포맷의 표준화가 시급하다. 또한 기 개발된 다양한 시스템과 분석 도구들을 연구 목적에 맞게 적절히 결합하여 사용하기 위해서는 각 시스템과 분석 도구간의 상호 운용성 확보가 매우 중요하다. 2. 개발 현황 이처럼 전 세계적으로 다양한 생물 정보 데이터 처리를 위해 국제 표준화가 급속히 진행되는 시점에서 KAIST 이상엽 교수팀은 과학기술부 시스템생물학 연구개발 사업의 일환으로 가상세포 모델의 새로운 국제표준어인 MFAML 개발에 성공, 일반에 공개하게 된 것이다. 李 교수팀은 XML이 지니는 이식성, 재사용성, 확장성, 효율적인 데이터 교환 등의 이점을 활용하여 가상세포 모델을 구조적으로 표현할 수 있는 데이터 서식을 개발하였으며, 특히 가상세포의 다양한 유전학적 또는 환경적 실험조건과 분석결과를 표준화하여 누구나 쉽게 정보를 공유할 수 있고, 다른 분석 환경에서 손쉽게 이용 가능하도록 하였다. KAIST 생물정보연구센터의 윤홍석 연구원은 “MFAML을 통해 전 세계에 퍼져있는 바이오 정보의 효율적인 활용이 기대되며 정보의 표준화를 통한 기술적, 경제적 이득을 얻을 수 있을 것이다. 또한, 함께 제공되는 라이브러리를 통해 손쉽게 이를 구현 가능하도록 하였다”고 설명했다. 3. 개발성과 및 향후계획 李 교수팀은 기존에 전세계에 공개한 가상세포 초기 모델 프로그램인 메타플럭스넷의 개발과 통합 데이터베이스 시스템인 바이오실리코 구축과 더불어 이번 개발성과를 통해 가상세포 개발에 한 발짝 더 나아가게 되었다. 李 교수는 “기존의 개발한 메타플럭스넷이나 바이오실리코의 경우는 각각의 개별 시스템으로 운용되어 왔으나 이번에 수행한 연구를 통해 각각의 시스템을 하나로 묶을 수 있는 기반을 가지게 되었다. 앞으로도 지속적인 연구와 업그레이드를 통해 다양한 가상세포 모델을 제공하도록 하며, 전 세계의 정보 교환의 기초 도구로 활용될 수 있도록 노력 하겠다”고 밝혔다. 현재 MFAML에 대한 관련 정보는 홈페이지(http://mbel.kaist.ac.kr/mfaml)에서 무료로 다운로드 받을 수 있다. KAIST 생물정보연구센터의 이동엽 박사는 “조만간 다양한 가상 세포 시뮬레이션이 가능한 획기적인 통합 환경을 제공하게 될 것"이라고 말했다. 한편, 이 연구 성과는 생물정보학 분야 저명 학술지인 英國 옥스퍼드대학출판사가 발간하는 바이오인포메틱스(Bioinformatics)誌에 게재 승인되어 온라인상에 공개되었다. 본 MFAML 관련 개발된 표준화 기술은 대사공학과 연결시켜 현재 국내외 특허 출원중이다. <용어 설명> ① XML(eXtensible Markup Language) : 주고받는 데이터의 포맷을 표준화해서 데이터 교환을 용이하게 하기 위해 생겨난 정보교환 기술로 인터넷 웹상의 데이터와 각종 문서에 대한 일관된 표준이다. ② MFAML(Metabolic Flux Analysis Markup Language) : 주고받는 데이터의 포맷을 표준화해서 데이터 교환을 용이하게 하기 위해 생겨난 정보교환 기술인 XML을 이용하여 생체 대사흐름을 쉽게 분석할 수 있도록 만들어진 일종의 가상세포모델 표준언어
2005.05.25
조회수 22267
<<
첫번째페이지
<
이전 페이지
1
>
다음 페이지
>>
마지막 페이지 1