본문 바로가기 대메뉴 바로가기

KAIST

연구뉴스

홈페이지 통합검색

-

%EA%B9%80%EC%9A%B0%EC%97%B0

생성형 AI로 혁신적 신약 개발 가능성 열어 최근 자연어나 이미지, 동영상, 음악 등 다양한 분야에서 주목받는 생성형 AI가 신약 설계 분야에서도 기존 신규성 문제를 극복하고 새로운 혁신을 일으키고 있다고 하는데 어떤 기술일까? 우리 대학 화학과 김우연 교수 연구팀이 단백질-분자 사이의 상호작용을 고려해 활성 데이터 없이도 타겟 단백질에 적합한 약물 설계 생성형 AI를 개발했다고 18일 밝혔다. 신규 약물을 발굴하기 위해서는 질병의 원인이 되는 타겟 단백질에 특이적으로 결합하는 분자를 찾는 것이 중요하다. 기존의 약물 설계 생성형 AI는 특정 단백질의 이미 알려진 활성 데이터를 학습에 활용하기 때문에 기존 약물과 유사한 약물을 설계하려는 경향이 있다. 이는 신규성이 중요한 신약 개발 분야에서 치명적인 약점으로 지적되어 왔다. 또한 사업성이 높은 계열 내 최초(First-in-class) 타겟 단백질에 대해서는 실험 데이터가 매우 적거나 전무한데, 이 경우 기존 방식의 생성형 AI를 활용하는 것이 불가능하다. 연구팀은 이런 데이터 의존성 문제를 극복하기 위해 단백질 구조 정보만으로 분자를 설계하는 기술 개발에 주목했다. 타겟 단백질의 약물 결합 부위에 대한 3차원 구조 정보를 주형처럼 활용해 해당 결합 부위에 꼭 맞는 분자를 주조하듯 설계하는 것이다. 마치 자물쇠에 딱 맞는 열쇠를 설계하는 것과 같은 이치다. 또한 기존 단백질 구조 기반 3차원 생성형 AI 모델들은 신규 단백질에 대해 설계한 분자들의 안정성과 결합력이 떨어지는 등 낮은 일반화 성능을 개선하기 위해서 연구팀은 신규 단백질에 대해서도 안정적으로 결합할 수 있는 분자를 설계할 수 있는 기술을 개발하는 데 초점을 뒀다. 연구팀은 설계한 분자가 단백질과 안정적으로 결합하기 위해서는 단백질-분자 간 상호작용 패턴이 핵심 역할을 하는 것에 착안했다. 연구팀은 생성형 AI가 이러한 상호작용 패턴을 학습하고, 분자 설계에 직접 활용할 수 있도록 모델을 설계하고 재현할 수 있도록 학습시켰다. 기존 단백질 구조 기반 생성형 AI 모델들은 부족한 학습 데이터를 보완하기 위해 10만~1,000만 개의 가상 데이터를 활용하는 반면, 이번 연구에서 개발한 모델의 장점은 수천 개의 실제 실험 구조만을 학습해도 월등히 높은 성능을 발휘한다는 것이다. 이는 자연에서 관찰되는 단백질-분자 상호작용 패턴을 사전 지식의 형태로 학습에 활용함으로써 적은 데이터만으로도 일반화 성능을 획기적으로 높인 것에 기인한다. 일례로 아시아인에 주로 발견되는 돌연변이 상피 성장인자 수용체(EGFR-mutant)*는 비소세포폐암의 주요 원인으로 알려져 있는데, 이를 타겟으로 하는 약물을 설계하기 위해서는 야생형(wild-type) 수용체**에 대한 높은 선택성을 고려하는 것이 필수적이다. *상피 성장인자 수용체: 상피 성장인자 수용체:상피 성장인자 수용체는 상피 세포의 성장을 촉진하는 인자에 결합함으로써 활성화되는 막 단백질로, 이 수용체의 돌연변이로 인한 지나친 활성은 다양한 종양의 발생과 관련이 있다고 알려져 있음 **야생형 수형체: 야생형은 자연 상태에서 가장 흔하게 발견되는 유전자형 또는 표현형으로, 유전자나 생체 분자 등의 변이가 없는 정상적인 상태를 말함 연구진은 생성형 AI를 통해 돌연변이가 일어난 아미노산에 특이적인 상호작용을 유도해 분자를 설계했고, 그 결과 생성된 분자의 23%가 이론상으로 100배 이상의 선택성을 가지는 것으로 예측됐다. 이와 같은 상호작용 패턴에 기반한 생성형 AI는 인산화효소 저해제(kinase inhibitor)* 등과 같이 약물 설계에 있어 선택성이 중요한 상황에서 더욱 효과적으로 활용될 수 있다. *인산화효소 저해제: 단백질의 인산화를 촉진하는 효소로, 일반적으로 아데노신 삼인산(ATP)으로부터 인산기를 단백질의 특정 잔기에 전달함. 인산화효소는 세포 내 신호전달 네트워크의 핵심 조절자로서, 다양한 질병의 기전에 관여하여 약물 개발의 표적으로 여겨지고 있음. 이를 위해 인산화효소에 결합하여 활성을 억제하는 목적을 가지는 분자를 인산화효소 저해제라 함 제1 저자로 참여한 화학과 정원호 박사과정 학생은 “사전 지식을 인공지능 모델에 사용하는 전략은 상대적으로 데이터가 적은 과학 분야에서 적극적으로 사용되어 왔다”며 “이번 연구에서 사용한 분자 간 상호작용 정보는 약물 분자뿐 아니라 다양한 생체 분자를 다루는 바이오 분야의 문제에도 유용하게 적용될 수 있을 것”이라고 말했다. 한국연구재단의 지원을 받아 수행된 이번 연구는 국제 학술지 ‘네이처 커뮤니케이션즈(Nature Communications) (IF=16.6)’ 2024년 3월 15호에 게재됐다. (논문명: 3D molecular generative framework for interaction-guided drug design, 논문 링크: https://www.nature.com/articles/s41467-024-47011-2)
2024.04.18 조회수 9544
실제 약물로 개발되는 단백질-리간드 상호작용 예측 인공지능 모델 개발 우리 대학 연구진이 물리화학적 아이디어를 인공지능 딥러닝에 접목해 기존의 방법보다 일반화 성능이 높은 단백질-리간드 상호작용 예측 모델을 개발했다. 리간드란 수용체와 같은 큰 생체 분자에 특이적으로 결합하는 물질을 말하며, 생체 내의 중요한 요소이자 의약품의 개발 등에 큰 역할을 한다. 화학과 김우연 교수 연구팀이 교원창업 인공지능 신약 개발 스타트업 HITS 연구진과 함께 물리 기반 삼차원 그래프 심층 신경망을 이용해 일반화 성능을 높인 단백질-리간드 상호작용 예측 모델을 개발했다고 17일 밝혔다. 약물 후보 분자를 발굴하기 위해서 타깃 단백질과 강하게 결합하는 리간드를 찾는 것이 중요하다. 하지만 유효 물질을 찾기 위해 수백만에서 수천만 개의 무작위 리간드 라이브러리를 대상으로 실험 전수 조사를 수행하는 것은 천문학적인 시간과 비용이 필요하다. 이러한 시간과 비용을 절감하기 위해 최근 단백질-리간드 상호작용 예측에 기반한 가상탐색(virtual screening) 기술이 주목받고 있다. 기존의 상호작용 예측 인공지능 모델들은 학습에 사용한 구조에 대해서는 높은 예측 성능을 보여주지만, 새로운 단백질 구조에 대해서는 낮은 성능을 보이는 과적합(over-fitting)이 문제가 됐다. 과적합 문제는 일반적으로 모델의 복잡도에 비해 데이터가 적을 때 발생한다. 이번 연구는 이러한 과적합 문제를 해결함으로써 다양한 단백질에 대해 고른 성능을 보여주는 예측 모델을 개발하는데 주안점을 뒀다. 연구진은 물리화학적 아이디어들을 딥러닝 모델에 적용해 모델의 복잡도를 줄임과 동시에 물리 시뮬레이션을 통해 부족한 데이터를 보강함으로써 과적합 문제를 해결하고자 하였다. 단백질 원자와 리간드 원자 사이의 거리에 따른 반데르발스 힘, 수소 결합력 등을 물리화학적 방정식으로 모델링하고, 매개변수를 딥러닝으로 예측함으로써 물리 법칙을 만족하는 예측을 가능하게 했다. 또한, 학습에 사용한 단백질-리간드 결정 구조가 실험적으로 판명된 가장 안정한 구조임에 착안했다. 부족한 실험 데이터를 보강하기 위해 불안정한 단백질-리간드 구조로 이루어진 수십만 개의 인공 데이터를 생성해 학습에 활용했고, 그 결과 생성된 구조에 비해 실제 구조를 안정하게 예측하도록 모델을 학습할 수 있었다. 연구진은 개발된 모델의 성능을 검증하기 위해 대조군으로 `CASF-2016 벤치마크'를 활용했다. 이 벤치마크는 다양한 단백질-리간드 구조들 사이에서 실험적으로 판명된 결정 구조에 근접한 구조를 찾는 도킹과 상대적으로 결합력이 큰 단백질-리간드 쌍을 찾는 스크리닝 등 실제 약물을 개발하는 과정에 필수적인 과제를 포함하고 있다. 검증 테스트 결과 기존에 보고된 기술에 비해 높은 도킹 및 스크리닝 성공률을 보여줬으며, 특히 스크리닝 성능은 기존에 보고된 최고 성능 대비 약 두 배 높은 수치를 보였다. 연구진이 개발한 물리 기반 딥러닝 방법론의 또 다른 장점은 예측의 결과를 물리적으로 해석 가능하다는 것이다. 이는 딥러닝으로 최적화된 물리화학 식을 통해 최종 상호작용 값을 예측하기 때문이다. 리간드 분자 내 원자별 상호작용 에너지의 기여도를 분석함으로써 어떤 작용기가 단백질-리간드 결합에 있어서 중요한 역할을 했는지 파악할 수 있으며, 이와 같은 정보는 추후 약물 설계를 통해 성능을 높이는 데 직접 활용할 수 있다. 공동 제1 저자로 참여한 화학과 문석현, 정원호, 양수정(현재 MIT 박사과정) 박사과정 학생들은 "데이터가 적은 화학 및 바이오 분야에서 일반화 문제는 항상 중요한 문제로 강조돼왔다ˮ며 "이번 연구에서 사용한 물리 기반 딥러닝 방법론은 단백질-리간드 간 상호작용 예측 뿐 아니라 다양한 물리 문제에 적용될 수 있을 것ˮ이라고 말했다. 한국연구재단의 지원을 받아 수행된 이번 연구는 국제 학술지 `Chemical Science(IF=9.825)' 2022년 4월 13호에 표지 논문 및 `금주의 논문(Pick of the Week)'으로 선정됐다. (논문명 : PIGNet: a physics-informed deep learning model toward generalized drug–target interaction predictions, 논문 링크 : https://doi.org/10.1039/D1SC06946B)
2022.05.17 조회수 15800

34141 대전광역시 유성구 대학로 291 한국과학기술원(KAIST) T.042-350-2114 F.042-350-2210(2220)

Copyright (C) 2020, Korea Advanced Institute of Science and Technology, All Rights Reserved.