본문 바로가기 대메뉴 바로가기

논문 마이닝부터 합성 조건 추천까지, MOF 연구를 혁신하는 대규모 언어 모델​
조회수 : 1407 등록일 : 2025-02-07 작성자 : 홍보실

(왼쪽부터) 생명화학공학과 김지한 교수, 이원석 박사, 강영훈 박사, 배태언 박사과정

< (왼쪽부터) 생명화학공학과 김지한 교수, 이원석 박사, 강영훈 박사, 배태언 박사과정 >

우리 연구진이 챗GPT를 활용해 금속 유기 골격체(Metal-Organic Frameworks, MOFs) 연구 논문에서 실험 데이터를 자동으로 추출하는 데이터 마이닝 툴(이하 L2M3)을 개발했다. L2M3MOF의 합성 조건 및 물성 정보를 체계적으로 수집하며, 분류, 정보 식별 및 데이터 추출 작업에서 각각 98.3%, 97.3%, 95.3%의 높은 정확도를 기록했다. 또한, 추출한 데이터를 기반으로 MOF의 합성 조건을 추천하는 시스템을 개발하여 연구자들의 실험 과정 최적화를 지원하고 있어 화제가 되고 있다. 

우리 대학 생명화학공학과 김지한 교수 연구팀이 대규모 언어 모델(이하 LLMs) 급격한 발전에 주목하며, 이를 활용을 통해 금속 유기 골격체 문헌에서 MOF의 합성 및 물성 정보를 대량으로 추출하는 데이터 마이닝 툴(L2M3)를 개발했다고 7일 발표했다. 

최근 MOF에 대한 연구들이 활발히 진행되어 MOF 실험 데이터가 축적되고 있다. 이에 따라 MOF 연구의 발전을 위해서는 신뢰할 수 있는 실험 데이터 확보가 필수적이며, 특히 논문에 산재한 합성 조건과 물성 정보를 효과적으로 정리하는 것이 큰 과제로 남아 있다. 기존에도 MOF 관련 데이터를 활용하려는 시도가 있었으나, 대부분 일부 특정 특성에 국한되어 있어 있다는 한계점이 존재했다. 

김지한 교수 연구팀이 개발한 L2M3LLM을 활용하여 쉽고 효율적인 데이터 마이닝 환경을 구축함으로써, 데이터 마이닝에 익숙하지 않은 연구자들도 손쉽게 사용할 수 있는 강력한 도구로의 잠재력을 갖추고 있다.

기존 데이터 마이닝 방식으로는 다양한 특성에 대한 정확한 정보 추출이 어려웠으나, L2M3LLM의 자연어 처리 능력을 활용하여 더 정밀한 데이터 추출이 가능하다. 특히, 분류(98.3%)와 정보 식별(97.3%)에서 높은 정확도를 기록했으며, 과정이 복잡하여 정확도 확보가 어려운 데이터 추출 단계에서도 95.3%라는 뛰어난 성능을 보였다.

뿐만 아니라, L2M3는 추출된 합성 조건 데이터를 대규모 언어 모델로 미세 조정해 합성 조건 추천 시스템을 개발하였다. 연구자가 전구체 정보를 입력하면 최적의 합성 조건을 제안하여 실험 과정에서 발생하는 시행착오를 줄이고, MOF 합성을 더욱 효율적으로 수행할 수 있도록 지원한다. 이러한 접근 방식은 MOF 연구뿐만 아니라 다양한 재료 과학 분야에서도 데이터 마이닝과 인공지능을 활용한 연구 패러다임을 새롭게 정의할 수 있는 가능성을 제시하고 있다.

그림 1. 대규모 언어 모델을 이용한 금속-유기 골격체 문헌 데이터 마이닝 툴의 개요(a) 및 예시(b,c). 논문의 문단에서 정보가 있는지 없는지를 파악한 뒤, 구체적으로 어떠한 정보가 포함되어 있는지 명시하고 마지막으로 이 정보를 추출하는 세 단계를 거쳐 논문에서 정보를 추출함

< 그림 1. 대규모 언어 모델을 이용한 금속-유기 골격체 문헌 데이터 마이닝 툴의 개요(a) 및 예시(b,c). 논문의 문단에서 정보가 있는지 없는지를 파악한 뒤, 구체적으로 어떠한 정보가 포함되어 있는지 명시하고 마지막으로 이 정보를 추출하는 세 단계를 거쳐 논문에서 정보를 추출함 >

 

김지한 교수는 이번 연구는 인공지능을 활용한 재료 과학 연구의 새로운 기준을 제시하는 중요한 진전을 의미한다. L2M3는 방대한 과학 문헌에서 실험 데이터를 체계적으로 수집하고 분석함으로써, 기존 데이터 부족 문제를 해결하고 보다 신뢰성 높은 데이터 기반 연구를 가능하게 한다. 향후 L2M3의 데이터 처리 성능과 합성 조건 추천 모델이 더욱 정교화된다면, MOF뿐만 아니라 다양한 재료 연구에서도 혁신적인 발견을 가속화할 것으로 기대된다.” 라고 말했다. 

생명화학공학과 강영훈, 이원석 박사, 배태언 박사과정이 공동 제1 저자로 참여한 이번 연구 결과는 국제 학술지 `미국 화학회지(Journal of the American Chemical Society)'에 지난 121일 게재됐다. (논문명: Harnessing Large Language Models to Collect and Analyze MetalOrganic Framework Property Data Set)

그림 2. 합성 조건 추천 시스템의 예시. 특정 MOF 합성에 사용되는 전구체들을 입력했을 때 이를 합성하기 위해 사용될 수 있는 합성 조건을 자동으로 추천해 줌

< 그림 2. 합성 조건 추천 시스템의 예시. 특정 MOF 합성에 사용되는 전구체들을 입력했을 때 이를 합성하기 위해 사용될 수 있는 합성 조건을 자동으로 추천해 줌 >

한편 이번 연구는 과학기술정보통신부의 탑-티어 연구기관 간 협력 플랫폼 구축 및 공동연구 지원사업, 한국연구재단(NRF)의 나노 및 소재기술개발사업, 그리고 국가슈퍼컴퓨팅센터의 지원을 받아 수행됐다.

관련뉴스