본문 바로가기 대메뉴 바로가기

정확도·효율성 높인 생명과학 데이터 분석 도구 'scICE' 개발​
조회수 : 201 등록일 : 2025-07-03 작성자 : 홍보실

(왼쪽부터) 우리 대학 수리과학과 김재경 교수, IBS 김현 선임연구원

< (왼쪽부터) 우리 대학 수리과학과 김재경 교수, IBS 김현 선임연구원 >

기존보다 최대 30배 빠른 속도로 안정적인 결과만을 자동으로 선별하여 대규모 생명과학 데이터 분석의 정확도와 효율성을 획기적으로 향상하는 방법이 나왔다. 우리 대학 수리과학과 김재경 교수 연구팀은 세포 분류(클러스터링) 결과의 안정성을 수학적으로 평가해 불안정한 결과를 걸러내는 새로운 분석 도구인 ‘scICE(single-cell Inconsistency Clustering Estimator)’를 개발했다.

단일세포 수준에서 유전자 발현을 분석하는 기술인 단일세포 전사체 분석법(scRNA-seq)은 현대 생명과학 연구의 핵심 도구로 자리 잡았다. 이 과정에서 클러스터링은 유사한 유전자 발현 특성을 가진 세포들을 그룹으로 묶는 작업으로, 암세포와 정상 세포를 구분하거나 새로운 세포 유형을 발견하는 데 중요한 첫걸음이다. 하지만 클러스터링 알고리즘은 무작위로 세포를 분류해 같은 데이터를 분석해도 결과가 달라지는 경우가 많다. 

제1 저자인 김현 선임연구원은 “일부 정상 세포가 암세포로 잘못 분류되거나 중요한 세포 유형이 누락되는 불안정성으로 인해 연구자들은 다시 분석하거나 복잡한 계산을 통해 신뢰도가 높은 결과를 선별해야 했다”며, “기존 방법들은 분석을 여러 번 반복해 합의된 결과를 도출하는 방식으로, 계산량이 방대하고 수만 개 이상의 세포가 포함된 대용량 데이터에는 적합하지 않다”고 말했다.

연구팀이 개발한 scICE는 한 번의 분석만으로도 얼마나 일관성 있게 결과가 도출됐는지를 수학적으로 평가한다. 새로 도입한 ‘불일치 계수(Inconsistency Coefficient, IC)’를 통해 많은 계산량이 요구되는 연산 없이도 클러스터 간 안정성을 정량적으로 판단할 수 있다. 모든 세포를 일일이 비교하던 기존 방식과 달리, 불일치 계수를 활용한 안정성 평가는 클러스터 구조 간 유사성만 평가해 비교 대상을 획기적으로 줄일 수 있어 분석 시간을 크게 단축한다.

그림 1. 클러스터링 알고리즘의 무작위성에 따른 분석 결과 변동성 클러스터링 알고리즘에서 무작위 시드(random seed) 값이 다르면 클러스터링 결과도 다르게 나타난다. 결과적으로 무작위 시드 값만 변경해도 하나의 시드에서 식별된 클러스터가 사라지거나, 새롭게 나타나거나 혹은 여러 개로 나뉘는 현상이 분석 시 발생할 수 있다.

< 그림 1. 클러스터링 알고리즘의 무작위성에 따른 분석 결과 변동성 클러스터링 알고리즘에서 무작위 시드(random seed) 값이 다르면 클러스터링 결과도 다르게 나타난다. 결과적으로 무작위 시드 값만 변경해도 하나의 시드에서 식별된 클러스터가 사라지거나, 새롭게 나타나거나 혹은 여러 개로 나뉘는 현상이 분석 시 발생할 수 있다. >

연구팀은 뇌, 폐, 혈액 등 다양한 조직에서 수집된 48개의 실제 및 모의 scRNA-seq 데이터에 scICE를 적용하여 그 유효성을 입증했다. 그 결과, 기존 분석 결과 중 약 3분의 2는 통계적으로 불안정하며 신뢰하기 어렵다는 사실을 밝혀냈다. 반면, scICE는 신뢰할 수 있는 결과만을 선별해 연구자의 시간과 계산 자원을 절약하면서도 정확도를 한층 높였다.

또한, scICE는 일반적인 클러스터링으로는 놓치기 쉬운 희귀한 세포 유형을 효과적으로 탐지했다. 실제로 일부 데이터에서 찾기 어려웠던 희귀 면역세포들을 scICE 기반의 서브클러스터링을 통해 안정적으로 식별해냈다. 예를 들어, 매우 복잡한 분석을 거쳐야만 식별할 수 있던 여러 대식세포(macrophage) 아형들을 훨씬 간편하고 정확하게 구분해냈다.

그림 2. scICE의 개요도 (a) scICE는 목표로 하는 각 클러스터 수에 대해 특정 '해상도(resolution)' 범위를 식별하고, 이 범위 내에서 상세 분석을 위한 표본을 추출한다.  (b) 다음으로, 표본으로 추출된 각 해상도에 대해 안정성 점수인 '불일치 계수(Inconsistency Coefficient, IC)'를 계산한다. IC값이 1이면 완벽한 안정성을 의미하며, 1보다 큰 값은 불안정성이 증가함을 나타낸다. 이를 통해 해당 클러스터 수에서 가장 안정적인 설정을 선택한다.  (c) 선택된 최적 설정의 높은 안정성(IC값이 1에 가까운 것을 목표)은 반복 테스트를 통해 얻은 IC 중앙값이 엄격한 임곗값(일반적으로 1에 매우 가까운 값) 미만을 유지하는지 확인함으로써 엄밀하게 검증된다.  (d) 이처럼 높은 수준의 안정성(IC 중앙값이 1에 가깝게 유지됨)을 일관되게 보여주는 클러스터 수만이 최종적인 '일관성 있는 클러스터링 세트(consistent clustering set)'에 포함되며, 이는 가장 신뢰할 수 있는 데이터 그룹을 나타낸다.

< 그림 2. scICE의 개요도 (a) scICE는 목표로 하는 각 클러스터 수에 대해 특정 >

scICE에 관심 있는 연구자는 누구나 깃허브 사이트(https://github.com/Mathbiomed/scICE)를 통해 쉽게 활용해볼 수 있다.

김재경 교수는 “이번 연구는 수학적 아이디어가 어떻게 생명과학의 핵심 문제를 해결하고 분석 과정을 혁신할 수 있는지를 보여주는 성과”라며, “클러스터링 신뢰도의 중요성이 간과되어 온 측면이 있는데, 이번 기회로 scICE가 생명과학 분야에서 신뢰도 높은 데이터 해석을 가능케 하는 표준 도구로 자리 잡기를 기대한다”고 전했다.

그림 3. scICE를 활용한 희귀 세포 아형 분석 및 식별 성공 사례 scICE 기반 서브클러스터링(sub-clustering)은 희귀 세포 유형을 성공적으로 식별했다. 구체적으로 쥐의 생식선 백색지방조직(GWAT) 데이터에서 대식세포 아형(macrophage subpopulations)을 찾아냈고, 코로나19(SARS-CoV-2)에 감염된 폐 데이터에서는 핵심적인 폐 세포 아형(pneumocyte subtypes)을 식별했다.

< 그림 3. scICE를 활용한 희귀 세포 아형 분석 및 식별 성공 사례 scICE 기반 서브클러스터링(sub-clustering)은 희귀 세포 유형을 성공적으로 식별했다. 구체적으로 쥐의 생식선 백색지방조직(GWAT) 데이터에서 대식세포 아형(macrophage subpopulations)을 찾아냈고, 코로나19(SARS-CoV-2)에 감염된 폐 데이터에서는 핵심적인 폐 세포 아형(pneumocyte subtypes)을 식별했다. >

우리 대학 박종은 교수 연구팀, POSTECH 김종경 교수 연구팀, 고려대 서민석 교수 연구팀과 공동으로 참여한 이번 연구결과는 세계적인 국제학술지 네이처 커뮤니케이션즈(Nature Communications, IF 14.7)에 7월 2일 온라인 게재됐다. 

관련뉴스
  • No Data