디어젠(주)는 질병의 예후에 관한 바이오마커를 발굴할 수 있는 AI기술 CWx에 대한 연구성과를 발표했습니다. 연구 성과는 Frontiers in Genetics 저널에 게재되어 있습니다.

Introduction

예후 관련 바이오 마커는 질병 진단 및 치료를 위한 중요 개념입니다. 바이오마커 발견을 위한 통계 및 머신러닝 알고리즘이 많이 있지만 디어젠은 딥러닝 기반 기술을 통해 바이오 마커 발굴 기술을 확보하고 있습니다.

하지만 환자의 예후 데이터는 일반적인 feature selection 알고리즘과는 다른 요소인 censored data(추적 관찰 시점까지 사망 및 재발 등 event가 발생하지 않은 환자)를 포함하고 있어서 정확한 분석이 어렵습니다. 또한, RNA-seq과 같이 Feature space가 크고 샘플이 적은 domain data에서는 특히 예후 분석이 더욱 어려워집니다. 이러한 문제점을 극복하기 위해서 디어젠은 예후 바이오 마커 발굴 알고리즘인 Cascaded Wx를 개발하게 되었습니다.

Deargen’s Prognosis Relative Gene Selection Algorithm

 예후 관련 데이터는 TCGA(The Cancer Genome Atlas)의 LUAD(LUng ADeno carcinoma)를 포함한 5종의 암종 RNA-seq Transcriptome 데이터를 사용하였습니다. Transcriptome 데이터를 통해 예후 관련 주요한 유전자를 선별하게 되면 질병 진단, 치료 전략 수립, 치료 타깃 유전자 제시 등 다양한 바이오 마커를 제시 할 수 있습니다. 예후 분석에서 가장 널리 사용되고 있는 Cox model 및 ElasticNet 을 포함한 12종류의 대표적인 Feature Selection 알고리즘과 Cascaded Wx의 성능을 비교 함으로써 디어젠 모델의 우수성을 입증하였습니다.

Method

 기본적으로 Cascaded Wx Framework는 Wx 알고리즘(wx 논문 링크)에 기반하여 설계되었습니다. 가장 큰 motivation은 보통 예후 데이터 분석 시 특정 시점(예를 들어 3년 안에 사망하였는지)을 기준으로 고위험/저위험군으로 나누어 분석하게 되는데, 이러한 분석에서는 위험군의 정도를 표현하기 힘들었습니다. 또한, RNA-seq과 같은 큰 Feature Space를 다루기에 마땅한 알고리즘이 부재한다는 문제가 있었습니다. 이러한 두 가지 문제점을 극복하기 위해 다음과 같은 형태의 분석 프레임워크를 설계하였습니다.

총 3개의 step으로 바이오 마커 선별이 이루어지며, step이 커질수록 환자 수는 줄어들고 동시에 feature space(number of genes)도 함께 줄어들도록 하였습니다. 각 step에서는 중요하지 않은 feature 들이 버려지는데 이때, Wx 알고리즘을 사용하여 Feature 중요도 Score(Discriminative Index Score)를 구하여 처리했습니다. 마지막 Step에서는 마찬가지로 Wx 알고리즘을 사용하여 최종 Top-K 유전자를 선별했습니다. 

Conclusion

 다음은 Cascaded Wx를 LUAD RNA-seq 데이터에서 주요 알고리즘과 비교한 결과입니다. 선별된 Top-100 유전자를 사용하여 1~100개의 유전자를 사용했을 때의 C-index(0~1, high is better)를 비교했습니다. Cox model, ElasticNet, Deseq2 를 포함한 다양한 카테고리의 여러 알고리즘보다 디어젠의 모델이 우수한 것을 알 수 있습니다.

또한 LUAD 암종뿐 아니라 주요 암종에서 Cascaded Wx가 선택한 상위 랭크 유전자를 사용 시 높은 성능을 보임을 확인하였습니다.

Deargen’s opportunities

 디어젠은 예후 관련 유전자 선별 프레임 워크인 Cascaded Wx의 유용성을 보기 위해 실제 폐암 환자군을 대상으로 예후 바이오 마커로 선별된 마커들의 유효성을 검증하고 있습니다. 또한, Wx를 포함한 CWx 알고리즘을 통해 현재까지 발견되지 못했던 다양한 질병 타깃 및 바이오마커들을 탐색 및 발굴 할 수 있을 것으로 기대하고 있습니다.