페이지

2018년 4월 16일 월요일

인공지능((AI) 기반 신약개발: 패러다임 변화 - Part 1

신약개발 패러다임 변화: 가설기반에서 인공지능 기반으로


‘      n  전통적 신약개발의 위기

 일간지에서 본 한 제약회사의 기사가 눈에 들어온다. 다국적 제약회사보다 임상 빨랐지만 자금력에 밀려 신약꿈이 좌절되었다는 내용이다. 매출의 20%를 R&D에 쏟아도 글로벌 기업의 3% 수준으로 다국적 제약사가 막대한 자금력으로 대규모 글로벌 임상을 시작하면서 상황이 역전되었다는 것이다. 전통적 신약개발은 신약개발 시작에서 출시까지 평균 12~15년이 소요되며 2조6천억원이라는 막대한 비용이 소요된다. 아울러 이미 40%이상의 알려진 질병들이 이미 치료가 가능하다. 반면 전세계적으로 97%가 신약프로그램에 실패하는 대표적 high risk high return 산업이다.  해외 AI신약개발 컨퍼런스에서 들은 얘기는 무어의 법칙을 거꾸로 읽는 Eroom 의 법칙 즉, 18개월마다 생산성이 2배로 떨어지는 대표적 산업이 제약산업이라는 자조적 주장을 하기도 하는 대표적 고위험 고비용 산업인 것이다.


      n  과학적 방식의 재정의

  200325세의 마이애미 약학대학의 암 연구 과학자 Narain CoQ10 (미토콘드리아내에 위치해서 세포에 영양을 공급하는 엔자임)이 포함된 크림을 흑색종(melanoma) 세포에 실험하고 있었다. 놀랍게도 다음날 보니, 페트리 접시의 모든 암세포가 죽어 있었다. 이후 행한 쥐실험에서는 종양이 55% 줄었다. Narain 은 왠지 몰랐다. 그는 노벨수상자와 연구중인 지도교수 Hsia 에게 이러한 사실을 알렸다. 80세의 지도교수는 나는 이런 유전학 기술을 믿지 않으며 생화학이 건강의 연속과 질병의 시작을 관장하는 신체의 기반이다. 지질체, 엔자임과 미토콘드리아가 특히나 흑색종 같은 암을 죽이다니, 너는 실험을 망친 거다라고 말한다. 그 당시는 휴먼게놈프로젝트가 발표된 지 2년이 지난해라 암은 주로 유전자에 의해 영향을 받는 다라고 믿던 시기였다.

Narain 은 가설을 수립하고, 테스트하고 데이터 수집하고 분석했다. 그런데 이해가 안되었다. Narain 은 제약회사가 암치료약을 생산하는 방법에 회의가 들었다. 어떤 과학자가 특이한 단백질이 특정 암에 관계가 있다고 생각되면, 제약회사는 이 단백질을 수백만의 화합물과 스크리닝하여 이중 아주 소수가 화학적으로 반응하여 잠재적으로 신약후보가 된다. 이것이 소위 교과서에서 얘기하는 과학적 방법인 것이다. Narain 는 이를 hit and miss 라고 부른다. 질병 치유 접근을 다트보드 놀이 같은 방법으로 접근한다는 것이다.  
이후 Narain 이 근무하던 피부과에 썬탠 브랜드권리를 의논하러 방문한 사모펀드 사장 Gray 에게 우연히 CoQ10 크림 얘기를 하게 되고 실리콘밸리의 부동산재벌 Carl Berg 를 소개받아 이 3명이 향후 Berg 라는 회사를 설립하게 된다.

201311Berg 100명의 췌장암, 유방암, 간암, 뇌암 환자들에게 BPM31510 이라는 AI 알고리즘에 의해 탄생한 신약 임상시험에 돌입하였다. 이는 대학병원에서 수집된 1000명의 환자로부터의 건강하거나 질병이 있는 세포조직의 추출 로부터 시작되었다. 이는 과학적 방법을 정반대로 접근하는 것으로, 실험을 하고 특별한 유형의 데이터를 생성하도록 유도하는 사전에 각인된 가설 대신에, 환자 들로부터의 데이터가 가설에 이르도록 하는 것이다. 이는 신약개발 패러다임이 가설 후 탐색에서, 데이터에 기반한 AI 기반의 탐색 후 추론으로 패러다임이 변하는 것을 뜻한다.






n  ‘a-ha’ 모멘트


이를 위하여 Berg1000명의 환자로부터 40가지 암조직을 수집하여 배양세포에 in-vitro test 로 체내환경과 같은 당분, 산소를 주입하여 지방, 대사물질, 단백질, 엔자임 배출 등을 측정했다. 이렇게 하면 유전체 정보와 함께 한조직에서 140억개의 데이터가 수집되고 이를 AI로 하여금 정상세포와 질병세포에 대해 데이터를 비교하게 훈련시키면, AI 알고리즘이 어떻게 정상세포가 궤멸하는지 어떻게 질병으로 발전하는지 잠재적 치료법은 뭘 지에 대해 그전에 몰랐던 통찰력을 제공받게 된다. Berg 는 이를 탐문적(interrogative) 시스템이라 부르는 것으로, 이러한 결과, 세포에서 발생하는 유전자, 단백질, 지질, 대사물질등의 분자 작용 케스케이드를 작성할 수 있었으며 이는 마치 항공지도를 보듯이 허브와 바퀴살 같은 구조로 나타난다. 이는 정상에서 암세포로 이끄는 생리학적 사건들을 전례 없는 자세한 묘사로 보여주어 허브는 정상조직에 비해 암조직이 풍부하거나 혹은 부족한 분자들을 표시함을 알게해준다. 즉 허브에 있는 분자들이 Berg 의 신약후보가 되는 것이다.   





  이러한 묘사에서 5개의 커다란 허브를 볼 수 있었는데, 가장 큰 허브는 미토콘드리아 내부에 사는 엔자임 그룹으로 이루어져 있다. 그 중에 하나가 CoQ10 였다. 이것을 본 순간 Narain 을 엄청난 ‘a-ha’ 모멘트를 가졌다고 한다. 이제 인공지능 AI 가 암의 지렛대 역할을 하는 것은 미토콘드리아라고 알려주는 순간이었던 것이다. 암세포는 미토콘드리아를 끄고 산소대신 젖산(lactate)으로부터 에너지를 생산할 수 있었던 것이었다. CoQ10을 주입한 것이 미토콘드리아의 생존을 도와 결국 암 진행 효과를 뒤집어서 암세포를 정상세포로 변환시킬 수 있었던 것이다


n  신약 전 개발주기에서의 인공지능 적용


2016년 인공지능 학회 NIPS에서 얀리쿤 교수는 머신러닝을 크게 강화학습, 지도학습, 비지도학습으로 분류했다. 강화학습은 알파고에서 보듯이 일련의 보상(reward)을 극대화하기위해 움직이도록 학습되고 예측한다. 이는 게임이론에서 발전한 것으로 2014Atari 벽돌깨기를 아무 사전지식없이 화면만 보고 2시간 학습해서 완벽하게 승리했으며 2017년에는 온라인 비디오 게임분야 Dota 에서 bot를 통해 우승자에게서 승리하였다






지도학습은 고양이 사진을 고양이라고 라벨을 입력해서 학습시키면 수백만 이미지 중에 고양이만을 정확히 찾아낼 수 있다. 반면 비지도학습은 이미지에 라벨 데이터가 없이 많은 데이터를 학습하여 머신이 관측된 부분의 입력에 대해 어떠한 부분도 예측 한다.


인공지능이라고 하는 커다란 범주에 머신러닝이 속하고 그 중에 딥 러닝(deep learning)이라고하는 신경망(Neural Network)을 이용하는 머신러닝이 있다. 이러한 딥러닝은 정보탐색, 신약설계, 표적발견, 전임상 실험설계, 임상시험, 스마트 약물감시, 계량 약리학, 신약개발 의사결정까지의 전 주기의 신약개발에 적용되고 있으며 미국의 경우 기존 제약회사와 AI벤처와의 연합이나 지역별 거점 대학과 제약기업 그리고 AI 벤처등이 활발한 협업을 통해 특정 분야에 성과를 거두고 있는 사례가 나오고있다. 이는 in-vitro 실험, 화합물 in silico 합성, 데이터 분석을 통한 알고리즘 개선, 임상시험을 위한 대학의 역할 등이 필요한 신약개발의 특성에서 기인한 것이 아닌가 한다.


n  표적발견


표적발견은 머신러닝기반의 모델링을 통해 분자, 이미지, 환자데이터를 분석하여 질병을 일으키는 난해한 바이오마커 패턴을 발견하기위한 예측모델을 구축하는 것을 뜻한다. 그러나 최신 기술의 발전은 이보다 더 진화하여 젊은 환자와 나이 든 환자, 건강한 환자, 질병에 걸린 환자들로부터 추출한 장기나 조직의 세포에 대한 유전자, 혈액, 단백질, 대사물질, 지질 등의 omics 정보와 함께 경로(pathway) 정보도 함께 비교하고 점수화 하여 암과 노화(aging)에 대한 개개인의 전체 신체의 시뮬레이션을 통한 개인 맞춤 노화관련 신약후보물질과 파이프라인 개발을 제공하는 것을 목적으로 하는 회사도 있다.


인실리코 메디신은 수천가지의 질병 그리고 10억가지의 분자구조 데이터베이스로부터 신호체(signalome)단계의 프로파일과 전사반응(transcriptional response)에 대한 연관관계를 딥러닝의 GAN(Generative Adversarial Network) 알고리즘을 사용하여 그래프로 생성하고 이를 이용하여 원하는 약물동력학(pharmacokinetics)과 약물역학(pharmacodynamic)적 특성을 가진 새로운 화합물을 딥러닝의 강화학습을 활용하여 생성한다. 




GAN 알고리즘은 게임이론에서 진화한 머신러닝 알고리즘으로, 수많은 사진을 훈련시킨 원래 신경망에 이를 위조하는 적대적 신경망을 함께 연결하면 이 위조목적의 신경망의 산출물이 원래 훈련된 이미지와 구별할 수 없는 이미지를 생성하는 머신러닝 알고리즘이다







n  재목적화


  
만약 딥러닝이 9천만개의 특허, 3천만개의 과학저널, 매년 수만건의 논문, 수천가지 질병, 10억가지의 분자구조등의 데이터들을 실시간으로 읽어 들여 딥러닝을 통해 질병과 영향을 줄 개체(entity)로서의 생물학적 타겟에 대한 관계 탐색으로 전통적 방식에서 판별하지 못한 새로운 통찰력을 제공한다면 이미 임상시험이 끝난 약들을 알려진 질병-타겟 관계에 재목적화(repurpose)하여 사용할 수 있음으로써 상당부분 속도, 비용, 효율성 측면에서 최적화할 수 있음을 뜻한다.





베네볼런트AI는 이러한 방대한 정형, 비정형 데이터들을 실시간으로 읽어 들여 신경망의 딥러닝을 통한 자연어처리, 이미지처리(OCRNLP를 소화 처리 검색하여 개체와 관계를 추출), 개체명 인식(Named Entity Recognition), 관계추출의 수순으로 데이트 들로부터의 연관된 관계속에서의 통찰력을 찾아 지식그래프라는 입체적 트리구조의 연관 그래프를 보여준다. 여기서 개체명인식이란, 우선 자연어처리분류기를 통해 문자, 단어, , 행 혹은 문장과 같은 정보가 음소, 단어 단위의 토큰화라는 것을 거치고나서 명사, 동사 등의 품사 결정이후에 인명, 조직명, 시간 등과 같은 개체(entity)를 인식하는 것을 뜻한다. 이러한 개체들은 생체의학(biomedical)도메인에 관련된 단어와 관계로 구성된 사전 즉 온톨로지에 의해 서로 다른 데이터안의 특정 개체들을 인식하고 관련 짓는데 사용된다. 80%이상의 획득된 정보가 일반 텍스트와 같은 비정형 데이터인데, 예를 들어 cb2 가 칸나비노이드 수용체라는 것도 이러한 온톨로지를 통해 이해된다. 아울러 유전체 X 는 알츠하이머 질병의 세포에서 발견된다유전체 X 는 알츠하이머 질병의 세포에서 조절되지 않는다는 이 두 문장에서는 후자가 유전체 X 와 알츠하이머 질병 이 두 개체사이에 유의미한 관계가 있다고 개체명인식기가 판별한다



AI를 이용하여 이렇게 취합된 정보들은 지식그래프(knowledge graph)를 통해 개체간의 관계가 그래프로 표시되어 시각적으로 여러 각도에서 탐색해볼 수 있도록 가시화된다. 아래 그림은 지식그래프중에 하나인 IBM 왓슨연구소에서 특허를 가지고있는 지식그래프이다. 이 그래프는 3차원으로 질병과 부작용간의 관계를 그래프로 보여준다. 왼쪽에 있는 3차원 구(sphere)의 질병에 대해 줌인(zoom in)하면 오른쪽과 같은 관계가 자세히 보여진다.






AI 가 이들 간에 관계를 추론하도록 훈련시키면 현존하는 관계에 대해 모르고 있던 관계를 찾아낸다. 이는 마치 주기율표가 처음에 구성되었을 때, 빈 자리에 있어야 할 주기율표가 결국 발견되는 것과 같다

베네볼런트AI 의 경우 신약물질 대상 선정에 있어 제한적인 정보 환경에서 통상 1~2년의 검증 기간이 소요되는데 반해 인공지능을 통하여 1달여만에 우선 검증을 시작할지에 대한 결정을 끝내고 다음 단계로 넘길 수 있었다고 한다. 의료화학에도 통상2~3년의 최적화가 소요되는데, 베네볼런트 AI4~6천개의 화합물로부터 1년안에 125개의 화합물 타겟을 선정하는 것을 성취했다. 또한 루게릭병의 운동신경에 대해 2015년 말에 가설을 세우고 변역신경과학 외부연구소와 1년반동안 이러한 가설을 검증한 끝에, 5개를 선정하여 3주안에 ALS 질병 성인의 수명을 2~3 개월 연장할 수 있는 3개의 대상을 발견하고 1개의 화합물을 찾은 경험이 있다고 한다. 베네볼런트AI 의 사례에서 보듯이 모든 정보를 바탕으로 하나의 신약에서 실패한 약을 재목적 신약으로 다른 곳에 적용하여 시간과 비용에서 오는 위험을 줄이고 최적화를 앞당기는 것을 재목적화라 한다.




-- Part 2 에서 계속 --

댓글 없음:

댓글 쓰기