알파지놈과 K562, 그리고 신약개발의 현실
2026-01-30
알파지놈과 K562 세포주, 그리고 알파지놈의 한계. 신약개발 현실과 이상의 괴리에 대하여.
알파지놈(Cheng et al. 2025, Nature)은 딥러닝을 활용하여, 비코딩 지역에 발생하는 변이의 효과를 예측한다. 새로운 개념은 아니다. 비코딩 변이의 효과를 예측하는 딥러닝 모델은 지난 10년간 많이 나왔다.
비코딩 변이는 왜 연구하기 어려운가?
비코딩의 반대는 코딩이다. 프로그래밍을 의미하는 게 아니라, "단백질이 될 수 있는 유전자 서열"을 코딩(정확히는 단백질 코딩이라 부른다)이라고 부른다. 코딩 서열은 직관적이다. DNA > RNA > 아미노산 > 단백질로 전달되는 과정은 룰이 있다. 단백질은 3개의 DNA 염기서열에 의해 결정된다. 이것은 해가 동쪽에서 뜨는 것처럼 정언적 규칙에 해당한다.
반대로 비코딩 지역은 그런 규칙이 모호하다. 비코딩은 단백질을 직접 만들지 않으나, 단백질이 만들어지는 과정에 중요한 요소들이 결합한다. 그래서 인간이 감자보다 적은 유전자 개수를 가져도, 더 다양한 일을 할 수 있다. 고등하게 진화된 개체들은 단백질이 만들어지는 과정에 붙는 요소의 결합을 다양하게 만든다.
여기서 "결합"은 몇몇 규칙이 있다. 가령 FOXP1이라는 요소는 CGATACAA라는 염기서열을 인식하여 붙는다. 그런데 이 결합은 아주 정합적이지 않다. 이와 더불어 복잡성을 기하급수적으로 늘리는 게 있다.
알파지놈 이전의 딥러닝 모델 개발사
생물체는 단백질을 만들 때, 그러니까 유전자가 전사될 때, 염기서열에 전사 요소들이 붙는다. 이렇게 붙을 땐 1차원적 공간에 붙는 게 아니라, DNA 염기서열이 얽히고 접힌다. 3차원적으로 붙는다는 말이다. 그래서 물리적으로 멀리 떨어진 염기서열들이 하나의 "전사 순간"에 접합할 수 있다.
언어모델을 가지고 비코딩 유전체의 전사를 연구하기 위해서, BERT를 사용했었다. 수년 전, 거의 초기의 일이다. BERT는 굉장히 짧은 서열로만 학습을 할 수 있었고, 토큰도 짧게 잡았기 때문에 이런 장거리 전사를 학습할 수 없었다. 그 대적점에는 CNN 모델을 활용해서, 전사 요소들의 서열 모티프 규칙을 보려는 시도가 있었는데, 마찬가지로 굉장히 짧은 지역을 학습했다. 그런데 구글이 당시에 Enformer(Avsec et al. 2021, Nat Methods)라는 모델을 만들어서, CNN 모델에 트랜스포머를 달아서, 10만개의 염기서열을 통으로 보는 학습을 할 수 있었다.
이후에 트랜스포머의 시대가 오고, 다양한 모델들이 등장했다. 그러나 이 시점에서 문제가 분명해졌다. 트랜스포머는 길이를 잘 보지만, 길이에 비례해 계산량이 폭증한다는 구조적 한계를 갖고 있었다. 유전체처럼 수만에서 수십만 염기쌍을 다뤄야 하는 문제에서는, "이론적으로 가능하다"와 "실제로 학습시킬 수 있다" 사이에 큰 간극이 생겼다.
이 간극을 다른 방향에서 메우려는 시도가 있었다. 바로 Mamba(Gu & Dao 2023)와 같은 state space model 계열이다. Mamba는 attention을 쓰지 않는다. 대신 서열을 왼쪽에서 오른쪽으로 흘려보내며, 이전 상태를 요약한 hidden state를 통해 정보를 전달한다. 계산 복잡도는 선형에 가깝고, 길이가 길어질수록 오히려 장점이 두드러진다 (DNA는 이중나선이기 때문에 bi-mamba도 나왔다).
유전체 문제에 이 구조가 매력적으로 보였던 이유는 명확하다. DNA는 본질적으로 순차적이다. 전사 조절도 결국은 서열 위에서 누적된 맥락의 결과다. Mamba는 이 맥락을 "모든 위치 간의 쌍대 비교"가 아니라, 축적되는 상태(state)로 표현한다. 이론적으로는 수십만, 수백만 염기쌍까지도 하나의 흐름으로 처리할 수 있다.
하지만 여기에도 한계는 있다. Mamba는 길이를 잘 다루는 대신, 공간적으로 떨어진 두 지점이 정확히 어떻게 연결되는지를 명시적으로 드러내기 어렵다. Enhancer와 promoter가 언제, 어떤 조합으로 만나는지에 대한 해석 가능성은 attention 기반 모델보다 떨어진다. 즉, "길게 읽는 능력"과 "상호작용을 해부하는 능력" 사이의 트레이드오프가 존재한다.
알파지놈은 다른가?
이러한 배경 속에서, 알파지놈은 또 다른 선택을 했다. 알파지놈은 UNet을 이용해서 긴 염기서열을 다중 해상도로 요약하고 다시 복원하는 방식을 택했다. 이는 "얼마나 길게 읽을 수 있는가"라는 문제를, 순수 attention이 아니라 공간적 압축과 복원의 문제로 재정의한 선택이었다.
UNet 구조의 핵심은 간단하다. 먼저 서열을 점점 압축하면서 넓은 문맥을 본다. 그 과정에서 수만 염기쌍 떨어진 조절 신호를 하나의 표현 공간으로 모은다. 이후 다시 원래 해상도로 복원하면서, 압축 과정에서 잃기 쉬운 국소적 정보는 skip connection을 통해 보존한다. 이 방식은 원래 의료 영상에서 국소적 병변과 전역적 맥락을 동시에 보기 위해 고안된 구조인데, 알파지놈은 이를 유전체에 적용했다.
결과적으로 알파지놈은 "이 변이가 단순히 어떤 모티프를 깨는가?"를 넘어서 "이 변이가 포함된 서열 덩어리가 전사 조절 네트워크 전체에서 어떤 위치를 차지하는가?"라는 질문에 답하려는 모델이 되었다. 적어도 아키텍처 차원에서는 그렇다.
K562의 문제: 모델의 한계가 아니라 데이터의 한계
여기서 중요한 현실적 문제가 등장한다. 알파지놈이 학습한 데이터의 상당 부분은 K562 세포주를 포함한 소수의 well-characterized cell line에 기반한다는 점이다.
K562는 훌륭한 모델이다. 실험 데이터가 풍부하고, 재현성이 높으며, 수많은 ChIP-seq, ATAC-seq, RNA-seq 데이터가 축적되어 있다. 딥러닝 모델 입장에서는 이상적인 학습 대상이다.
하지만 동시에 K562는 백혈병 세포주다. 정상 조직도 아니고, 발달 맥락도 없으며, 무엇보다 약물이 작동하길 기대하는 실제 환자 세포와는 거리가 멀다.
알파지놈이 예측하는 것은 결국 "K562라는 세포 상태에서, 이 서열이 어떤 기능적 신호를 만들 가능성이 있는가"에 가깝다. 이는 모델의 잘못이라기보다는, 데이터의 한계다. 하지만 신약개발의 관점에서는 이 차이가 치명적이다.
신약개발에서 우리가 정말로 알고 싶은 것은, 이 변이가 질병의 원인인지, 이 조절 축을 건드리면 표현형이 바뀌는지, 그리고 그 효과가 특정 조직과 발달 시기, 특정 환자군에서 재현되는지다. 알파지놈은 이 질문들에 대해 방법론만 제공한다. 정확히 말하면, "이 서열은 조절 가능성이 있다"는 가능성의 공간을 열어준다.
하지만 알파지놈은 만병 해결책이 아니다. Causal direction은 명확하지 않고, 세포 유형 특이성은 제한적이며, 발달 단계나 병리적 상태는 거의 반영되지 않는다. 즉, 알파지놈은 drug target을 '확정'하는 모델이 아니라 '후보를 늘리는 모델'이다. 이 지점에서 신약개발의 이상과 현실이 갈라진다. 모델은 "이 변이는 중요해 보인다"고 말하지만, 실험은 "그래서 언제, 어디서, 어떻게 중요한가?"를 다시 묻는다. 그 간극을 메우는 것은 여전히 1차 세포, 오가노이드, 환자 유래 샘플 같은 고전적이지만 비싼 실험들이다.
데이터 투자의 중요성
제약 회사에서 알파지놈을 활용하려면 답은 분명하다. 환자 유래 샘플 데이터를 생산해야 한다. 공개된 데이터로는 답을 얻을 수 없다. Enformer는 Calico 회사의 로버트 캘리가 만든 Basenji(Kelley et al. 2018, Genome Res) 데이터셋을 쓴다. ENCODE, FANTOM, Roadmap Epigenome 데이터를 수집해서 가공한 데이터다. 트랙이 2만개 정도 되고, 이걸 이용해서 여러 회사와 연구들이 모델을 개발했다. 하지만 이 정도는 모델이 된다는 개념만 보여줄 뿐, 약 개발에 쓰려면 실제 데이터를 생산해야 한다.
해외 빅파마들은 자체적인 데이터를 생산한다. 영국 바이오뱅크와 같은 공공 데이터도 활용하지만, 이 제약회사들은 그 데이터를 만드는 데 직접 투자했고, 데이터를 선점했다. 국내에서도 국가통합바이오빅데이터 같은 공공 데이터 구축이 논의되고 있지만, 기업 차원의 적극적인 데이터 투자가 병행되어야 한다.
비코딩 유전체는 규칙이 느슨하고, 조합적이며 맥락 의존적이다. 그래서 환자 유래의 세포주 데이터, 다양한 약물을 처리받은 세포주 데이터가 필요하고, 의료기록과 연계할 필요가 있다.
"양적 유전에 대한 이해"가 신약 개발의 핵심
구글이 알파지놈을 굳이 개발한 이유가 뭘까? 알파폴드는 단백질을 예측한다. 단백질에 변이가 생기면 활성이 어떻게 변화하는지도 보고, 그 단백질을 타겟하는 약물도 개발한다. 그런데 알파폴드가 다루지 못하는 영역이 있다. 인간은 다양하다. 양적 형질을 갖는다. 하나의 병으로 진단된 사람들을 봐도 다양한 아형과 임상적 분포를 지닌다. 하나의 유전자와 변이가 관여하는 게 아니라, 여러 개의 유전자들과 유전변이들이 관여한다.
전장유전체가 등장하면서, 한 사람에게 찾을 수 있는 유전변이가 수만개는 된다. 고전적인 실험을 하면, 연구원 한 명이 1개의 유전변이를 실험해야 한다. 수만 개는 언제 하지? 그런데 이게 1명 환자인데?
알파지놈은 이걸 10초가 안 되는 시간에 예측해버린다. 그리고 예측에서 나온 값을 바탕으로 진짜 중요한 유전변이 1-2개를 찾아서 실험한다.
알파지놈의 발전이 주목되는 이유
알파지놈을 써본 사람은 알 것이다. API를 받아서 연구용으로 쓸 수 있다. 하지만 현재로서는 K562 수준의 제한된 세포 정보를 갖고 예측을 한다. 가령 나처럼 자폐를 연구하는 사람은 태아의 뇌 데이터를 이용해야 하는데, 이런 데이터는 정말 드물다. 내가 갖고 있는 태아의 뇌 데이터를 적용해서 해보고 싶으면, 알파지놈 모델을 받아서 파인튜닝해야 한다. 그런데 현재로선 쉽지 않다.
앞으로 구글은 알파지놈의 형태를 다양한 제약회사에 제공할 것이다. 제약회사는 자체적으로 구축한 고퀄리티의 데이터를 갖고 학습시켜서 신약개발에 활용할 것이다.
파운데이션 모델의 개발보다 더 중요한 건, 좋은 데이터를 만드는 것. 그리고 기업이 직접 투자하는 것이다.