Synthetic enhancer design의 현재

2026-04-08

genomicsdeep-learningenhancer

올해 오믹스 파운데이션 연구들은 diffusion model과 synthetic enhancer가 주를 이룬다. 예상은 했지만, 결과들이 더 빠르게 나오고 있다. 오믹스 파운데이션은 센트럴 도그마의 분자 층위(DNA, RNA, Protein)를 예측하는 것으로 개발되고 있다.

DNA는 "숱하게 많은 변이가 어떤 영향을 주는가?"라는 질문에 답하려는 방향이다. 구글 알파지놈을 비롯한 gLM(genomic language model)이 대표적이다. RNA는 "유전자 발현이 표현형에 어떻게 영향을 미치는가?"에 초점을 둔다. 유전자가 발현된다는 것은 세포특이적이고, 발현이 곧 표현형이라는 정체성을 결정짓는 것을 전제로 한다. Single cell foundation model이 이미 정착했고, 가상세포(virtual cell)이나 디지털 세포(digital cell)이라는 개념이 나왔다. 요즘은 이런 세포들이 어떻게 특정 상황에서 출현할지를 예측하고 생성하는 diffusion model이 대세다. Protein은 알파폴드로 대표되는 구조 예측이 이미 자리를 잡았다.

예측에서 설계로

다시 본론으로 돌아와서, gLM 분야에서 "예측"을 넘어 "설계"로 넘어가는 축이 꽤 뚜렷하게 형성되고 있다. Synthetic enhancer design이라는 주제인데, 쉽게 말하면 딥러닝 모델을 이용해 원하는 세포에서만 작동하는 인핸서 DNA 서열을 새로 만들어내는 것이다.

왜 이런 방식이 필요한가?

유전변이의 성질을 이해할 필요가 있다. 인간의 몸에는 3-4백만개의 변이가 존재하는데, 통념과 다르게 대부분 변이는 형질에 누적적으로 기여를 한다. 유전변이가 개체에 큰 영향을 준다면, 오랜 진화의 과정에서 살아남을 수 없었을 테니까. 이 때문에 유전변이를 이용하여 형질이나 질환의 연관성을 보려면, 특정 개체가 진화 과정에서 겪어온 집단적 차이를 제거하고, 생물학적 기여도만 정확하게 측정해야 한다. 이 작업은 쉽지 않다.

구글 딥마인드의 알파지놈(Cheng et al. 2025, Nature) 등의 gLM 모델은 DNA 서열과 변이를 주었을 때, 특정 세포에서 유전자 발현량이 그 변이로 인해 얼마나 변할지를 측정한다. 유전자 발현이 표현형과 등치되는 것이고, 변이의 누적 효과를 모사할 수 있기 때문이다. 그러나 여기에는 한계가 있다. 유전변이가 형질에 어떤 인과성을 지니는지 알기 위해선, 그 유전변이가 발생한 지역의 기능적 특성을 알아야 한다. 인간에게 존재하는 수백만개의 변이는 단백질을 만들지 않는 영역, 즉 비코딩 지역에 생긴다. 비코딩 지역에는 유전자 조절을 돕는 인핸서나 프로모터 같은 기능적 서열들이 존재한다. 그리고 이런 기능적 서열은 길이도 다르고, 존재하는 위치도 다르고, 작동 방식도 세포와 발달시기마다 천차만별이라서 이를 측정하는 것이 굉장히 어렵다.

그래서 최근 급부상하는 연구 주제는 gLM을 이용해서 인핸서를 합성하는 것이다. 특정 세포와 시점에서 인핸서를 읽어내는 것이 아니라, 특정한 규칙과 기능을 지닐 것이라 예측하는 인핸서를 만들어서 측정해버리는 것이다. 여기에 더해서, 이런 합성 인핸서를 이용해 유전자 발현량의 정도를 조절할 수 있다면 그 자체로 치료제로 쓸 수 있다.

Synthetic Enhancer Design의 세대별 발전

1세대: 예측 모델의 역전 (In Silico Evolution, ISE)

서열을 넣으면 인핸서 활성을 예측하는 모델을 먼저 잘 만들고, 그 모델의 출력을 최대화하는 방향으로 서열을 반복 수정한다. 2022년 DeepSTARR(de Almeida et al. 2022, Nat Genet)가 초파리에서 이걸 처음 보여줬다. 직관적이고 specificity를 직접 최적화할 수 있다는 장점이 있지만, 문제는 모델이 높은 점수를 주되 실제로는 작동하지 않는 adversarial sequence가 나올 수 있다는 것이다. 자연적인 DNA 분포 바깥의 서열이니까.

2세대: 모티프 문법 기반 설계

먼저 인핸서의 문법을 해독한다. 어떤 전사인자 결합 모티프가, 어떤 배치로 존재해야 특정 세포에서 작동하는지를 모델로부터 읽어낸 뒤, 그 규칙에 따라 서열을 조립한다. 가장 해석 가능한 접근이지만, 이미 알려진 모티프에 의존한다는 한계가 있다.

3세대: 생성형 언어 모델

실제 조절 DNA의 분포 자체를 학습한 뒤, 조건부로 새 서열을 sampling한다. 1세대가 예측 모델을 "역전"시키는 거라면, 3세대는 자연적인 DNA 분포에서 직접 생성하기 때문에 생물학적으로 더 현실적인 서열이 나온다는 게 이론적 장점이다. ATGC-Gen(Su et al. 2025, arXiv)이 전사 프로파일이나 세포 유형으로 conditioning하는 방식을 보여줬고, ARSENAL(Patel & Kundaje 2026, bioRxiv)은 ENCODE regulatory element에 특화된 masked LM을 design prior로 쓰는 접근을 제안했다.

4세대: 통합 파이프라인 + 실험 검증

지금 막 나오고 있는 4세대는 이 모든 걸 하나의 파이프라인으로 묶되, 실험 검증까지 닫는 것이다. 최근 Nature Methods에 나온 CREsted(Kempynck, De Winter et al. 2026, Nat Methods)가 이 방향의 첫 사례인데, scATAC-seq 데이터에서 모델 학습 → 인핸서 문법 해석 → 서열 설계 → 제브라피시 in vivo reporter assay 검증까지를 하나의 패키지로 돌린다. 심장근육과 체성근육 인핸서는 3/3 성공, 두 세포를 동시에 타겟하는 dual-specificity 설계도 시도했다.

아직 풀리지 않은 질문

여기서 재밌는 지점이 하나 있다. 3세대 언어 모델 방식이 1세대 ISE 방식보다 실제 생체에서 더 잘 작동하는지를 직접 비교한 연구가 아직 없다. 이론적으로는 분포 학습 기반이 adversarial 문제를 피할 수 있어야 하는데, 그게 in vivo에서 실제로 차이를 만드는지는 모른다. 현재까지 in vivo 검증에 성공한 건 오히려 가장 단순한 1세대 ISE 방식이다. 이 head-to-head 비교가 아마 이 분야에서 가장 중요한 다음 실험일 것 같다.

모델 크기보다 Task-specific 학습

CREsted 방법을 보면 작은 task-specific 모델이 Borzoi(Linder et al. 2025, Nat Genet) 같은 대형 pretrained 모델을 fine-tuning한 것과 동등하거나 더 나았고, HyenaDNA(Nguyen et al. 2023, NeurIPS)나 Nucleotide Transformer(Dalla-Torre et al. 2024, Nat Methods) 같은 genomic language model을 fine-tuning한 것보다는 확실히 나았다. 인핸서 설계의 맥락에서는 모델 크기보다 해당 데이터셋에 대한 task-specific 학습이 더 중요할 수 있다는 시사점이다.

읽기에서 쓰기로

이제 하나의 연구 분야로 정착이 되고 있다. 게놈을 읽는 것에서 쓰는 것으로. 그리고 그 "쓰기"가 실제 생체에서 작동하는지 검증하는 루프를 얼마나 빠르게 돌릴 수 있느냐가 다음 단계의 핵심이 될 것 같다. 또한 이런 연구는 모델 동물에서 적용하기 좋은 주제이기도 하다. 인핸서의 진화적 보존성이라든지, 세포 유형별 전사 조절의 기본 원리를 이용하는 것에서도 다량의 가설을 생성할 수 있다. 기초과학이 옛날 방식으로 실험을 하는 게 아니라, 오래된 질문들을 새로운 기술로 풀어낼 수 있다는 이야기다.

CREsted 연구가 좋은 예시인데, 제브라피시 발달 과정의 scATAC-seq 아틀라스(20개 발달 단계, 639개 세포유형-시점 조합)로 모델을 학습시킨 뒤, 심장근육과 체성근육에서만 작동하는 인핸서 서열을 컴퓨터로 설계하고, 실제 제브라피시 배아에 넣어서 검증했다. 심장근육, 체성근육 모두 3/3 성공. 더 흥미로운 건, 두 세포를 동시에 타겟하되 발현 비율을 조절하는 dual-specificity 설계도 시도했다는 점이다. 완벽하진 않았지만 대부분에서 이중 활성이 관찰됐다.

그리고 마우스 뇌 데이터로 학습한 모델이 닭의 인터뉴런 인핸서를 예측할 수 있었다는 결과도 있다. scATAC-seq 데이터가 없는 종에서도 인핸서를 찾고 해독할 수 있다는 뜻이다. 진화적으로 보존된 인핸서 문법이 실제로 존재하고, 그걸 모델이 포착하고 있다는 증거이기도 하다.

결국 이건 "이 세포에서 이 유전자를 켜는 스위치를 처음부터 만들 수 있는가"라는 질문에 대한 답이 조금씩 나오고 있다는 이야기다.