알파지놈, DNA 파운데이션 모델, 그리고 ISM

2026-02-03

AlphaGenomeISMfoundation-modelgenomics

알파지놈(Cheng et al. 2025, Nature), DNA 파운데이션 모델, 그리고 ISM(in silico mutagenesis)을 알아야 한다.

ISM은 무엇인가?

ISM은 기준 서열(reference sequence)의 특정 위치를 하나씩 다른 염기로 치환해 가며, 그 변화가 모델의 출력에 어떤 영향을 주는지를 계산하는 방법을 의미한다. 즉, 실제 실험에서 유전변이를 하나씩 만들어 기능 변화를 측정하듯이, 이를 계산적으로 수행하는 접근이다.

DNA 파운데이션 모델에서 ISM은 가장 대표적인 다운스트림 태스크에 해당한다. 파운데이션 모델은 DNA 서열을 입력으로 받아 전사체 발현, 크로마틴 접근성, 전사인자 결합과 같은 다양한 분자적 특성을 예측한다. ISM은 이 예측값을 고정한 상태에서, 특정 염기를 바꿨을 때 출력이 얼마나 변하는지를 계산한다. 결국 모델이 중요하게 "읽고 있는" 염기 위치를 하나씩 드러내는 과정이다.

이 접근은 특히 비코딩 변이 해석에서 핵심적이다. 비코딩 영역의 유전변이는 단백질 서열을 바꾸지 않기 때문에 기능적 영향을 직관적으로 이해하기 어렵다. ISM은 이러한 유전변이가 조절 요소 내부에서 신호를 강화하거나 약화시키는지를 직접적으로 보여준다. 특정 염기 하나의 변화만으로 enhancer 활성 예측이 크게 감소하거나, 전사인자 결합 패턴이 무너진다면, 그 유전변이는 기능적으로 중요한 위치에 놓여 있을 가능성이 높다.

ISM이 알파지놈이나 DNA 파운데이션 모델에서 왜 중요한가?

인간 1명의 DNA는 다른 사람과 굉장히 비슷하지만, 일부가 다르다. 일부라고 하더라도 그 다른 것의 개수가 3-5백만개에 해당한다. 아프리카인들은 조금 더 많고, 아프리카 대륙에서 나와서 진화하고 정착한 비-아프리카인들은 3백만개 정도 된다 (유전자 풀에 따라 다름). 30억개의 염기서열로 구성된 DNA에서 1%만 차이가 나도 변이가 굉장히 많아진다.

멘델의 유전학에 따라 발전한 분자생물학에선 1개의 유전변이와 1개의 유전자를 연구했다. 그렇게 질병의 기전도 연구하고, 생물체의 작동원리도 연구했다. 그런데 인간은 하나의 유전자에 의해 하나의 형질이 결정되지 않는다. 대부분의 형질은 수많은 유전변이가 누적적으로 기여하는 양적 형질이다. 그래서 하나의 질환을 연구할 때, 굉장히 많은 변이와 유전자들이 나온다.

이것을 고전적인 분자생물학자의 실험실에서 실험하려면 수백 년의 시간이 걸린다. 이런 노고를 낮추려는 것이 아니다. 고전적인 생물학자들은 가장 그럴듯한 가설을 정해서 수십 년을 연구한다. 그렇게 생물학의 교과서가 두꺼워졌다. 그 가설은 맞기도 하고 틀리기도 한다. 약으로 개발되기도 하고, 실패하기도 한다. 여전히 실제의 삶에는 더 많은 가설들, 즉 유전자와 유전변이가 천문학적인 숫자로 존재한다.

실험하지 않더라도 "실험한 것과 같이 예측"할 수 있다면?

지금까지 축적된 데이터에서 파운데이션 모델을 만들고, 예측하고, 그 예측에 대한 실험을 한다. 이러한 루프 형태의 연구로 바뀌어 가고 있으며, 알파지놈을 비롯한 여러 파운데이션 모델은 이를 가속화한다.

다시 ISM으로 돌아오면, ISM은 수백만개의 변이, 즉 잠재적 가설들을 테스트한다. 신경세포에 변이를 넣고 키우지 않더라도, 암세포에 변이를 넣고 키우지 않더라도, 유전자의 발현량을 측정하지 않더라도, 염색체의 조절을 측정하지 않더라도, 마치 우리가 챗GPT에 물어보듯 예측한 정보를 얻어낸다. 정확한가? 정확하지 않다. 정확해질까? 어떤 방식으로 정확하게 만들까?

ISM의 궁극적 종착지는 어디일까?

예상 가능한 여러 가지의 미래가 있다. 단순히 신약 후보가 되는 약물을 찾는 것뿐 아니라, 질환에 대한 예측이나 여러 분류를 나누는 것에도 활용할 수 있다. 변이는 하나의 형태이지만, 발달과정과 적응에 다양한 역할을 한다.