AI를 활용한 유전체 연구 교과서를 쓰며
2025-11-03
"AI를 활용한 유전체 연구" (AI for Genomic Science)라는 교과서를 쓰고 있다. 내년 학부생 수업에 쓸 교과서이고, 개인적인 공부를 위해서도 쓰는 책이다. 올해 3월부터 연구년이어서 공부할 시간도 많기도 했고, 가족의 병간호를 하면서 옆에서 앉아서 몇 가지 자료들을 정리하고 있다. 이미 17개의 챕터가 모두 작성되었지만, 내용을 줄이고 3-4번 윤문하여 챕터를 공개하고자 한다. 과정에서 남긴 몇 가지 생각을 정리해본다.
유전체 AI의 원류
알파폴드가 노벨상을 받고, 다들 AI가 대세라고 떠들썩하다. 유전체 연구에선 AI가 어떻게 사용되는가?
2015년 전후로 Brendan Frey나 Olga Troyanskaya 교수팀이 DNA 서열을 이용하여 유전자 발현의 조절을 예측하는 CNN 기반의 딥러닝 모델들(DeepBind(Alipanahi et al. 2015, Nat Biotechnol), DeepSEA(Zhou & Troyanskaya 2015, Nat Methods) 등)을 발표했다. 아마 이 두 편의 논문을 제외하곤 한동안 연구가 없다가, 로버트 켈리 팀에서 Basenji(Kelley et al. 2018, Genome Res) 모델을 발표하고 데이터셋을 정형화하면서, 유전자 조절의 모델을 개발하고자 하는 뉴럴넷 모델들이 몇 가지 더 등장했다. 파운데이션으로 가기 전의 모델이다. 에피지놈 데이터도 상당히 축적되고, 한 2만 건 정도의 데이터를 정형화하면서 가능한 일이었다.
그런데 이보다 이전의 발전을 살펴볼 필요가 있다. 유전체 연구에서 AI의 등장은 사실 "유전변이의 해석"에 있다. 우리의 DNA 안에는 많은 유전변이가 있는데, 그 중 어떤 유전변이가 pathogenic한가?에 대한 예측이다.
가장 초기의 엑솜 유전체 연구 2편이 있다. Ng 교수가 발표한 Nature Genetics 논문과 서울대 최무림 교수님이 발표한 PNAS 논문이다. 두 논문은 공통적으로 염기서열의 진화적 보존성을 바탕으로 유전변이가 단백질 기능에 영향을 미친다고 예측을 했다. 그게 2010년 전후인데, 이때 단백질 서열의 진화적 보존성을 바탕으로 유전변이를 해석하는 여러 알고리즘(SIFT(Ng & Henikoff 2003, Nucleic Acids Res), PolyPhen(Adzhubei et al. 2010, Nat Methods), PROVEAN 등)이 많이 등장했다. 거의 20년이 지난 지금 생각해봐도 이 예측 모형들은 꽤 성공적이다.
그래서 당시에 이런 알고리즘을 수집하고, 에피지놈 데이터를 추가한 앙상블 방식의 머신러닝 알고리즘이 등장했다. 그게 2014년 Nature Genetics에 발표된 CADD(Kircher et al. 2014, Nat Genet) 점수이다. 이러한 인공지능 기반의 모델들은 유전변이의 서열을 바탕으로 변이가 병에 미치는 위험도를 측정했었다. 그러다 보니 같은 문제를 해결하고자 하는 다른 형태의 머신러닝, 딥러닝 기법을 적용한 방법들이 이후에 등장하기 시작했다. 유전체 인공지능 모델의 개발은 여기에서 하나의 원류를 찾을 수 있다.
Domain Specific Model에서 파운데이션 모델로
위에서 언급한 딥러닝 모델들은 CNN 기반이다. 이후에 약간 변주를 준 hybrid 모델(Enformer(Avsec et al. 2021, Nat Methods)) 같은 것이 등장했지만, 본질적으로 특정한 task - 해당 염기서열이 유전자 조절에 영향을 주는가? 유전변이가 어떤 조직/세포의 유전자 조절에 얼마나 영향을 주는가? - 정도를 예측하는 것이다. 나는 이것을 domain specific model이라고 분류한다. 우리도 이런 모델을 연구에 사용하긴 하지만, 모델 자체가 주는 결과가 특정되어 있고, 내가 연구하는 주제에 대해 아주 정교한 예측을 주는 것은 아니기에 활용하는 데 한계가 있다. 특히나 사용하는 에피지놈 데이터에 따라 성능이 달라지는데, 우리와 같이 초기 뇌발달을 연구하는 그룹이 사용할 수 있는 데이터를 포함하고 있지 않기에 어느 정도는 한계가 있었다.
이런 생각을 하던 게 2023년쯤이었다. 그런데 2024년에 판도가 많이 달라졌다. LLM 기반의 파운데이션 모델이 포괄적으로 유전체 및 단일세포 전사체 분야에 들어오기 시작했다. 24년부터 지금까지 다양한 아키텍처와 모델들이 쏟아지고 있다. 기존 CNN 방법들과 달리 LLM은 포괄적이다. 특정한 목적을 두고 모델이 개발되지 않는다. 그래서 각각을 내가 사용하고자 하는 연구에서 적용하고 비교해볼 필요가 있다. 그래서 이런 내용을 공부하고 정리하고자 3월부터 책을 쓰기 시작했다.
가상세포라는 흐름
다른 한 가지 흐름은 가상세포이다. 이 연구는 단일세포 전사체 기술에 근거한다. 개인적인 판단이지만, 단일세포 기술은 크게 두 가지로 귀결될 것이라 예상한다. 하나는 병리적 도구, 다른 하나는 가상세포이다.
가상세포는 집적된 단일세포 데이터를 바탕으로 만들어진 모델에서 시작된다. 싱글셀 연구 분야는 지난 2년 동안 아틀라스화 되었다. 수십 년간 쏟아진 데이터를 수집하여, 정제하고 통합한 아틀라스를 만들었다. 이런 아틀라스 데이터를 바탕으로 파운데이션 모델을 만든다. 그러면 유전자를 주었을 때, 그 유전자가 특정한 세포 타입이나 교란 조건에서 어떻게 작동하는지를 예측할 수 있다.
이런 모델을 이용하면 실험을 하지 않아도 유전자 혹은 유전자 네트워크를 특정 세포 수준에서 보는 것이 가능해진다. 그러나 궁극의 목표는 여러 상황에서의 실험 가능한 가설들을 파생하는 것에 있다.
AI 기반 생물학 연구의 새로운 루프
여기서 AI 기반 생물학 연구의 묘가 등장한다.
전통적으로 생물학 연구는 "관찰 → 가설설정 → 실험"을 통해 이뤄졌다. 그러나 AI가 도입되면서, "데이터 집적 → 모델 구축 → 예측을 통한 가설 파생 → 실험 검증 → (다시) 데이터 집적 → 모델 구축 → (무한 루프)"의 형태로 변화되고 있다. 데이터가 축적되는 것도 이러한 흐름에서 중요한 부분이고, high throughput 실험 기법이 등장하면서, 많은 숫자의 가설들을 검증해야 할 필요가 있는 것도 이런 흐름에 있다.
가령, 대규모 유전체 연구들이 이뤄지고, 하나의 질환에 연관된 유전자들이 수백 개씩 등장한다. 하나의 유전자를 검증해서 질환의 전체를 이해하기 어렵다. 이러한 양적 유전과 유전적 이질성을 어떤 식으로 검증하고 실험해야 하는가? 이런 질문이 생물학자들에게 주어진다. AI 모델은 이 부분에서 많은 도움을 줄 수 있다.
생물학과 학생들은 AI를 어떻게 배워야 하는가?
이 질문을 하면서 챕터를 작성하고 있다. 생물학 연구의 정수는 표현형이나 질환 발생의 기능적 인과 관계를 찾아내는 것에 있다. 그래서 관련 학습 자료는 각 유전체 요소에 따른, 혹은 유전체 연구 결과에 따른 메커니즘에 연결하여 설명한다.
일단 작성과 검수가 완료된 챕터들부터 공개하고, 이후에 추가적으로 업로드할 예정이다. 이로써 학부생부터 대학원 수업까지 다룰 수 있는 교과서가 어느 정도 정리되어 간다. 유전학 교과서(학부 2학년), 유전체학을 위한 기초 통계학(학부 2학년), AI를 이용한 유전체학(학부 3학년, 대학원), 그리고 첫 논문 작성하기(학부 4학년, 대학원)까지 총 네 권이다.