초지능으로는 달에 갈 수 없는 이유. 그리고 미국의 바이오가 달에 가는 방법.

2026-06-02

perturbationvirtual-cellfoundation-modelomnigenicsingle-celldrug-discovery

오늘 제넨텍·로슈(Genentech/Roche) 쪽에서 Regev 팀이 발표한 섭동 연구 preprint에 대하여

섭동이란 무엇인가?

섭동(perturbation)은 말 그대로 세포를 흔들어 보는 실험이다. 특정 유전자를 일부러 끄거나(CRISPR knockout, CRISPRi) 켜고(CRISPRa), 혹은 약물을 던져 넣은 다음, 그 세포의 전사체(transcriptome) 전체가 어떻게 움직이는지를 단일세포 해상도로 읽는다. 2016년 Dixit과 Adamson 등이 (Regev 그룹이 핵심) Perturb-seq을 고안했고, 이 분야의 패러다임을 열었다. 핵심 기술은 매우 간단한데... 각 세포에 들어간 guide RNA의 바코드를 전사체와 함께 읽어, "이 세포에는 어떤 유전자 조작이 가해졌는가"와 "그 결과 세포 상태가 어떻게 바뀌었는가"를 한 번에 연결한다. 그 시기쯤에 단일세포 전사체 기술도 등장하고, NGS에서 바코드를 넣어 합성생물학 방식으로 이리저리 하는 기술들이 많이 등장했다.

그런데 이런 방식에는 괴리가 있었다. 합성생물학으로 유전자를 끄거나 켜는 방식은 효율이 증가했지만, 유전자 전체를 보는 것에는 한계가 있었다. 세포나 조직 내에 발생하는 자연적인 층위를 읽을 수는 없었다. 유전자 가위로 합성생물학을 하는 사람들은 기술을 고도화시켰고, 이 기술을 사용하는 기전생물학 연구자들은 이것을 도입하였으나, 이 두 분야의 사람들 사이에는 상당한 괴리가 있었다 (특히 한국에선 이 괴리가 여전히 크다고 본다).

아무튼 섭동의 결과는 "A 유전자를 껐더니 B가 올라갔다" 같은 단선적 신호가 아니다. 약 2만 개 유전자의 발현이 동시에, 분포 수준으로 이동한다. 세포의 상태 전체가 한 점에서 다른 점으로 옮겨가는 것이다. 그래서 섭동 데이터는 "유전자 하나의 on/off"가 아니라 "세포 상태 공간에서의 이동 벡터"를 측정한다.

이게 왜 인공지능의 재료가 되는가. 조합이 천문학적이기 때문이다. 사람 세포는 약 2만 개 유전자를 발현한다. 유전자 쌍만 약 2억 개, 삼중 조합은 약 1.3조 개, 사중 조합은 6×10¹⁵ 개다. 이 공간을 전부 실험으로 측정하는 건 불가능하다. 그래서 일부를 측정하고, 나머지를 예측해야 한다(Rood et al., 2024). 측정에서 예측으로 넘어가는 바로 그 지점이 AI가 들어갈 자리다. 섭동 데이터는 표준화돼 있고, 기계가 읽을 수 있고, 대규모로 찍어낼 수 있다. 대형 제약회사가 이걸 AI의 사료(飼料)로 생산하는 이유가 여기에 있다.

섭동 연구가 나온 배경은 무엇인가? 답은 양적유전

이런 데이터를 굳이 만드는 진짜 이유는 인간 질병은 양적유전(polygenic)을 따르기 때문이다. 질병을 제어하는 것은 어떤 유전자 하나의 스위치가 아니라, 양적인 유전자 발현의 총합이다. 복잡계가 아주 미세한 수준에서 조정되고, 그 미세 조정들이 누적돼 표현형이 된다.

하나의 예시를 들어보자.

단일세포 데이터를 보는 사람들은 알겠지만, 세포 내의 유전자 발현량은 곧 표현형을 의미한다. 어떤 유전자 발현은 단백질의 양이고, 그 단백질은 세포의 기능을 규정한다. 그런데 여기에는 해석하기 어려운 게 있다. 가령 인간의 뇌에서 시냅스 유전자의 발현량을 보면, 유전자의 발현량은 임신 중기쯤에 전두엽에서 발현량이 높아지기 시작하고, 태어나고 나면, 그 발현량은 높은 채로 유지된다. 수학적인 관점에서 보자면, 그 이후론 발현량에 더 이상 변화가 일어나지 않기 때문에, 이 유전자의 발현량을 가지고 생물학적 기전을 해석하기 어렵다.

다시 말해서, 성체가 된 이후의 유전자 발현은 10~20% (혹은 그보다 적은 수준)의 조절에 의해 기능의 성패가 좌우된다고 할 수 있다. 따라서 질환에서 유전자 치료나, 제어 기술을 개발하기 위해선, 이와 같은 미세한 차이를 조정할 필요가 있다. 그리고 이러한 "미세한 차이" 역시 양적 유전으로 설명할 수 있다.

이 직관을 이론으로 제안한 논문이 Boyle, Li, Pritchard의 omnigenic model(Cell 2017)이다. 이들의 논점은 두 가지 관찰에서 출발한다. 첫째, 복잡질환의 GWAS 신호는 특정 "질병 경로" 유전자에 모이지 않고 유전체 거의 전역에 퍼진다. 둘째, 질병 관련 세포의 발현조절 변이(eQTL)에서 나오는 유전율(heritability)은 1.5~3배 수준으로, 한 줌의 경로 유전자에 집중돼 있지 않다. 결론은 이렇다. 유전자 조절 네트워크가 너무 촘촘히 얽혀 있어서, 질병 관련 세포에서 발현되는 거의 모든 유전자가 소수의 "핵심(core) 유전자"에 미세한 영향을 흘려보낸다. 직접 작용하는 core 유전자는 소수이고, 네트워크를 통해 간접적으로 기여하는 "주변부(peripheral) 유전자"가 대부분의 유전율을 짊어진다.

지난 몇 년간 많은 연구가 되었으니 숫자로도 이야기가 가능하다. 키는 약 10만 개, 조현병은 약 1~3만 개, 자폐도 대략 1만 개 수준의 인과 변이가 형질에 기여하는 것으로 추정된다. 그리고 사람 한 명이 갖는 유전변이는 수백만 개다. 표현형은 이 수백만 개의 미세 효과가 네트워크를 거쳐 합산된 결과다. 이걸 총체적으로 예측하려면, 세포의 상태가 "여기 발현을 조금 밀고 저기를 조금 당겼을 때" 어떻게 반응하는지를 알아야 한다. 즉, 양적유전이 말하는 "미세 조절 효과의 총합"을 실증적으로 측정한 것이 바로 섭동 데이터다.

세 가지가 따로 놀면 아무 의미가 없다는 점이 중요하다. 양적유전 이론은 질병이 미세한 조절 효과의 망적 총합에 있다고 말하고, 섭동 데이터는 바로 그 미세 조절 효과를 대규모로 측정하며, AI 모델은 그 측정에서 "섭동→세포 상태"의 사상(map)을 학습한다. 이 셋을 묶으면 전체적인 생체 내의 그림이 완성된다.

Pritchard와 핵심 모듈 — 이론의 축이 산업으로 들어오기 시작함

Pritchard는 2017년 omnigenic model을 Cell에 내놓은 뒤, 최근 25~26년에도 이 작업을 네이처에 이어가며 core 유전자·모듈의 윤곽을 더 또렷하게 만들고 있다. 양적유전에서 핵심 모듈이 왜 중요한가를 계속 밀고 나가는 것이다.

오늘 올라온 preprint에서 인상적이었던 건, 교신저자로 스탠퍼드 교수가 올라 있고 연구진이 Pritchard를 끌어들였다는 점이다. 대기업 연구에 양적유전의 대가를 끌어다 함께 연구한다. 이게 우연이 아니다. 수백억을 들여 섭동 데이터를 찍어내는 일을 정당화하는 이론적 근거가 바로 양적유전이기 때문이다. 만약 질병이 단일유전자 스위치였다면 이런 데이터는 필요 없다. 표적 유전자 하나 찾아서 끄면 된다. 그러나 질병이 omnigenic하고 양적이기 때문에, 네트워크 전체의 반응을 측정하지 않으면 안 된다. Pritchard는 "왜 이걸 해야 하는가"의 이론이고, 섭동 데이터와 foundation model은 그 이론을 돌리는 실증 엔진이다. 제약회사가 스탠퍼드의 양적유전학자를 중심 공저자로 앉혔다는 사실은, 그들이 자기가 왜 이 돈을 쓰는지 정확히 알고 있다는 뜻이다.

섭동 데이터를 찍어내는 경쟁 — 26년의 동향. 진짜 달에 가기 위한 치열한 경쟁..

지금도 섭동 연구는 쏟아진다. 몇 달만 지나면 이 주제로 도배된 가상세포 연구들이 더 쏟아질 것이다. 방향을 가장 또렷하게 제시한 건 Rood, Hupalowska, Regev의 2024년 비전, Perturbation Cell and Tissue Atlas다. 다양한 세포·조직·발생단계·질병 맥락을 가로질러 pooled 섭동 스크린을 대규모로 모으고, 유전자 회로의 모듈성을 이용한 "압축 스크린"으로 효율을 높이고, 광학 기반 pooled screen으로 형태·공간 정보까지 더한 뒤, 그 위에 섭동 데이터로 학습한 foundation model을 올린다는 설계다.

25~26년의 흐름은 이 설계가 실제 모델로 구현되는 과정이다. Tahoe-x1(Gandhi et al., 2025)은 50개 암세포주 × 1,100여 종 약물에서 나온 1억 개 세포(Tahoe-100M)로 학습한 30억 파라미터 규모의 섭동 특화 foundation model이다. 약물을 토큰으로 집어넣어 유전자·세포·화합물 표현을 함께 학습한다. Arc Institute의 State(Adduri et al., 2025)는 1.7억 개 세포에 더해 70개 세포주에서 나온 1억 개 이상의 섭동 세포로 학습한다. Recursion/Valence의 TxPert(2026)는 여러 생물학적 그래프를 융합해, 학습에서 보지 못한 단일 유전자 섭동에서 실험 재현성(split-half reproducibility) 수준에 처음으로 근접했다. 이게 지금 벌어지는 일이고, 스케일이다. 천문학적인 돈이 들어간다....

그리고 이 흐름이 "유행 따라가는 데모"가 아니라 진짜 과학인 이유는, 벤치마크가 계속 모델을 깨기 때문이다. 네 개의 Perturb-seq 데이터셋에서 단순한 베이스라인이 scGPT, scFoundation 같은 거대 모델을 능가한다는 결과가 나왔고(Csendes et al., 2025), 현재의 모델들이 인과(causal)가 아니라 상관(correlational)만 학습한다는 비판이 정리됐으며(Tejada-Lapuerta et al., 2025), AIVC 모델을 채점하는 지표(MAE·상관계수)가 정작 과학적 유용성을 재지 못한다는 지적도 나왔다(Bereket & Leskovec, 2026, 스탠퍼드). 분야가 스스로와 치열하게 싸운다. 그 싸움 자체가 일이다. 데모를 한 번 돌리고 자축하는 것과는 정반대다.

Roche는 2년 전 IR에서 이미 이 전략을 말했다. 내가 기억하기로 이런 프로젝트는 약 4년 전부터 시작했다. 오늘 나온 preprint는 그 위에 쌓인 또 하나의 벽돌일 뿐이다. 자유롭게 이 주제에 투자하는 미국 바이오 대기업들의 혜안이 대단하다는 말이, 나는 빈말이 아니라고 생각한다.

섭동연구로 만드는 가상세포 — 약물 개발에서 개인 맞춤 진단까지

이 모든 게 향하는 종착지는 가상세포(virtual cell)다. 가상세포라는 개념 자체는 20년이 넘었다. 1세대는 반응-확산 방정식과 ODE로 세포를 시뮬레이션하던 기계론적 모델이었다. 2012년 Karr 등의 M. genitalium 전세포 모델이 그 정점이었는데, 525개 유전자조차 동역학 파라미터가 모자라 근연종 값으로 메워야 했다. 진핵세포로 가면 조합 폭발로 무너진다. 이 막다른 길이 2세대, 즉 데이터 중심 접근을 불렀다. Human Cell Atlas(2017~), HuBMAP, GTEx 같은 대규모 아틀라스가 세포의 상태 공간을 전례 없는 규모로 측정했다. 다만 측정은 예측이 아니다. 데이터가 쌓이자 그걸 학습해 세포의 거동을 예측할 AI가 필요해졌다.

그게 3세대, AI 가상세포(AI Virtual Cell, AIVC)다. Bunne 등(2024)의 로드맵은 두 추상을 제시한다. 분자·세포·조직을 하나의 잠재공간에 매핑하는 보편표현(Universal Representation)과, 그 위에서 작동하는 가상기기(Virtual Instrument)다. 핵심은 Manipulator — "현재 세포 상태 + 섭동 프롬프트 → 새로운 세포 상태"를 학습하는 도구다. 즉 섭동 예측 능력이 AIVC를 이전 세대와 구분 짓는 정의적 능력이다.

당장의 응용은 약물 개발이다. 표적과 화합물을 in silico로 선별하고, 약물 반응과 독성(예: 약물 유발 간손상)을 미리 예측해 wet-lab 부담을 줄인다. Tahoe처럼 약물을 토큰으로 다루는 모델은 화합물을 일급 시민으로 취급해, 어떤 약이 어떤 세포 상태 변화를 일으키는지를 직접 학습한다.

그러나 내 판단엔 궁극적인 최종 목적지가 있다고 본다. 개인의 유전형과 세포 상태에 조건화된 가상세포는 곧 그 사람의 디지털 트윈이다. "이 환자의 세포가 이 섭동에 어떻게 반응하는가"를 예측할 수 있게 되면, 개인 맞춤 진단과 치료 선택으로 간다. Nature Biotechnology의 최근 사설과 디지털 트윈 논문들이 가리키는 방향이 이쪽이고, HCA 2024 로드맵은 이미 "개인화된 디지털 트윈"의 프라이버시 문제를 걱정하고 있다. 즉 지금은 약물 개발이지만, 앞으로는 개인 맞춤 진단까지 간다.

바이오에서 초지능 RAG도 에이전트가 답이 아닌 이유

바이오 연구에서 인과성은 가장 어려운 문제라는 것. 그리고 또 한 가지는 인과성을 알더라도, 그 인과성에 대한 측정이 표준화되어 있지 않다는 점이다. 그래서 정제된 데이터가 없이, 초지능으로 생물학적 분포를 보는 것은 어렵다.

표면의 인터페이스 층이 있다. 문헌 위에 얹은 LLM과 RAG다. RAG는 논문·지식베이스에서 관련 문서를 검색해 언어모델의 답을 거기에 근거시키는 틀이다. 거기서 한 걸음 더 나간 게 "AI 동료과학자(AI co-scientist)"다. Nature Methods의 2026년 사설 "What's your hypothesis?"가 든 예시처럼, LLM 에이전트가 문헌을 읽고 가설을 빠르게 생성·순위화한다(cf-PICI 사례). 유용하다. 사람이 물리적으로 검증할 수 있는 것보다 훨씬 빠르게 후보를 넓힌다. 하지만 그 사설조차 분명히 못 박는다 — 이건 후보 확장(candidate expansion)이고, 생물학적 타당성 검토와 wet-lab 검증을 거쳐야 하며, AI에는 체화된 실험 관찰이 없다. 무엇보다 이 층은 사람이 이미 써 놓은 텍스트를 재배열한다.

이러한 이유로 인과성을 내포하는 거대하고 표준화된 섭동 측정값으로부터, 인공지능 모델이 직접 학습을 한다. 어떤 논문에도 적혀 있지 않은 세포 상태 반응의 양적 구조를 데이터에서 발견한다. 이건 텍스트를 다시 내놓는 게 아니라, 데이터에서 새로운 생물학을 학습하는 일이다. Rao 등(2026)의 generalist biological AI 리뷰가 정리하듯, 진짜 문제는 모델 규모가 곧 생물학적 유용성으로 이어지지 않는다는 것, 상관이 아니라 인과를 잡았는가, 집단 평균이 아니라 개인 수준에서 작동하는가다. 이 엄밀함이 챗봇 데모와 정반대다. AI를 "개발한다"는 말의 무게가 여기에 있다.

그러니 누군가 "바이오 AI"를 "가설을 뱉어내는 LLM"과 동일시한다면, 그는 건물의 로비를 보고 건물 전체를 설명하는 셈이다. 단순한 RAG나 LLM이 AI 개발의 본체가 아니다. 본체는 표준 데이터 + foundation model + 가상세포 스택이다.

우리나라 바이오는 어디에 있나

우리나라 바이오에선 문헌 기반 가설 생성이니 AI 동료과학자니 하는, 방금 말한 표면 층을 판다. 낮은 수준의 접근이다. 그런 창업 기업이 우리를 달에 데려간다고 자축한다. 미안하지만, 이 수준으로는 미국이나 중국을 절대 못 쫓아간다. 그리고 격차의 수준을 체감할 때쯤이면 이미 늦었을 것이다.

미국·중국이 쌓는 스택은 세 가지를 요구한다. 우리는 셋 다 구조적으로 비어 있다.

첫째, 자유롭게 흐르는 유전체·바이오뱅크 데이터. 한국은 유전체 데이터에 자유롭게 접근하는 것조차 안 된다. 사료가 될 기반 자체를 모으지 못한다.

둘째, 비싼 표준 섭동 데이터 공장을 감당할 기관과 자본. 섭동 데이터를 생산하는 국내 대기업이 없다. Roche는 몇 년 전 IR에서 이미 계획을 밝혔지만, 여기서 그걸 하는 곳은 없다.

셋째, 양적유전과 표준화된 데이터와 foundation model의 연결을 이해하는 사람. 한국에서는 이 연결에 대한 이해를 바라는 것조차 어렵다.

기반도, 데이터 공장도, 이해도 없으니, 산업계가 신약 개발에서 이 주제를 다루는 것 자체가 어렵다. 그래서 우리는 싸고 눈에 띄는 것 — LLM 데모 — 으로 도망치고, 그걸 혁신이라 부른다. 문제는 이 격차가 모델 하나 내려받아 따라잡을 수 있는 종류가 아니라는 점이다. 이건 데이터 인프라, 자본 배분, 기관의 이해가 몇 년에 걸쳐 쌓여 만들어진 격차다.

미국은 아이디어로 — omnigenic 이론, 가상세포 로드맵, 데이터를 연료로 보는 전략으로 — 판을 짜고 데이터에 돈을 댄다. 중국은 값싼 인건비로 데이터를 대량으로 찍는다. 둘 다 섭동 → 가상세포 스택을 규모로 쌓고 있다. 한국은 아이디어의 주도권도, 데이터 공장도 없고, 가진 유전체 데이터마저 잠가 둔다.

미국은 아이디어로, 중국은 값싼 인건비로 데이터를 찍어내는 중.. 우리는 어디로 가야 하나?