Research

Deep Learning to Understand Regulatory Pattern in Noncoding Genome

비암호화 유전체의 조절 패턴 이해를 위한 딥러닝

Our lab uses advanced deep learning techniques, including large language models (LLMs), to study noncoding regulatory mutations associated with autism and other neurodevelopmental disorders. We've developed the CWAS framework (Kim et al. 2024) to analyze whole genome sequencing data from autism families. Currently, we're integrating single-cell multiomics datasets from developing human brains to further refine our approach. By leveraging LLM-based deep learning models, we aim to systematically interpret noncoding mutations and their regulatory effects on neurodevelopment. Our research focuses on modeling complex interactions between genomic, epigenomic, and transcriptomic features to better predict functional consequences of noncoding variants. Through these efforts, we seek to enhance our understanding of neurodevelopmental risk and develop AI-driven tools for variant prioritization and mechanistic insights into autism and related disorders.

본 연구실은 대규모 언어 모델(LLM)을 포함한 첨단 딥러닝 기법을 활용하여 자폐 및 신경발달장애와 관련된 비암호화 조절 돌연변이를 연구합니다. 자폐 가족의 전장 유전체 서열 분석 데이터를 분석하기 위해 CWAS 프레임워크(Kim et al. 2024)를 개발하였습니다. 현재 발달 중인 인간 뇌의 단일세포 멀티오믹스 데이터셋을 통합하여 접근법을 고도화하고 있습니다. LLM 기반 딥러닝 모델을 활용하여 비암호화 돌연변이와 신경발달에 대한 조절 효과를 체계적으로 해석하고, 유전체·후성유전체·전사체 특성 간의 복잡한 상호작용을 모델링하여 비암호화 변이의 기능적 결과를 예측하는 것을 목표로 합니다. 이를 통해 신경발달 위험에 대한 이해를 높이고, 변이 우선순위 결정 및 자폐 관련 장애의 기전 규명을 위한 AI 기반 도구를 개발하고자 합니다.

CWAS framework

AI-Driven Virtual Cell to Risk Gene Discovery and Regulatory Interaction

AI 기반 가상 세포를 통한 위험 유전자 발굴 및 조절 상호작용 연구

Our research focuses on building a large-scale single-cell RNA sequencing atlas to comprehensively map cellular states and gene regulatory networks across various biological systems. By integrating LLM-based foundation models, we develop an AI-driven virtual cell (AIVC) that enables the discovery of novel risk genes and their functional interactions. Through this approach, we systematically identify core gene regulatory networks and predict disease-associated mechanisms, with applications in neurodevelopmental disorders and autism. The AIVC provides a computational framework for high-fidelity simulations, in silico experimentation, and hypothesis-driven validation, accelerating discoveries in both fundamental biology and precision medicine.

본 연구는 다양한 생물학적 시스템에서 세포 상태와 유전자 조절 네트워크를 포괄적으로 매핑하기 위한 대규모 단일세포 RNA 시퀀싱 아틀라스 구축에 중점을 둡니다. LLM 기반 파운데이션 모델을 통합하여 새로운 위험 유전자와 기능적 상호작용을 발굴하는 AI 기반 가상 세포(AIVC)를 개발하고 있습니다. 이를 통해 핵심 유전자 조절 네트워크를 체계적으로 식별하고 질환 관련 메커니즘을 예측하며, 신경발달장애 및 자폐 연구에 활용합니다. AIVC는 고정밀 시뮬레이션, 인실리코 실험, 가설 기반 검증을 위한 계산적 프레임워크를 제공하여 기초 생물학과 정밀의학 분야의 발견을 가속화합니다.

Virtual cell

Genetic Architecture of Autism

자폐의 유전적 구조

Our lab investigates the genetic architecture of autism with a particular focus on East Asian populations, leveraging long-read whole genome sequencing to uncover previously inaccessible genomic variations. Since establishing our research group at Korea University in 2019, we have concentrated on exploring the genetic architecture of autism in Korean families. Our investigations encompass a wide range of genetic factors, including common, rare, and de novo variants, which we are analyzing within one of the largest East Asian cohorts for autism. Notably, our research has recently revealed sex-specific patterns in genetic risk factors among Korean autism families, showing that these differences may influence phenotypic severity and familial patterns in autism (Kim et al. 2024, Genome Medicine). We are currently analyzing long-read sequencing data from Korean autism families to further investigate the impact of complex genomic variations, including large insertions, deletions, and repeat expansions.

본 연구실은 동아시아 인구집단에 초점을 맞추어 자폐의 유전적 구조를 연구하며, 롱리드 전장 유전체 시퀀싱을 활용하여 기존에 접근하기 어려웠던 유전체 변이를 발굴합니다. 2019년 고려대학교에 연구그룹을 설립한 이후, 한국 자폐 가족의 유전적 구조 탐구에 집중하고 있습니다. 흔한 변이, 희귀 변이, 신생 변이를 포함한 다양한 유전 인자를 동아시아 최대 규모의 자폐 코호트에서 분석하고 있습니다. 최근 연구에서는 한국 자폐 가족의 유전적 위험 인자에서 성별 특이적 패턴을 밝혀, 이러한 차이가 표현형 심각도와 가족 내 패턴에 영향을 미칠 수 있음을 확인하였습니다(Kim et al. 2024, Genome Medicine). 현재 한국 자폐 가족의 롱리드 시퀀싱 데이터를 분석하여 대형 삽입, 결실, 반복 서열 확장 등 복잡한 유전체 변이의 영향을 추가로 조사하고 있습니다.

Autism architecture

Integrative Multi-omics Approaches to Understand Complex Disorder

복합 질환 이해를 위한 통합 멀티오믹스 접근법

Our research focus is centered on exploring the extreme genetic heterogeneity that underlies complex human disorder. We have examined the hypothesis that multiple risk genes converge on a reduced number of crucial biological processes. We developed a computational prediction model to identify cohesive biological networks in autism (An et al. 2014). Further integration with in vitro functional characterization led to the identification of key pathways, including axonal guidance and the NRXN complex (Williams et al. 2018). We have integrated large-scale whole-genome sequencing and transcriptomics datasets of human post-mortem cortex across fetal to adult stages (Werling et al. 2020). Our lab has been developing analytical frameworks for multi-omics analysis of Korean lung cancer patients, including genomics, transcriptomics, proteomics, phospho-proteomics, and acetyl-proteomics, to characterize cancer subtypes and tumor microenvironment.

본 연구는 복합 인간 질환의 근간이 되는 극도의 유전적 이질성을 탐구하는 데 중점을 둡니다. 다수의 위험 유전자가 소수의 핵심 생물학적 과정으로 수렴한다는 가설을 검증하였습니다. 자폐에서 응집적 생물학적 네트워크를 식별하기 위한 계산 예측 모델을 개발하였고(An et al. 2014), 시험관 내 기능 분석과의 통합을 통해 축삭 유도 및 NRXN 복합체를 포함한 핵심 경로를 식별하였습니다(Williams et al. 2018). 태아기부터 성인기까지의 인간 사후 피질 대규모 전장 유전체 시퀀싱 및 전사체 데이터셋을 통합하였으며(Werling et al. 2020), 한국 폐암 환자의 유전체학, 전사체학, 단백질체학, 인산화 단백질체학, 아세틸화 단백질체학을 포함한 멀티오믹스 분석 프레임워크를 개발하여 암 아형과 종양 미세환경을 규명하고 있습니다.

Multi-omics