Karpathy의 LLM-Wiki와 에이전트 시대의 연구

2026-04-06

LLMRAGknowledge-managementagentic-AIbiology

내일 대학원 강의를 준비하면서 학생들에게 논문을 어떻게 읽고 정리해야 하는지, 그 연장선에서 RAG 시스템을 어떻게 쓰면 좋을지 설명하려고 자료를 정리하고 있었다. 간단한 RAG 파이프라인을 직접 짜 보면서 어떤 방식으로 문헌을 모으고 검색되도록 엮을지 이것저것 고민하던 중이었다. 마침 주말 사이에 Karpathy가 LLM-Wiki라는 아이디어를 공유했다. 또다시 그로 인해 이번 주말이 뜨겁게 달아올랐다.

몇 달 전만 해도 옵시디언을 활용한 RAG 구축이 꽤 주목받았다. 개인이 모은 논문, 노트, 코드를 임베딩하고 이를 토대로 LLM과 연결해 질문에 답하도록 짜는 방식은 분명 실용적이다. 이 흐름과 맞닿은 연구가 Nature에도 실리면서 하나의 방법론처럼 받아들여지는 분위기도 있었다. 직접 구현해 보면 확실히 편리하다. 필요한 정보를 빠르게 찾아오고 내가 쌓아둔 자료를 근거로 답을 지어준다는 점에서 충분히 쓸 만하다.

RAG의 한계

그런데 막상 만들어 써보면 딱히 유용하다는 느낌은 없다. 검색은 잘 되는데 내가 기대한 식으로 생각이 이어지지 않는다. RAG는 기본적으로 "관련 있는 자료를 잘 찾아오는 시스템"이다. 그런데 연구를 하다 보면 필요한 건 단순한 검색이 아니라, 자료들 사이의 관계를 읽고 맥락을 쌓아가며 나만의 기준으로 중요도를 가려내는 과정에 가깝다. RAG를 잘 하시는 분들은 이것도 된다고 말씀하신다. 다만 연구자에게 다른 점이 있다면 여러 지식과 질문을 어떻게 구조화하고 연결하는지가 저마다 개인화되어 있다.

연구자에게 이 차이는 생각보다 크다. 특히 박사까지 한 사람이라면 머릿속에 이미 오랜 시간 동안 빚어진 지식 구조가 있다. 어떤 논문이 중요한지, 어떤 결과가 어떤 맥락에서 의미를 가지는지, 무엇은 크게 중요하지 않은지까지 포함된 구조다. 그런데 RAG로 새 자료를 묶으면, 이 기존 구조와 매끄럽게 이어지기보다 따로 떠 있는 경우가 많다. 때로는 서로 어긋나거나 내가 중요하게 여기지 않는 정보가 앞에 계속 드러나기도 한다. 문제는 검색 성능이 아니라 지식이 어떤 구조로 정리돼 있느냐라는 생각이 들었다.

LLM-Wiki라는 다른 접근

LLM-Wiki는 자료를 잘 찾아주는 데서 출발하지 않는다. 자료를 읽고 정리하고 잇는 과정 자체를 LLM에 맡긴다. 논문이나 노트를 그냥 저장하지 않고 개념별 문서로 풀고 서로 연결하고 점점 하나의 위키로 엮어간다. 질문을 던질 때도 흩어진 자료를 다시 찾는 게 아니라, 이미 짜여 있는 구조 위에서 답을 짓는다. 질문과 답을 오가는 흐름은 인간이 이어간다. 주말 동안 적용해 보았는데 기존 RAG보다 훨씬 자연스럽게 느껴진 이유도 아마 여기에 있을 듯하다.

정보를 찾는 시스템 vs 지식을 만들어가는 시스템

이 차이는 "정보를 찾는 시스템"과 "지식을 만들어가는 시스템" 사이의 간극에 가깝다. 이 부분은 대학이나 대학원 교육과도 곧장 이어진다. 대학원 훈련은 단순히 논문을 많이 읽는 일이 아니라, 스스로 질문을 던지고 그 질문을 중심으로 문헌을 뒤지며 서로 다른 결과를 이어 사고 체계를 세우는 일이다. 정답이 있는 작업이 아니라, 각자의 질문과 경험에서 빚어지는, 개인 색채가 짙은 작업이다. 이런 관점에서 보면 LLM-Wiki 같은 방식은 흥미롭다. 학생들이 논문을 읽고 정리하는 과정을 반복하면서 그 결과가 단순한 노트로 남는 게 아니라 점점 지식 덩어리로 엮인다면 자기 사고 과정을 외부에서 다시 보고 다듬는 환경이 생긴다. 어쩌면 이런 방식에서 우리는 답을 찾을지도 모른다.

Karpathy 담화: 코딩에서 오케스트레이션으로

Karpathy의 담화가 유튜브에 올라왔다. 아마 이 글을 보는 많은 분들이 그가 개발한 autoresearch를 쓰면서 밤을 지새우고 있을 것이다. 나도 그러하다. Agentic kit이나 Claw가 나오면서 흥분된 나날을 보내고 있다. 그의 담화를 두고 떠오른 생각을 몇 가지 적어본다.

담화를 들으며 가장 먼저 든 생각은, 지금 바뀌는 건 인간이 개입하는 층위 자체라는 점이었다. 도구가 좋아지는 정도의 변화가 아니다. Karpathy는 이제 "코딩한다"는 말이 맞지 않는다고 한다. 대신 그는 하루 16시간 동안 에이전트들에게 자기 의지를 표현한다고 말한다. 이 표현이 흥미로웠다. 처음 들으면 약간 과장된 말처럼 들리지만 곱씹어 보면 정확하다. 이제 일은 목표를 정의하고 제약을 걸고 맥락을 심고 여러 에이전트를 병렬로 돌리고 결과를 평가해 방향을 다시 잡는 쪽으로 옮겨간다. 손으로 코드 한 줄을 직접 치는 것은 그 여러 작업 중 하나로 밀려난다.

그가 말한 manifesting은 신비주의적인 "끌어당김"과는 정반대다. 내가 원하는 결과를 현실에 불러내려고 의도를 다듬고 그것이 구현되는 루프를 설계하는 일에 가깝다. 결과물을 손으로 짜는 대신 그것이 만들어지도록 판을 짠다. 구현자가 감독자, 설계자, 편집자, 오케스트레이터로 옮겨가는 장면을 그는 아주 선명하게 보여줬다.

소프트웨어에서는 이미 현실

소프트웨어 쪽에서는 이 변화가 이미 꽤 뚜렷하다. Karpathy는 혼자 코드 한 줄씩 치는 대신, 여러 에이전트에게 기능 단위, 리서치 단위, 계획 단위로 일을 위임한다고 이야기한다. 한 에이전트는 코드를 쓰고 다른 에이전트는 리서치를 하고 또 다른 에이전트는 구현 계획을 세운다. 인간은 그 사이를 오가며 방향을 잡고 품질을 보고, 충돌하지 않게 조율한다. 더 나아가 그는 자기 자신을 루프에서 빼내는 쪽, 즉 한 번 세팅한 뒤 오랫동안 자율적으로 돌아가는 구조를 지향한다. 여기서 바뀌는 것은 작업 몇 개를 자동화하는 수준을 넘어 연구와 생산의 판 자체다.

그렇다면 생물학 연구는?

생물학 연구에서 내가 오래 느껴온 문제는, 모든 주제가 이런 루프 안으로 들어오지는 않는다는 것이다. 루프 안에 들어오지 못하는 주제는 throughput이 생기지 않아서 확장이 어렵다. 가설을 내고 실험을 하고 측정하고 판정하고 다음 가설로 넘어가는 루프가 깔끔하게 닫히지 않으면, 그 연구는 결국 사람의 감각과 암묵지, 기다림과 해석의 모호함에 묶인다. 생물학은 특히 그렇다. 측정이 느리고 비싸며 판정 함수가 흐리고 샘플 준비에 암묵지가 많고 실패가 구조화된 데이터로 남지 않는 경우가 많다. 그래서 소프트웨어에서 돌아가는 "에이전트 루프"가 생물학에서는 쉽게 닫히지 않는다.

이 차이의 무게는 앞으로 더 커진다고 본다. 앞으로 확장되는 연구는 단지 중요한 주제가 아니라, 루프로 옮겨지는 중요한 주제일 가능성이 크다. 좋은 아이디어 자체보다, 그 아이디어를 반복 가능한 실험-판정 루프로 옮기는 힘이 더 중요해진다.

에이전트 시대의 확인편향

High-throughput 기술을 쓰면서도 데이터가 가설을 수정하게 두지 못하고 원하는 결과가 나올 때까지 분석 조건을 바꿔가는 접근은 예전에도 있었다. 에이전트 시대에는 이 문제가 훨씬 커진다. 에이전트가 있으면 확인편향이 곧 목적함수가 되어버리기 때문이다. 특정 결과를 목표로 주면 시스템은 코호트를 바꾸고 공변량을 바꾸고 배치 보정을 바꾸고 subgroup을 자르고 pathway 수준으로 우회하면서 무한히 탐색한다. 확인편향이 자동화되고 병렬화되는 셈이다.

이번 담화에서 가장 크게 남은 것은 분석 역량의 총량보다 증거를 다루는 규율이었다. 에이전트 시대에는 무엇을 돌려도 되고 무엇은 안 되는지를 먼저 잠가야 한다. 더 많이 돌리는 일이 답이 아니다. 질문을 미리 정의하고 성공 기준과 반증 기준을 정하고 발견용 분석과 확인용 분석을 분리하고 모든 탐색 경로를 provenance로 남기고 마지막에는 독립 데이터나 perturbation, 다른 층위의 증거로 결론을 닫아야 한다.

루프 안으로 들어오는 연구, 바깥에 남는 연구

생물학의 패러다임도 바뀔 수 있다. 논문에 들어갈 한 장의 결과가 아니라, 지속적으로 도는 실험-판정 루프가 연구의 기본 단위가 되는 쪽으로. 강한 연구실은 더 똑똑한 해석을 하는 곳이 아니라, 가설-실험-측정-판정 루프를 빠르고 엄격하게 설계하는 곳이 된다.

이런 변화가 생물학 전체에 균일하게 오지는 않는다. perturbation을 표준화할 수 있고 phenotype을 측정할 수 있고 assay를 자동화할 수 있고 surrogate metric을 설계할 수 있는 분야가 먼저 흡수한다. 반대로 판정이 모호하고 물리적 준비 과정의 암묵지가 큰 분야는 훨씬 천천히 움직인다.

Karpathy의 담화를 들으며 내가 느낀 건 낙관도 비관도 아니었다. 오히려 질문이 날카로워졌다는 쪽에 가깝다. 이제 나는 "어떤 일이 루프 안으로 들어오고 어떤 일은 끝내 루프 바깥에 남느냐"를 묻는다. 생물학에서 중요한 문제는 그 경계선 위에 많이 놓여 있다.

앞으로 연구자는 두 가지를 동시에 해야 한다. 하나는 자기 분야에서 정말 중요한 질문을 스스로 정하는 일, 다른 하나는 그 질문을 기계가 돌릴 수 있는 루프로 번역하는 일이다. 질문을 정하는 일은 여전히 인간의 영역이고 루프로 번역하는 일은 앞으로 점점 더 결정적인 경쟁력이 된다. 미래의 강한 연구는 좋은 아이디어만으로 나오지 않고 그 아이디어를 출현하는 루프로 옮기는 데서 나온다.