Karpathy의 LLM-Wiki와 에이전트 시대의 연구
2026-04-06
내일 대학원 강의를 준비하면서, 학생들에게 논문을 어떻게 읽고 정리해야 하는지, 그리고 그 연장선에서 RAG 시스템을 어떻게 활용할 수 있는지를 설명하려고 자료를 정리하고 있었다. 실제로 간단한 RAG 파이프라인을 직접 만들어 보면서, 어떤 방식으로 문헌을 수집하고 검색 가능한 형태로 구성할지 여러 가지를 고민하던 중이었다. 그런데 마침 주말 사이에 Karpathy가 LLM-Wiki라는 아이디어를 공유했다. 또다시 그로 인해 이번 주말을 뜨겁게 달아올랐다.
불과 몇 달 전만 해도 옵시디언을 활용한 RAG 구축이 꽤 주목을 받았다. 개인이 모은 논문, 노트, 코드 등을 임베딩하고, 이를 기반으로 LLM과 연결해 질문에 답하도록 만드는 방식은 분명 실용적이다. 실제로 이런 흐름과 맞닿아 있는 연구가 Nature에도 실리면서, 하나의 방법론처럼 받아들여지는 분위기도 있었다. 직접 구현해 보면 확실히 편리하다. 필요한 정보를 빠르게 찾아오고, 내가 축적한 자료를 기반으로 답을 생성해준다는 점에서 충분히 쓸 만한 도구다.
RAG의 한계
하지만 막상 만들어서 써보면 딱히 유용한 느낌을 받지 못한다. 검색은 잘 되는데, 내가 기대하는 방식으로 생각이 이어지지 않는다. RAG는 기본적으로 "관련 있는 자료를 잘 찾아오는 시스템"이다. 그런데 연구를 하다 보면 필요한 것은 단순한 검색이 아니라, 자료들 사이의 관계를 이해하고, 맥락을 만들어가며, 나만의 기준으로 중요도를 정리하는 과정에 가깝다. RAG를 잘 하시는 분들은 이게 가능하다고 말하긴 한다. 그런데 연구를 하는 사람에게 다른 점이 있다면, 여러 지식들과 질문들 간의 구조화와 연결이 개인화되어 있다는 점이다.
연구하는 사람들에게 이 차이는 생각보다 크다. 연구자는, 특히 박사까지 한 사람이라면, 그의 머릿속에는 이미 오랜 시간에 걸쳐 형성된 지식 구조가 있다. 어떤 논문이 중요한지, 어떤 결과가 어떤 맥락에서 의미를 가지는지, 그리고 무엇은 크게 중요하지 않은지까지 포함된 구조다. 그런데 RAG로 새로운 자료를 묶으면, 이 기존 구조와 자연스럽게 이어지기보다는 별도의 층위로 존재하는 경우가 많다. 때로는 서로 어긋나거나, 내가 중요하게 생각하지 않는 정보가 계속 앞에 드러나기도 한다. 결국 문제는 검색의 성능이 아니라 지식이 어떤 구조로 정리되어 있느냐에 있다는 생각이 들었다.
LLM-Wiki라는 다른 접근
이 지점에서 LLM-Wiki 방식은 다르다. 이 접근은 자료를 잘 찾아주는 데 초점을 두기보다, 자료를 읽고 정리하고 연결하는 과정 자체를 LLM에 맡긴다. 논문이나 노트를 단순히 저장하는 것이 아니라, 개념별 문서로 풀고, 서로 연결하고, 점점 하나의 위키 형태로 만들어간다. 질문을 던질 때도 흩어진 자료를 다시 찾는 것이 아니라, 이미 형성된 구조 위에서 답을 만들어낸다. 질문하고 답을 하는 과정은 인간이 흐름을 만들어간다. 주말 동안 적용해 보았는데, 기존 RAG보다 훨씬 자연스럽게 느껴졌던 이유도 아마 이 때문일 것이다.
정보를 찾는 시스템 vs 지식을 만들어가는 시스템
결국 이 차이는 "정보를 찾는 시스템"과 "지식을 만들어가는 시스템" 사이의 차이에 가깝다. 그리고 이 부분은 대학이나 대학원 교육과도 직접적으로 연결된다. 대학원에서의 훈련은 단순히 논문을 많이 읽는 것이 아니라, 스스로 질문을 만들고, 그 질문을 중심으로 문헌을 탐색하며, 서로 다른 결과를 연결해 나가는 사고 체계를 만드는 데 있다. 이 과정은 정답이 있는 작업이 아니라, 각자의 질문과 경험을 바탕으로 형성되는 매우 개인적인 작업이다. 이런 관점에서 보면, LLM-Wiki와 같은 방식은 상당히 흥미롭다. 학생들이 논문을 읽고 정리하는 과정을 반복하면서, 그 결과가 단순한 노트로 남는 것이 아니라 점점 구조화된 지식으로 축적된다면, 자신의 사고 과정을 외부에서 다시 보고 다듬을 수 있는 환경이 만들어진다. 어쩌면 이런 방식에서 우리는 답을 찾을지도 모른다.
Karpathy 담화: 코딩에서 오케스트레이션으로
Karpathy의 담화가 유튜브에 올라왔다. 아마도 이 글을 보는 많은 분들이 그가 개발한 autoresearch를 쓰면서 밤을 지새울 것이다. 나도 그러하다. Agentic kit이나 Claw가 나오면서, 정말 흥분된 나날을 보내고 있다. 그의 담화에 대한 몇 가지 생각을 정리해본다.
이 담화를 들으면서 가장 먼저 든 생각은, 지금 바뀌고 있는 건 단순히 도구가 아니라 인간이 개입하는 층위 자체라는 점이었다. Karpathy는 이제 더 이상 "코딩한다"는 말이 맞지 않는다고 말한다. 대신 그는 하루 16시간 동안 에이전트들에게 자기 의지를 표현한다고 말한다. 이 표현이 흥미로웠다. 처음 들으면 약간 과장된 말처럼 들리지만, 곱씹어 보면 정확하다. 이제 중요한 건 손으로 직접 구현하는 능력 하나가 아니라, 목표를 정의하고, 제약을 설정하고, 맥락을 심고, 여러 에이전트를 병렬로 돌리고, 그 결과를 평가하고 다시 방향을 조정하는 능력이다.
그가 말한 manifesting은 신비주의적인 "끌어당김"이 아니다. 오히려 정반대다. 내가 원하는 결과를 현실에 출현시키기 위해 의도를 구조화하고, 그것이 구현될 수 있는 루프를 설계하는 일에 가깝다. 직접 만드는 것보다, 만들어지게 하는 것이다. 구현자가 감독자, 설계자, 편집자, 오케스트레이터로 이동하는 장면을 그는 아주 선명하게 보여줬다.
소프트웨어에서는 이미 현실
이 변화는 소프트웨어에서는 이미 꽤 현실이 된 것처럼 보인다. Karpathy는 혼자 코드 한 줄씩 치는 대신 여러 에이전트에게 기능 단위, 리서치 단위, 계획 단위로 일을 위임하는 이야기를 한다. 한 에이전트는 코드를 쓰고, 다른 에이전트는 리서치를 하고, 또 다른 에이전트는 구현 계획을 세운다. 인간은 그 사이를 오가며 방향을 잡고, 품질을 보고, 충돌하지 않게 조정한다. 더 나아가 그는 자기 자신을 루프에서 빼내는 방향, 즉 한 번 세팅한 뒤 오랫동안 자율적으로 돌아가는 구조를 지향한다. 이건 단순한 자동화가 아니라 연구와 생산의 기본 인터페이스가 바뀌는 일처럼 보였다.
그렇다면 생물학 연구는?
생물학 연구에서 내가 오래 느껴온 문제는, 모든 주제가 이런 루프 안에 들어오지는 않는다는 점이다. 루프 안에 들어오지 못하는 주제는 확장되기 어렵다. Throughput이 생기지 않기 때문이다. 가설을 내고, 실험을 하고, 측정하고, 판정하고, 다음 가설로 넘어가는 루프가 깔끔하게 닫히지 않으면, 그 연구는 결국 사람의 감각과 암묵지, 기다림과 해석의 모호함에 묶인다. 생물학은 특히 그렇다. 측정이 느리고 비싸고, 판정 함수가 흐리고, 샘플 준비에 암묵지가 많고, 실패가 구조화된 데이터로 남지 않는 경우가 많다. 그래서 소프트웨어에서 가능한 "에이전트 루프"가 생물학에서는 쉽게 닫히지 않는다.
이 차이는 앞으로 더 중요해질 거라고 생각한다. 앞으로 확장되는 연구는 단지 중요한 주제가 아니라, 루프화될 수 있는 중요한 주제일 가능성이 크다. 좋은 아이디어 자체보다, 그 아이디어를 반복 가능한 실험-판정 루프로 번역하는 능력이 더 중요해질 수 있다.
에이전트 시대의 확인편향
이 맥락에서 한 가지 더 생각해볼 것이 있다. High-throughput 기술을 쓰면서도 데이터가 가설을 수정하게 두지 못하고, 원하는 결과가 나올 때까지 분석 조건을 바꿔가는 접근은 예전에도 있었다. 하지만 에이전트 시대에는 이 문제가 훨씬 커진다. 에이전트가 있으면 확인편향이 곧 목적함수가 될 수 있기 때문이다. 특정 결과를 목표로 주면 시스템은 코호트를 바꾸고, 공변량을 바꾸고, 배치 보정을 바꾸고, subgroup을 자르고, pathway 수준으로 우회하는 방식으로 무한히 탐색할 수 있다. 확인편향이 자동화되고 병렬화되는 셈이다.
그래서 내가 이번 담화에서 가장 크게 느낀 건, 앞으로 중요한 것은 분석 능력의 총량이 아니라 증거를 다루는 규율이라는 점이다. 에이전트 시대에 필요한 것은 "더 많이 돌리는 능력"이 아니라, 무엇을 돌려도 되고 무엇은 안 되는지를 먼저 잠그는 능력이다. 질문을 미리 정의하고, 성공 기준과 반증 기준을 정하고, 발견용 분석과 확인용 분석을 분리하고, 모든 탐색 경로를 provenance로 남기고, 마지막에는 독립 데이터나 perturbation, 다른 층위의 증거로 결론을 닫아야 한다.
루프 안으로 들어오는 연구, 바깥에 남는 연구
나는 생물학의 패러다임도 여기서 바뀔 수 있다고 본다. 논문에 들어갈 한 장의 결과가 아니라, 지속적으로 도는 실험-판정 루프가 연구의 기본 단위가 되는 방향으로 말이다. 더 강한 연구실은 더 똑똑한 해석을 하는 곳이 아니라, 가설-실험-측정-판정의 루프를 더 빠르고 더 엄격하게 설계하는 곳이 될 수 있다.
그리고 이런 변화는 생물학 전체에 균일하게 오지는 않을 것이다. 표준화 가능한 perturbation이 있고, 측정 가능한 phenotype이 있고, 자동화 가능한 assay가 있고, surrogate metric을 설계할 수 있는 분야가 먼저 이 변화를 흡수할 것이다. 반대로 판정이 모호하고 물리적 준비과정의 암묵지가 큰 분야는 훨씬 천천히 움직일 것이다.
Karpathy의 담화를 들으며 내가 느낀 건 낙관만도 비관만도 아니었다. 오히려 질문이 더 날카로워졌다는 쪽에 가깝다. 이제 중요한 건 "AI가 사람을 대체하느냐"가 아니라, "어떤 일들이 루프 안으로 들어오고, 어떤 일들은 끝내 루프 바깥에 남느냐"다. 생물학에서 정말 중요한 문제는 그 경계선 위에 많이 놓여 있다.
결국 앞으로의 연구자는 두 가지를 동시에 해야 할 것 같다. 하나는 자기 분야에서 정말 중요한 질문을 붙드는 일이고, 다른 하나는 그 질문을 기계가 돌릴 수 있는 루프로 번역하는 일이다. 전자는 여전히 인간의 영역이고, 후자는 앞으로 점점 더 결정적인 경쟁력이 될 것이다. 미래의 강한 연구는 좋은 아이디어만으로 나오지 않는다. 좋은 아이디어를 출현 가능한 루프로 바꾸는 능력에서 나온다.