"DNA는 언어다"…식물 게놈 AI 스타트업 리빙 모델스, 700만 달러 투자 유치

“DNA는 언어다”…식물 게놈 AI 스타트업 리빙 모델스, 700만 달러 투자 유치

2026.04.10

・

버섯돌이(Taehyun Kim)

진화는 40억 년간 실험을 멈추지 않았다. 가뭄을 버텨낸 식물, 병원균을 이겨낸 동물, 극한 환경에서 살아남은 미생물—이 모든 해법이 A, T, C, G 네 개의 염기로 쓰인 DNA 서열 안에 고스란히 새겨져 있다. 문제는 인류가 이 데이터를 이미 쌓아두고 있으면서도 제대로 읽지 못하고 있다는 점이다. 개별 염기를 해독하는 수준을 넘어, 게놈 전체가 담고 있는 깊은 문법—종을 가로지르는 비선형적 논리—은 여전히 인간의 이해 밖에 있다.

파리와 버클리에 본거지를 둔 리빙 모델스(Living Models)가 바로 이 지점에 도전한다. 이 스타트업은 DNA, RNA, 멀티오믹스 데이터를 학습한 생물학 파운데이션 모델을 개발하며, 스텔스 상태를 벗어나 700만 달러 시드 투자를 유치했다. 에스테리온 벤처스(Asterion Ventures)와 갈리온 프로젝트(The Galion Project)가 공동 주도했고, 키마 벤처스(Kima Ventures), 스테이션 F(STATION F), UC 버클리 스카이덱(UC Berkeley SkyDeck), 주니퍼(Juniper), 아트지안/그레인코프(Artesian/GrainCorp), 파스쿠알 이노벤처스(Pascual Innoventures) 등이 참여했다.

새 품종 하나 만드는 데 왜 10년이 걸리나

종자 회사가 새 품종을 개발하는 과정을 생각해 보자. 수십만 개의 식물 샘플 중 어떤 유전자 조합이 가뭄을 잘 견디고, 수확량이 높고, 병원균에 강한지 찾아내야 한다. 문제는 이 선별 작업이 거의 전적으로 실제 재배에 의존한다는 점이다. 유망해 보이는 후보를 심고, 키우고, 측정해야 비로소 알 수 있다. 비용이 만만치 않아 대형 종자 기업은 매번 수천만 달러를 쏟아붓고, 중소 품종 개발 프로그램은 아예 시도조차 못하는 형질이 생긴다. 수수·카사바·기장처럼 소농이 의존하는 작물은 데이터 자체가 거의 없어 첨단 게놈 기술이 닿지 않는 사각지대로 남아 있다.

기존 게놈 선발(genomic selection) 모델은 이 문제를 부분적으로 해결했다. 유전자 마커와 표현형 데이터를 통계적으로 연결해 재배 없이 어느 정도 예측이 가능해졌다. 하지만 이 모델들은 작물마다 따로 학습해야 하고, 데이터가 풍부한 옥수수·콩 같은 주요 작물에서만 잘 작동한다. 새로운 형질이나 환경 조건이 달라지면 예측력이 급격히 떨어진다. 통계적 상관관계를 학습했을 뿐, 왜 그 유전자가 그 형질과 연결되는지는 모르기 때문이다.

DNA는 언어다

리빙 모델스가 내세우는 논리는 단순하고 강력하다. 2017년 논문 「Attention Is All You Need」가 트랜스포머 아키텍처를 세상에 내놓은 뒤, 이 구조는 언어·코드·단백질 구조·이미지·음성을 차례로 정복했다. 공통점은 하나—모두 순서 있는 데이터(시퀀스)였다는 것이다. DNA도 정확히 그렇다. 통계적 구조와 긴 거리에 걸친 의존성, 그리고 40억 년치 진화 신호가 켜켜이 쌓인 서열이다. 게놈은 언어에 비유된다기보다, 그 자체가 하나의 언어다. 아크 인스티튜트(Arc Institute)와 엔비디아가 공동 개발한 이보2(Evo 2)는 이 가설을 검증한 대표 사례다. 12만 8,000개 이상의 전체 게놈에서 추출한 9조 3,000억 개 뉴클레오타이드로 학습해, 종을 넘나드는 유전자 패턴을 파악하고 새로운 게놈을 설계할 수 있는 수준에 이르렀다.

리빙 모델스는 이 아키텍처를 식물 게놈에 집중 적용한다. 첫 번째 모델 패밀리 보태닉(BOTANIC)은 43개 식물 종의 게놈 서열로 학습한 트랜스포머 모델이다. 최대 10억 파라미터 규모로, 단 8개의 엔비디아 H100 GPU로 학습했음에도 22개 벤치마크에서 기존 최고 수준 모델과 동등한 성능을 냈다. 모델 가중치는 허깅페이스(Hugging Face)에서 오픈웨이트로 공개되어 있고, 기술 보고서는 바이오아카이브(bioRxiv)에 게재됐다.

보태닉이 바꾸는 것: 예측에서 이해로

보태닉이 기존 모델과 본질적으로 다른 것은 ‘통계적 패턴 매칭’을 넘어선다는 점이다. 베란은 “기존 게놈 선발 모델은 마커를 교환 가능한 통계적 대리 변수로 취급한다. 보태닉은 형질과 연관된 기능적 게놈 서명(functional genomic signature)을 학습한다”고 설명했다. 품종 개발 현장 입장에서는 “더 나은 숫자”가 아니라 “더 생물학적으로 근거 있는 신호”를 받는 셈이다.

실질적으로 기대할 수 있는 효과는 구체적이다. 학계 연구에 따르면 초기 단계 게놈 예측 정확도가 높아지면 현장 재배 사이클을 1~3회 줄일 수 있고, 이는 통상 1~4년의 단축에 해당한다. 새로운 기후 내성 품종이 그만큼 빠르게 시장에 나온다는 의미다.

고객이 누구냐고 묻는다면 세 계층이다. 첫째는 바이에르, 신젠타 같은 글로벌 대형 종자 기업이다. 이들은 이미 방대한 내부 데이터를 보유하고 있지만, 그 데이터를 충분히 활용할 모델 아키텍처가 없었다. 보태닉은 이 데이터 위에 파인튜닝해 기존 R&D 워크플로에 삽입된다. 둘째는 지역 육종 프로그램과 연구 기관이다. 내부 데이터가 제한적이어도 보태닉이 식물계 전체에서 학습한 생물학적 구조를 전이해 예측력을 발휘한다. 셋째는 사르굼·카사바·기장 같은 ‘소외 작물’ 프로그램이다. 게놈 선발 자원이 거의 없는 이 분야에 보태닉이 처음으로 고정밀 예측 도구를 제공하는 것이 장기 목표다. 베란은 “아이오와의 상업 프로그램과 사하라 이남 아프리카의 소농 육종 프로그램이 같은 플랫폼에서 혜택을 받는 것—그게 핵심”이라고 말했다.

수익 모델은 라이선싱이다. 종자 기업과 연구 기관이 자사의 보안 환경 안에서 보태닉을 파인튜닝하는 방식으로, 데이터는 리빙 모델스로 전달되지 않는다. “데이터가 없는 게 아니라, 현재 모델링 도구가 그 가치를 온전히 끌어내지 못하는 것”이라는 것이 베란의 진단이다.

왜 하필 식물인가

“왜 더 큰 시장인 인체 의료 데이터가 아닌가”—라는 질문은 당연하다. 리빙 모델스의 대답은 전략적이다. 식물 게놈 데이터는 대부분 공개돼 있다. HIPAA 같은 규제도, 바이오뱅크 접근 협상도 필요 없다. 학습한 모델의 예측을 검증하는 데 인간 임상시험은 수년이 걸리지만, 식물은 한 번의 재배 시즌—6개월이면 충분하다. 빠른 피드백 루프는 연구를 엔지니어링으로 바꿔준다.

시장의 절박함도 만만치 않다. 종자 개발 사이클은 평균 8~12년이다. 바이에르 크롭사이언스(Bayer CropScience), 코르테바(Corteva), 신젠타(Syngenta), BASF, 리마그랭(Limagrain) 등 글로벌 종자 기업들이 연간 약 80억 달러를 육종 연구에 쏟아붓지만, 방법론은 1960년대 이후 크게 달라지지 않았다. 병원균 내성 유전자는 배포 후 3~5년이면 뚫리고, 연간 1% 수준의 수확량 개선은 2050년 예상 식량 수요를 채우기에 턱없이 부족하다.

창업팀

CEO 겸 공동창업자 시릴 베란(Cyril Véran)은 식물 컴퓨터비전 스타트업을 운영하면서 게놈의 벽에 부딪혔다. “카메라로 식물을 볼 수는 있었지만, 읽을 수가 없었다”는 것이 창업의 출발점이다. CTO 겸 공동창업자 레오나르 스트루크(Léonard Strouk)는 에콜 노르말 쉬페리외르(École Normale Supérieure, ENS)에서 생화학을 전공하고 UC 버클리와 NYU에서 연구했으며, 이전에 생성형 AI 회사를 공동 창업한 이력도 있다. 최고과학책임자(CSO) 베르트랑 가키에르(Bertrand Gakière)는 파리-사클레 대학교(Paris-Saclay University) 식물생물학 부교수로, 75편 이상의 논문과 복수의 특허를 보유한 연구자다. 팀 전체는 화웨이 노아의방주 랩(Huawei Noah’s Ark Lab), 오킨(Owkin), 밀라(Mila), ENS, 데이터독(Datadog), 앵스티튀 파스퇴르(Institut Pasteur) 출신 박사 10명 이상으로 구성됐다.

현재 진척과 향후 로드맵

현재 북미와 유럽에서 초기 상업 논의가 진행 중이며, INRAE(프랑스 국립농업식품환경연구소), 파리-사클레 식물과학연구소, CRAG 바르셀로나, 오르후스 대학교, 플로리다 대학교와 학술 파트너십을 맺었다. 글로벌 상위 5위권 종자 기업과도 협의 중이라고 회사 측은 밝혔다. 이번 투자금은 엔비디아 B200 GPU 120개 규모 전용 클러스터 확보에 집중 투입된다. 더 큰 모델을 학습하고, 식물을 넘어 미생물·포유류 생물학으로 확장하는 것이 다음 단계다.

경쟁사 현황

허리터블 애그리컬처(Heritable Agriculture) — 구글X(Google X)에서 5년간 인큐베이팅을 거쳐 2025년 1월 분사한 스타트업이다. FTW 벤처스·마이토스 벤처스·SVG 벤처스 주도로 시드 투자를 유치했으며 구글도 지분을 보유하고 있다(금액 미공개). 유전자, 환경, 재배 조건의 상호작용을 AI로 분석해 작물 형질을 최적화하며, 신젠타 베지터블 씨즈와 협업을 맺었다. 2026년 2월에는 게이츠 재단으로부터 498만 달러 보조금을 받아 저소득국 소농을 위한 기후 내성 작물 연구 프로젝트(JASON)를 추진 중이다.

인스타딥(InstaDeep) — 2023년 바이오엔텍(BioNTech)이 최대 5억 6,200만 파운드(약 7억 달러)에 인수한 AI 기업으로, 편입 전 구글·엔비디아와 협력해 최대 200억 파라미터 규모의 작물 게놈 모델을 학습했다. 리빙 모델스의 벤치마크가 직접 겨루는 모델이기도 하다. 현재는 바이오엔텍 자회사로 신약 발굴과 면역치료제 개발에 역량이 집중된 상태다.

아크 인스티튜트(Arc Institute) — Evo 2 — 스탠퍼드·UC 버클리·UCSF 연구진과 엔비디아가 공동 개발한 게놈 파운데이션 모델이다. 9조 개 이상의 뉴클레오타이드로 학습한 400억 파라미터 규모로, 현재 공개된 최대 생물학 AI 모델이다. 네이처(Nature)에 2026년 3월 게재됐으며 모델 가중치도 공개돼 있다. 직접 상업화보다 연구 생태계 구축에 초점을 맞추고 있어, 리빙 모델스와의 관계는 경쟁보다 협력적 성격이 강하다.

이볼루셔너리스케일(EvolutionaryScale) — ESM3 단백질 언어 모델로 주목받은 스타트업이다. 2024년 6월 럭스캐피털(Lux Capital) 주도로 1억 4,200만 달러 시드를 유치했다. 단백질 설계가 현재 주력이지만, 게놈 수준 생물학으로의 확장을 예고하고 있어 잠재적 경합 구도가 형성되고 있다.

리빙 모델스가 이들과 구별되는 지점은 식물 특화 멀티오믹스 데이터셋과 육종 현장의 빠른 검증 사이클을 결합했다는 점이다. 단백질 모델이나 범용 생물학 모델이 아닌, 작물 육종 워크플로에 직접 연결되는 플랫폼을 지향하는 것이 핵심 차별점이다.

버섯돌이(Taehyun Kim)

답글 남기기 응답 취소

댓글을 달기 위해서는 로그인해야합니다.

많이 본 기사

뉴스레터 구독하기

“DNA는 언어다”…식물 게놈 AI 스타트업 리빙 모델스, 700만 달러 투자 유치

새 품종 하나 만드는 데 왜 10년이 걸리나

DNA는 언어다

보태닉이 바꾸는 것: 예측에서 이해로

왜 하필 식물인가

창업팀

현재 진척과 향후 로드맵

경쟁사 현황

관련 기사

기사 공유하기

버섯돌이(Taehyun Kim)

답글 남기기 응답 취소

많이 본 기사

(주)와우파트너스