신약 개발은 인류 역사에서 가장 돈이 많이 드는 도박이다. 하나의 신약이 시장에 나오기까지 평균 10~15년이 걸리고 비용은 최소 10억 달러를 넘는다. 그런데도 임상시험에 들어간 신약 후보 물질의 약 90%는 끝내 실패한다. 매년 전 세계에서 600억~1,000억 달러가 임상시험에 쏟아지지만, 실제 치료제 승인으로 이어지는 경우는 극히 드물다.
이유는 의외로 단순하다. 약이 효과가 없어서가 아니라, 효과가 있는 환자를 제대로 찾아내지 못해서다.
퍼즐 조각이 항상 부족하다
항암제를 예로 들어보자. 어떤 약이 특정 단백질 경로를 차단해 암세포를 죽이도록 설계됐다고 가정하자. 그런데 모든 환자가 그 경로를 똑같이 활성화하고 있는 건 아니다. 누군가에게는 그 경로가 왕성하게 작동하고 있어 약이 잘 듣지만, 다른 누군가에게는 아예 그 경로 자체가 꺼져 있어 약이 무용지물이다. 치료 반응자와 비반응자가 같은 임상에 뒤섞이면, 반응자에게서 나타나는 긍정적 신호는 비반응자의 데이터에 희석돼 사라진다. 결국 임상은 실패 판정을 받는다.
이 문제를 해결하는 열쇠는 ‘멀티모달 데이터’다. 유전체(DNA 정보), RNA 발현(어떤 유전자가 얼마나 활성화돼 있는지), 단백질 분포(실제로 어떤 단백질이 어디서 얼마나 만들어지는지), 조직 이미지(세포들이 공간적으로 어떻게 배치돼 있는지), 임상 결과까지, 이 퍼즐 조각들을 모두 맞춰야 비로소 어떤 환자가 어떤 약에 반응할지 예측할 수 있다.
문제는 현실에서 이 퍼즐이 거의 항상 불완전하다는 데 있다. RNA 발현 데이터는 있어도 병리 슬라이드가 없고, 유전체 정보는 있어도 단백질 분포 데이터가 없다. 환자가 임상을 중도에 이탈하거나, 비용 문제로 일부 검사를 건너뛰거나, 희귀 질환이라 데이터 자체가 거의 쌓이지 않는다. 그 결과 제약사들은 흐릿한 그림을 보며 환자를 선별하고, 임상은 또다시 실패한다.
‘그럼 데이터를 더 많이 모으면 되지 않나?’ 하지만 생각만큼 간단하지 않다. 공간 단백질체학(spatial proteomics) 데이터를 얻으려면 특수 장비와 복잡한 시약, 전문 인력이 필요하다. 샘플 하나를 분석하는 데 수천만 원이 들기도 하고, 결과가 나오기까지 몇 달이 걸린다. 이미 완료된 임상 코호트에서 빠진 데이터를 소급해 수집하는 건 사실상 불가능하다. ‘더 많이 모으면 된다’는 해법은 이미 진행 중이거나 끝난 임상 앞에서는 공허하다.
없는 데이터를 AI로 만들어낸다
스트랜드 AI(Strand AI)는 이 문제에 전혀 다른 방향으로 접근한다. 데이터를 새로 수집하는 대신, 이미 갖고 있는 데이터로부터 없는 데이터를 AI로 예측해 채운다.
핵심 기술은 ‘크로스-모달 파운데이션 모델(cross-modal foundation model)’이다. 한 종류의 생물학적 정보를 입력받아 다른 종류의 생물학적 정보를 예측해 출력하는 AI 모델이다. 흑백 사진을 입력하면 AI가 색깔을 복원해주듯, 한 가지 모달리티의 데이터를 넣으면 다른 모달리티의 데이터를 그려내는 방식이다.
가장 대표적인 예가 H&E 슬라이드에서 공간 단백질체학 데이터를 예측하는 모델이다. H&E(헤마톡실린-에오신) 염색은 병원 병리과에서 수십 년간 써온 표준 염색법으로, 전 세계 어느 병원에서나 만들 수 있고 비용도 저렴하다. 암 진단을 받은 환자라면 거의 예외 없이 이 슬라이드가 존재한다. 반면 공간 단백질체학 데이터는 조직 안에서 수십~수백 가지 단백질이 각각 어느 세포에, 어느 위치에, 얼마나 발현되는지를 단일 세포 해상도로 정밀하게 측정한 것으로, 만들려면 특수 장비와 수천만 원의 비용, 긴 시간이 필요하다.
스트랜드 AI의 모델은 병원 어디에나 있는 H&E 슬라이드 이미지를 입력받아 비싼 장비 없이도 공간 단백질체학 데이터를 예측해 출력한다. 이미 완료한 임상 코호트에서 일부 환자들의 단백질 데이터가 없다면, 그들의 H&E 슬라이드만 있으면 된다. AI가 나머지 퍼즐 조각을 채워준다. 또한 어느 모달리티에서 어느 모달리티를 신뢰성 있게 예측할 수 있는지를 미리 평가해 제약사에 알려준다. “이 코호트는 RNA 데이터에서 단백질 데이터를 정확하게 예측할 수 있습니다”, “이 부분은 AI 예측보다 직접 측정이 필요합니다”라는 식으로 어디에 자원을 집중해야 하는지 명확한 지침을 제시한다.
팀은 최근 6주 만에, 유사 연구 대비 훨씬 적은 비용으로 이 파운데이션 모델을 처음부터 훈련해 최신 기술 수준(SOTA)을 넘어서는 성능을 달성했다고 발표했다. 네이처 메디신도 2026년 1월, 유사한 방향의 연구인 HEX 모델을 게재하며 이 접근법의 과학적 유효성을 뒷받침했다. 해당 AI 모델은 표준 병리 슬라이드 하나만으로 40가지 단백질 바이오마커의 발현을 정확하게 예측해냈다.
문제를 직접 부딪혀 본 창업자들
유에 다이(Yue Dai) CEO는 이 벽을 누구보다 몸으로 경험했다. 딥러닝의 아버지로 불리는 요슈아 벤지오(Yoshua Bengio)가 설립한 엘리먼트 AI(Element AI)와 마이크로소프트 리서치(Microsoft Research)에서 AI 연구를 쌓은 그는, 이후 탬퍼스 AI(Tempus AI) 산하 이니셔티브인 패소스(Pathos)에서 현존하는 세계 최대 멀티모달 환자 데이터셋을 기반으로 파운데이션 모델을 구축했다. 환자 약물 반응 예측, 질병 진행 모델링, 새로운 작용 기전 발굴 등 온갖 과제에 매달렸지만 매번 같은 벽에 부딪혔다. 세상에서 가장 큰 데이터셋을 손에 쥐고 있으면서도, 정작 좋은 예측을 내려면 데이터가 항상 부족했다.
오데드 팔릭(Oded Falik) CTO는 8살 때부터 프로그래밍을 시작한 소프트웨어 엔지니어다. 두 사람은 공간 생물학 데이터 플랫폼 회사 이네이블 메디신(Enable Medicine)에서 함께 일하며 팀을 이뤘다. 팔릭은 그곳에서 공간 생물학 플랫폼 전체를 엔드 투 엔드로 구축하는 제품 개발을 이끌었고, 다이와 함께 페타바이트 규모의 멀티모달 공간 생물학 데이터를 처리했다. 이 경험이 스트랜드 AI의 기술적 토대가 됐다.
두 창업자의 조합이 특별한 이유는, 생물학 데이터가 현실에서 어떤 모습인지—어디가 빠져 있고, 얼마나 노이즈가 심하고, 모달리티 간에 어떤 패턴이 숨어 있는지—를 몸으로 아는 동시에, 대규모 모델을 빠르고 저렴하게 훈련하는 기술도 함께 갖추고 있다는 점이다.
거인들 사이의 좁고 뾰족한 틈새
스트랜드 AI가 뛰어든 생물학 AI 데이터 시장에는 이미 거대한 플레이어들이 자리를 잡고 있다. 공간 단백질체학 시장만 해도 2024년 약 8,754만 달러 규모에서 2034년 3억 5,812만 달러로 성장할 것으로 전망되지만, 이 시장을 겨냥한 경쟁자들의 면면은 만만치 않다.
가장 직접적인 경쟁자는 노에틱(Noetik)이다. 공간 생물학 데이터에 자기지도 학습을 결합해 암 면역치료 파운데이션 모델을 개발하는 이 샌프란시스코 기반 스타트업은 2024년 8월 폴라리스 파트너스(Polaris Partners) 주도로 4,000만 달러 시리즈 A를 유치해 누적 투자금 6,200만 달러를 기록했다. 2026년 1월에는 GSK와 5년 전략 협력 및 AI 모델 라이선싱 계약을 맺었다. 노에틱의 OCTO 파운데이션 모델은 15억 개의 파라미터를 보유하며, 수천 명 환자에서 확보한 공간 단백질체학·공간 전사체학·H&E 병리·유전체·임상 메타데이터를 통합해 훈련됐다.
그러나 더 멀리서 보면, 그 위로 훨씬 거대한 경쟁자들이 자리를 잡고 있다. 프랑스-미국계 바이오AI 기업 오킨(Owkin)은 오래전부터 H&E 슬라이드에서 유전자 발현을 예측하는 HE2RNA 모델을 개발해온 이 분야의 선구자다. 현재는 전 세계 800개 이상의 병원으로부터 멀티모달 환자 데이터를 수집하는 네트워크를 운영하며 누적 투자금 약 3억 400만 달러를 확보했다. 2026년 1월에는 아젠틱 AI 플랫폼을 공개했는데, 파운데이션 모델 고도화를 위해 NVIDIA와 기술 협력을 맺고, 첫 번째 AI 에이전트는 Anthropic의 Claude for Healthcare Life Sciences 플랫폼을 통해 배포하는 방식이다. 사노피 등 빅파마와도 협력 중이다.
또한 나스닥 상장사인 탬퍼스 AI는 4,500개 이상 병원에서 수집한 약 4,000만 건의 멀티모달 임상 데이터베이스를 보유하고 있으며, 2025년 5월 ‘Fuses’ 프로그램을 론칭하며 멀티모달 파운데이션 모델 개발에 본격적으로 뛰어들었다. 한편 리커전 파마슈티컬스(Recursion Pharmaceuticals)는 자동화 실험실에서 주당 220만 건의 세포 이미지 실험을 돌리며 65페타바이트 규모의 멀티모달 생물학 데이터를 쌓고 있다. 로슈·사노피·바이엘 등 빅파마와의 굵직한 파트너십, 2024년 엑사이언티아(Exscientia)와의 5억 6,500만 달러 합병까지 마무리한 이 회사는 AI 신약 개발 분야에서 가장 앞선 기업으로 꼽힌다.
거인들이 다루지 않는 문제를 파고든다
그렇다면 2인 팀의 YC 스타트업이 이 거인들 사이에서 어떻게 승부를 볼 수 있을까. 스트랜드 AI 공식 웹사이트에 명시된 타깃은 “임상시험과 바이오마커 발굴을 담당하는 생명과학 팀”이다. 독자적인 신약 파이프라인을 만드는 게 아니라, 이미 신약을 개발하고 있는 제약사와 바이오텍 팀들이 자신들의 기존 임상 코호트 데이터를 더 잘 활용할 수 있도록 돕는 데 집중한다는 것이다.
오킨, 탬퍼스, 리커전 모두 멀티모달 데이터를 다루지만, 이들의 최종 목표는 신약 파이프라인 확보, 신규 타깃 발굴, 진단 플랫폼 구축이다. 이들이 구축한 데이터 인프라는 기본적으로 자사 플랫폼 안에서 작동하며, 수천억 원의 자본과 수천 개의 병원 파트너십, 수십 페타바이트의 독점 데이터가 경쟁 무기다.
스트랜드 AI가 공개한 내용만 놓고 보면, 이 회사가 겨냥하는 문제는 다르다. “불완전한 코호트에서 결측 모달리티를 생성해 가치 있는 피험자 데이터를 버리지 않도록 한다”는 것이 웹사이트에 명시된 핵심 가치 제안이다. 유에 다이 CEO가 탬퍼스 AI에서 세계 최대 규모의 멀티모달 데이터셋을 다뤄보며 직접 경험한 것도 바로 이 결측 데이터 문제였다.
이를 바탕으로 업계에서는 스트랜드 AI가 거대 플레이어들과 정면 경쟁하기보다, 그들이 아직 해결해주지 않는 틈새—제약사가 이미 보유한 임상 코호트의 데이터 공백을 채우는 것—를 노리는 인프라 레이어 전략을 취하고 있다고 분석한다. 물론 이 전략이 실제로 시장에서 어떻게 검증될지는 아직 지켜봐야 할 단계다.
2025년에 설립돼 와이 콤비네이터(Y Combinator) 2026년 윈터 배치에 선발된 스트랜드 AI는 현재 제약사와 바이오텍의 임상 담당자들을 대상으로 파트너십을 모색하고 있다.
신약 개발의 실패율을 낮추는 일은 제약사의 수익성 문제만이 아니다. 임상시험이 실패할 때마다 그 치료제를 기다리던 환자들의 기회도 함께 사라진다. 더 나은 데이터가 더 나은 환자 선택을 가능하게 하고, 그것이 결국 필요한 사람들에게 닿을 수 있는 신약을 만든다는 것—스트랜드 AI가 기술로 증명하려는 명제다.
답글 남기기
댓글을 달기 위해서는 로그인해야합니다.