AI 산업의 무게 중심이 바뀌고 있다. 수년간 GPT-4, 제미나이, 클로드 같은 초거대 모델을 학습(training)시키는 데 집중됐던 투자와 인프라 경쟁이, 이제는 그 모델들을 실제로 운영하는 추론(inference)으로 급격히 이동하고 있다. 딜로이트는 2026년 전체 AI 컴퓨팅의 약 3분의 2를 추론 워크로드가 차지할 것으로 전망한다. 2023년 3분의 1, 2025년 절반에서 불과 몇 년 사이에 일어난 변화다. 추론 최적화 칩 시장만 500억 달러를 넘어설 것으로 예상된다.
AI 에이전트가 확산되면서 이 전환은 더욱 가속화됐다. 에이전트 기반 워크로드는 기존 챗봇 대비 5~15배 많은 토큰을 생성한다. AI에게 질문 하나를 던지는 게 아니라, AI 스스로 다단계 추론을 거쳐 장시간 작업을 수행하기 때문이다. 각 단계마다 상이한 연산 요구 사항이 발생한다. 초기 추론은 연산 집약적(compute-bound)이고, 응답 생성 디코딩은 메모리 집약적(memory-bound)이며, 도구 호출은 네트워크 집약적(network-bound)이다. 현재 AI 인프라는 이 다층적 요구를 처리하기에 최적화되어 있지 않다. 바로 여기에서 추론 스타트업들의 기회가 열렸다.
와우테일이 이 프로젝트에서 추적해온 추론 관련 스타트업들의 소식을 한데 모아 지형도로 정리한다. 이 기사는 앞으로도 관련 소식이 발행될 때마다 업데이트되는 참조 문서로 활용할 예정이다.
레이어 1: 추론 엔진 — 오픈소스의 상업화
추론 스택의 가장 아래층에는 추론 엔진이 있다. AI 모델을 GPU 위에서 실제로 돌리는 소프트웨어다. 이 레이어에서 가장 주목받는 움직임은 인기 오픈소스 프로젝트들이 잇따라 벤처 지원을 받은 스타트업으로 독립한 것이다.
인퍼랙트(Inferact) 현재 전 세계 40만 개 이상의 GPU에서 돌아가는 오픈소스 추론 엔진 vLLM의 핵심 개발팀이 세운 회사다. UC버클리 스카이 컴퓨팅 랩(Sky Computing Lab) 출신들이 창업했으며, 메타·구글·캐릭터닷에이아이 등이 프로덕션에서 vLLM을 사용하고 있다. 2026년 1월 안드레센호로위츠(a16z)와 라이트스피드 벤처 파트너스(Lightspeed Venture Partners)가 공동 주도한 시드 라운드에서 1억 5000만 달러를 유치했다. 시드 라운드로는 이례적인 규모로, 기업가치는 8억 달러다. 범용 추론 레이어 구축이 목표다.
래딕스아크(RadixArk) vLLM과 같은 UC버클리 연구실에서 탄생한 또 다른 오픈소스 추론 최적화 프레임워크 SGLang의 상업화 기업이다. xAI와 커서(Cursor)를 비롯한 주요 기업들이 SGLang을 채택해 AI 모델을 더 빠르고 저렴하게 돌리고 있다. SGLang의 주요 개발자였던 잉 셍(Ying Sheng)이 xAI를 떠나 창업했으며, 액셀(Accel)이 주도한 투자에서 4억 달러 기업가치를 인정받았다. 강화학습(RL) 특화 프레임워크 마일스(Miles)도 개발 중이다.
두 회사 모두 데이터브릭스(Databricks) 공동창업자이자 UC버클리 스카이 컴퓨팅 랩 디렉터인 이온 스토이카(Ion Stoica) 교수의 연구실 계보를 잇는다. 그의 랩에서 vLLM, SGLang, 레이(Ray)/애니스케일(Anyscale) 등 AI 인프라 히트작이 잇따라 나왔다.
레이어 2: 관리형 추론 플랫폼 — 개발자를 인프라에서 해방
그 위 레이어에는 관리형 추론 플랫폼이 있다. 기업과 개발자들이 복잡한 GPU 인프라를 직접 구축하고 운영하지 않아도 API만으로 AI 모델을 배포하고 확장할 수 있게 해주는 서비스다. 내부적으로 vLLM 같은 오픈소스 엔진을 활용하지만, 그 위에 오토스케일링·모니터링·멀티클라우드 관리 같은 부가가치를 더해 제공한다.
베이스텐(Baseten) 2019년 설립된 AI 추론 인프라 전문 기업으로, 머신러닝 모델을 손쉽게 배포하고 고성능으로 확장할 수 있는 플랫폼을 제공한다. 페이트리온(Patreon), 스태빌리티AI(Stability AI), 라이터(Writer) 등이 고객이다. 2026년 1월 엔비디아가 1억 5000만 달러를 직접 투자하는 등 총 3억 달러를 유치하며 기업가치 50억 달러를 달성했다. 이전에는 2025년 9월 1억 5000만 달러를 유치하며 기업가치 21억 달러를 기록했었다.
모달랩스(Modal Labs) AI 추론을 위한 서버리스 클라우드 인프라를 제공한다. 기존 클라우드 업체들이 재활용하는 시스템 대신 커스텀 파일 시스템·컨테이너 런타임·스케줄러까지 처음부터 직접 구축한 점이 특징이다. 서브초(sub-second) 단위로 워크로드를 시작할 수 있다. 2025년 10월 럭스캐피털(Lux Capital) 주도로 8700만 달러 시리즈B를 유치해 기업가치 11억 달러를 달성했으며, 2026년 2월에는 25억 달러 밸류에이션으로 신규 투자 협상 중이라는 소식이 전해졌다. 연간 반복 매출(ARR)은 약 5000만 달러다.
파이어웍스AI(Fireworks AI) 파이토치(PyTorch) 팀 출신들이 창업한 AI 추론 클라우드 플랫폼이다. 2025년 10월 라이트스피드 벤처 파트너스·인덱스벤처스(Index Ventures) 등이 공동 주도한 시리즈 C에서 2억 5000만 달러를 유치하며 기업가치 40억 달러를 달성했다. 누적 투자금은 3억 2700만 달러다.
투게더AI(Together AI) 오픈소스 AI 모델을 기업이 쉽게 배포하고 운영할 수 있게 해주는 추론 및 파인튜닝 플랫폼이다. 2025년 2월 제너럴카탈리스트(General Catalyst)·프로스페리티7(Prosperity7) 주도로 3억 500만 달러를 유치하며 기업가치 33억 달러를 달성했다.
레이어 3: 멀티실리콘 오케스트레이션 — 이기종 하드웨어의 통합
추론 스택의 새로운 도전자 영역도 생겨났다. 특정 칩에 종속되지 않고, 엔비디아 GPU·AMD GPU·인텔 칩·세레브라스·디매트릭스 등 다양한 하드웨어를 통합해 AI 워크로드를 가장 적합한 칩에 자동으로 배분하는 소프트웨어 레이어다.
짐렛랩스(Gimlet Labs) 스탠퍼드 부교수 출신 제인 아스거(Zain Asgar) 공동창업자 겸 CEO가 이끄는 응용 AI 연구 및 제품 기업이다. 아스거는 쿠버네티스(Kubernetes) 오픈소스 관찰성 툴 픽시(Pixie)를 만든 창업자로, 픽시는 2020년 뉴렐릭(New Relic)에 인수됐다. 공동창업자로는 미셸 응우옌(Michelle Nguyen)·오미드 아지지(Omid Azizi)·나탈리 세리노(Natalie Serrino)가 함께한다.
짐렛은 업계 최초이자 유일한 ‘멀티실리콘 추론 클라우드(multi-silicon inference cloud)’를 표방한다. 자체 소프트웨어 스택이 에이전트 워크로드를 자동으로 분해해 가장 적합한 칩에 매핑한다. AI 에이전트의 단계별 작업은 요구 조건이 다르다. 초기 추론은 연산 중심, 디코딩은 메모리 중심, 도구 호출은 네트워크 중심이다. 단 하나의 칩으로 이 모든 걸 최적으로 처리할 수는 없다. 짐렛은 이 병목을 멀티실리콘 오케스트레이션으로 푼다. 동일한 비용과 전력으로 AI 추론 속도를 3~10배 높인다고 주장한다. 현재 엔비디아·AMD·인텔·ARM·세레브라스(Cerebras)·디매트릭스(d-Matrix)와 파트너십을 맺었다.
2025년 10월 스텔스에서 벗어나며 시드 라운드(팩토리(Factory) 주도)로 1200만 달러를 유치했다. 공개 첫날부터 이미 8자리(1000만 달러 이상) 매출을 기록했다고 밝혔다. 2026년 3월 멘로벤처스(Menlo Ventures)가 주도한 시리즈A에서 8000만 달러를 추가 유치했다. 팩토리·이클립스벤처스(Eclipse Ventures)·프로스페리티7·트리아토믹(Triatomic)도 참여했다. 총 누적 투자금은 9200만 달러다. 앤젤 투자자로는 시퀀셔 빌 코런(Bill Coughran)·스탠퍼드 교수 닉 맥켄(Nick McKeown)·전 VMware CEO 라구 라구람(Raghu Raghuram)·인텔 CEO 립부 탄(Lip-Bu Tan) 등이 이름을 올렸다. 현재 3대 프런티어 AI 랩 중 하나와 3대 하이퍼스케일러 중 하나를 고객으로 확보했으며, 4개월 만에 고객 기반이 세 배로 늘었다.
레이어 4: 추론 전용 칩 — 세 가지 전략의 충돌
소프트웨어 레이어 아래에는 추론에 특화된 칩을 만드는 회사들이 있다. 이 레이어는 단순히 엔비디아 GPU를 대체하려는 게 아니라, 추론 워크로드의 특성에 맞는 새로운 아키텍처로 도전하는 영역이다. 전략은 크게 세 갈래로 나뉜다.
전략 A: LLM 전용 설계 — “범용성을 버리고 성능을 얻는다”
에치드(Etched) | etched.com 가장 과감한 베팅이다. 현재 AI 모델의 99%가 기반으로 하는 트랜스포머 아키텍처만을 위한 ASIC ‘소후(Sohu)’ 칩을 개발 중이다. 범용 연산은 포기하는 대신, 트랜스포머 하나만큼은 극도로 최적화한다. 8개 칩으로 구성된 서버 하나가 초당 50만 토큰 이상을 생성한다는 게 회사 측 주장으로, H100 GPU 160개와 맞먹는 수치다. 다만 트랜스포머를 대체하는 새 아키텍처(맘바·RWKV 등)가 주류가 되는 순간 칩이 무용지물이 될 수 있다는 구조적 리스크가 있다. CEO 가빈 우베르티(Gavin Uberti) 본인도 이 리스크를 인정한다. 2026년 1월 5억 달러를 유치하며 기업가치 50억 달러, 누적 투자금 약 10억 달러를 달성했다.
맷엑스(MatX) | matx.com 구글 TPU 핵심 설계자 출신들이 세운 LLM 전용 칩 스타트업이다. 에치드처럼 트랜스포머 하나에 극단적으로 묶지는 않되, LLM 전반에 최적화된 설계 효율을 목표로 한다. 핵심은 ‘분리형 시스톨릭 어레이(splittable systolic array)’와 SRAM+HBM 하이브리드 메모리 구조로, 낮은 지연시간과 긴 문맥 처리 능력을 동시에 구현한다. 내부 테스트에서 엔비디아 차기 루빈 울트라(Rubin Ultra)보다 단위 면적당 성능이 앞선다고 주장한다. 2026년 2월 제인 스트리트(Jane Street)와 전 오픈AI 연구원 레오폴트 아셴브레너(Leopold Aschenbrenner)의 시추에이셔널 어웨어니스 LP가 공동 주도한 시리즈B에서 5억 달러를 유치했다. 창업자 라이너 포프(Reiner Pope) CEO는 구글에서 PaLM 모델 추론 소프트웨어와 TPU v5e 아키텍처를 설계한 인물이다.
전략 B: 하드웨어 혁신 — “칩 자체를 다시 발명한다”
세레브라스(Cerebras) | cerebras.net 일반 반도체는 웨이퍼에서 잘게 잘라낸 조각을 쓰지만, 세레브라스는 TSMC 5nm 공정으로 만든 웨이퍼 전체를 하나의 칩으로 사용한다. 최신 WSE-3는 4조 개 트랜지스터와 90만 개 코어를 단일 기판에 집약했다. 칩 간 데이터 이동 지연이 사라져 초당 1000~2000토큰 이상의 처리 속도를 구현했고, 오픈AI의 GPT-5.3 코드엑스 스파크도 세레브라스 인프라 위에서 돌아간다. 특정 아키텍처에 종속되지 않는 범용성이 강점이지만, 웨이퍼 수율 문제와 높은 제조 비용이 약점이다. 2026년 1월 오픈AI와 750메가와트 규모 다년 계약을 체결했으며, 2026년 2월 타이거 글로벌(Tiger Global) 주도로 10억 달러 시리즈H를 유치하며 기업가치 230억 달러를 달성했다. 누적 투자금 약 25억 5000만 달러. 2026년 IPO를 추진 중이다.
포지트론AI(Positron AI) | positron.ai 네바다주 리노 기반의 AI 추론 칩 스타트업이다. 첫 번째 제품 아틀라스(Atlas)는 애리조나에서 제조되는 추론 시스템으로, 엔비디아 H100과 동등한 성능을 3분의 1 전력으로 구현한다고 주장한다. 차세대 칩 아시모프(Asimov)는 가속기당 2TB 메모리를 탑재해 장문맥 LLM, 에이전트 워크플로, 비디오 생성 같은 메모리 집약적 워크로드를 겨냥한다. CTO 토마스 솜머스(Thomas Sohmers)는 17세에 프로세서 회사를 창업하고 그록에서 기술 전략 디렉터를 지낸 인물이다. CEO 미테시 아그라왈(Mitesh Agrawal)은 람다(Lambda) 전 COO로 매출을 50만 달러에서 5억 달러로 성장시킨 경력을 갖고 있다. 2026년 2월 카타르투자청(QIA)·ARM 등이 참여한 시리즈B에서 2억 3000만 달러를 유치해 기업가치 10억 달러 이상을 달성했다. 누적 투자금은 3억 달러를 넘어섰다.
전략 C: 인메모리 컴퓨팅 — “메모리와 연산의 벽을 허문다”
디매트릭스(d-Matrix) | d-matrix.ai ‘디지털 인메모리 컴퓨팅(DIMC)’ 방식이다. 기존 GPU가 메모리와 연산 장치를 분리해 데이터를 오가는 데 시간이 걸리는 반면, 메모리 안에서 직접 연산을 처리한다. GPU 대비 10배 빠른 성능, 3배 낮은 비용, 3~5배 높은 에너지 효율을 주장한다. 코르세어(Corsair) 추론 가속기와 제트스트림(JetStream) 네트워크 카드, 아비에이터(Aviator) 소프트웨어를 결합한 풀스택 솔루션을 제공한다. 2025년 시리즈C에서 기업가치 20억 달러에 2억 7500만 달러를 유치했다. 짐렛랩스와 파트너십을 맺어 GPU와 디매트릭스 칩을 결합하는 하이브리드 아키텍처도 구현 중이다.
인셉션(Inception Labs) | inceptionlabs.ai 이미지 생성에 쓰이던 디퓨전(Diffusion) 기술을 언어모델에 접목한 스타트업이다. 스테이블 디퓨전·미드저니·소라 등의 핵심 기술을 만든 스탠퍼드대 스테파노 에르몬(Stefano Ermon) 교수가 창업했다. 기존 LLM은 단어를 하나씩 순차 생성하는 자기회귀 방식이지만, 인셉션의 머큐리(Mercury)는 전체 텍스트 블록을 한 번에 병렬로 생성한다. 이미지 생성 AI처럼 흐릿한 초안에서 시작해 점진적으로 정제하는 방식이다. 덕분에 엔비디아 H100에서 초당 1000토큰 이상을 생성한다. 기존 LLM의 5~10배 속도다. 2025년 11월 멘로벤처스(Menlo Ventures) 주도로 시드 5000만 달러를 유치했다. 시드 라운드로는 이례적 규모로, 앤드루 응(Andrew Ng)·안드레이 카르파티(Andrej Karpathy) 등 AI 거물들도 엔젤 투자자로 참여했다.
추론 칩의 전 세대, 그록의 결말
그록(Groq) 구글 TPU 설계자 출신 조나단 로스(Jonathan Ross)가 세운 언어처리유닛(LPU) 전문 기업으로, AI 추론 속도에서 압도적인 기록을 세우며 추론 칩 붐의 선구자로 주목받았다. 2025년 9월 7억 5000만 달러를 유치하며 기업가치 69억 달러를 달성했다. 이후 2025년 12월 엔비디아와 약 200억 달러 규모의 기술 라이선스 계약을 체결하며 핵심 인력이 엔비디아에 합류했다. 그록의 LPU 기술이 엔비디아 아키텍처에 흡수된 것은 추론 특화 칩의 가치를 역설적으로 증명하는 사건이다. 독립 기업으로서의 그록 클라우드는 계속 운영 중이다.
추론 시장을 읽는 세 가지 키워드
① 오픈소스의 상업화 패턴 인퍼랙트(vLLM)와 래딕스아크(SGLang)가 보여준 패턴은 AI 인프라 시장에서 반복되고 있다. 커뮤니티가 검증한 오픈소스 프로젝트가 곧 VC의 거액 투자를 받는 스타트업으로 전환되는 것이다. 오픈소스로 기술 신뢰도와 사용자 기반을 확보한 뒤, 상업화·엔터프라이즈 기능·호스팅 서비스로 수익을 내는 구조다.
② 이기종 하드웨어 시대의 도래 엔비디아 GPU 단일 체제에서 다양한 칩이 공존하는 이기종(heterogeneous) 환경으로의 전환이 가속화되고 있다. 구글은 추론에 TPU를 쓰고, 아마존은 인퍼렌티아(Inferentia)와 트레이니엄(Trainium)을 개발했으며, 마이크로소프트는 마이아(Maia) 가속기를 설계 중이다. 짐렛랩스 같은 멀티실리콘 오케스트레이션 계층은 이 흐름을 배경으로 등장했다.
③ 에이전트가 추론 수요를 폭발시킨다 에이전트 시대는 단순히 AI 사용량을 늘리는 게 아니라 추론의 성격 자체를 바꾼다. 에이전트는 멀티스텝 워크로드를 실행하며, 각 단계마다 연산 자원의 종류와 양이 달라진다. 현재 인프라는 이에 최적화되어 있지 않다. 추론 시장에서 가장 앞서 있다는 것이 곧 에이전트 시대의 인프라를 선점한다는 의미이기도 하다.
답글 남기기
댓글을 달기 위해서는 로그인해야합니다.