에이전트 AI 추론 인프라 ‘짐렛랩스’, 8천만 달러 시리즈A 투자 유치


AI 에이전트 시대를 겨냥한 이종(異種) 추론 클라우드 개발사 짐렛랩스(Gimlet Labs)가 8천만 달러 규모의 시리즈A 투자를 유치했다. 멘로 벤처스(Menlo Ventures)가 주도했으며, 이클립스(Eclipse), 팩토리(Factory), 프로스퍼리티7(Prosperity7), 트라이어토믹(Triatomic)이 참여했다. 지난해 10월 팩토리가 주도한 1,200만 달러 시드 라운드를 포함한 누적 투자액은 9,200만 달러다.

gimlet logo - 와우테일

AI 추론은 이미 학습을 마친 AI 모델이 실제 질문에 답을 생성하는 과정을 말한다. 단순 챗봇이라면 질문 하나에 답변 하나를 돌려주면 그만이지만, 코딩 에이전트처럼 고도화된 AI는 전체 코드베이스를 읽고, 외부 도구를 호출하고, 여러 모델을 연속 실행하며 중간 결과를 다음 단계로 넘기는 복합 과정을 거친다. AI 업계에서는 이를 두고 ‘추론 속도 전쟁(Inference Speed Wars)’이 벌어지고 있다고 표현할 정도다. 에이전트가 처리하는 토큰 수는 기존 채팅 모델의 5~15배에 달하고, 에이전트끼리 서로 통신하는 구조가 되면 속도의 중요성은 더욱 커진다.

문제는 지금의 AI 인프라가 에이전트 시대에 맞게 설계되지 않았다는 점이다. 현재 AI 서비스는 대부분 동일한 종류의 GPU를 대량 투입하는 방식으로 운영된다. 그런데 에이전트 워크로드를 들여다보면 단계마다 필요한 하드웨어 특성이 제각각이다. 입력 전체를 한 번에 처리하는 ‘프리필(prefill)’ 단계는 병렬 연산 처리량이 높은 GPU가 맞고, 토큰을 순차적으로 생성하는 ‘디코드(decode)’ 단계는 메모리 대역폭이 넓은 가속기가 훨씬 효율적이다. 외부 API나 데이터베이스를 호출하는 단계는 네트워크 지연이 관건이다. 모든 단계에 같은 GPU를 쓰면 각 단계마다 맞지 않는 옷을 입히는 꼴이 된다.

짐렛랩스는 이 문제를 소프트웨어로 풀었다. 에이전트 워크로드를 각 단계로 쪼개고, 단계별로 가장 적합한 하드웨어에 자동으로 분배하는 오케스트레이션 소프트웨어가 핵심이다. GPU, 비(非) GPU 가속기, SRAM 기반 추론 전용 칩 등을 하나의 통합 풀로 묶어 워크로드를 최적 조합으로 처리하는 구조다. 회사는 이 플랫폼을 ‘짐렛 클라우드(Gimlet Cloud)’라고 부르며, 동일한 전력 범위 내에서 1조 파라미터 규모 프런티어 모델을 기준으로 기존 GPU 단독 대비 3~10배의 성능 향상을 실현한다고 밝혔다.

비즈니스 모델도 영리하게 설계됐다. 짐렛랩스는 자체적으로 이종 하드웨어를 갖춘 멀티실리콘 데이터센터를 운영하는 동시에, 고객사가 보유한 데이터센터에 소프트웨어만 배포하는 온프레미스(on-premises) 옵션도 함께 제공한다. 막대한 자본이 필요한 데이터센터 직접 건설에만 의존하지 않고 소프트웨어 라이선스로도 수익을 낼 수 있는 구조다. 실제로 엔비디아(NVIDIA), AMD, 인텔(Intel), ARM, 세레브라스(Cerebras), 디-매트릭스(d-Matrix) 등 주요 칩 메이커들과 파트너십을 맺고 있어 이들의 하드웨어를 통합 운용하는 소프트웨어 레이어로서의 입지도 다지고 있다. 지난달에는 디-매트릭스와 협력해 GPU와 디-매트릭스의 메모리 최적화 가속기를 혼합 운용, 기존 GPU 단독 대비 와트당 처리 성능을 최대 10배 끌어올리는 성과도 발표한 바 있다.

짐렛랩스는 재인 아스가르(Zain Asgar), 미셸 응우옌(Michelle Nguyen), 오미드 아지지(Omid Azizi), 나탈리 세리노(Natalie Serrino)가 함께 창업했다. 이들은 쿠버네티스 옵저버빌리티 툴을 개발해 2020년 뉴렐릭(New Relic)에 매각한 픽시 랩스(Pixie Labs) 출신 팀이다. 아스가르 CEO는 엔비디아에서 GPU 아키텍트로, 구글 AI에서 엔지니어링 리드로 근무했으며 현재 스탠퍼드대학교 컴퓨터공학과 겸임교수를 맡고 있다. 그는 “현재 배포된 하드웨어의 15~30%만 실제로 활용되고 있다. 수천억 달러 규모의 자원이 방치되고 있다는 의미”라며, “우리의 목표는 AI 워크로드 효율을 10배 높이는 것”이라고 밝혔다.

Gimlet Labs complex multi agents dark - 와우테일

지난해 10월 공식 출범 시점에 이미 연간 1,000만 달러 이상의 매출을 올리고 있었고, 이번 시리즈A 발표 기준으로 고객사는 출범 5개월 만에 세 배로 늘었다. 특히 상위 3위 안에 드는 프런티어 AI 랩과 상위 3위 하이퍼스케일러(대형 클라우드 사업자)를 각각 고객으로 확보했다. 외부 추론 서비스 업체에는 좀처럼 맡기지 않는 독점 프런티어 모델 운영 워크로드도 짐렛랩스의 인프라 위에서 돌아가고 있다는 점에서 이례적이라는 평가다. 

주요 앤젤 투자자로는 피그마(Figma) CEO 딜런 필드(Dylan Field), 노션(Notion) COO 악샤이 코타리(Akshay Kothari), 인텔 CEO 립-부 탄(Lip-Bu Tan), 전 VM웨어(VMware) CEO 라구 라구람(Raghu Raghuram), 시쿼이아캐피털(Sequoia Capital)의 빌 코런(Bill Coughran) 등이 이름을 올렸다.

AI 추론 인프라 시장은 급팽창 중이지만 플레이어마다 역할이 뚜렷하게 나뉜다. 코어위브(CoreWeave), 람다(Lambda) 같은 네오클라우드 업체들이 GPU를 대량 확보해 시간당 빌려주는 임대 사업자라면, 그 위 레이어에는 기업들이 AI 모델을 손쉽게 배포·운영할 수 있도록 돕는 관리형 추론 플랫폼들이 있다. 베이스텐(Baseten)은 올해 초 엔비디아 참여 3억 달러 투자로 밸류 50억 달러를 달성했고, 모달랩스(Modal Labs)는 25억 달러 밸류로 신규 투자를 논의 중인 것으로 알려졌다(미확정). 파이어웍스AI(Fireworks AI)는 지난해 10월 40억 달러 밸류로 2억5천만 달러를 조달했다. 추론 엔진 레이어에서는 오픈소스 프로젝트 SGLang을 기반으로 창업한 래딕스아크(RadixArk)가 4억 달러 밸류를 인정받았다.

짐렛랩스는 이들 관리형 플랫폼보다 더 깊은 레이어, 즉 이종 하드웨어 자체를 어떻게 묶고 최적으로 오케스트레이션하느냐에 집중한다. 대형 AI 모델 랩과 하이퍼스케일러가 주요 고객이라는 점에서도 일반 기업 개발자를 주 고객으로 삼는 베이스텐·모달랩스와는 시장이 다르다.

자체 추론 전용 칩(LPU)을 만들던 그로크(Groq)은 지난해 12월 엔비디아와 200억 달러 규모의 기술 라이선스 계약을 체결했다. 그록은 칩 설계사이므로 짐렛랩스의 직접 경쟁 상대가 아니다. 오히려 그록 같은 특화 가속기가 시장에 많아질수록, 이들을 하나의 풀로 통합해 운용하는 짐렛랩스 소프트웨어의 가치는 더 높아진다. 이 거래가 주목받는 이유도 그 맥락에 있다. GPU 하나로 모든 것을 처리하던 시대가 저물고, 목적에 따라 다른 칩을 조합해 쓰는 이종 인프라 시대가 열리고 있다는 산업 전환의 신호이기 때문이다.

이번 투자금은 팀 확충과 추론 클라우드 확장에 투입할 계획이다. 멘로 벤처스의 팀 털리(Tim Tully) 파트너는 “이종 인프라는 피할 수 없는 방향이고, 짐렛랩스는 이미 앞서 있다. 지금의 인프라 대부분은 동종 하드웨어 세계를 전제로 설계됐고, 업계는 그 대가로 수천억 달러의 자본 지출을 치르고 있다”며 “짐렛이야말로 에이전트 AI에 맞게 처음부터 이종성을 염두에 두고 설계된 유일한 인프라”라고 밝혔다. 맥킨지(McKinsey)는 현재의 컴퓨트 확장 추세가 이어질 경우 2030년까지 데이터센터 지출이 약 7조 달러에 달할 것으로 전망하고 있다.

기사 공유하기

답글 남기기