vLLM 오픈소스, ‘인퍼랙트’로 독립…시드서 1.5억 달러·밸류 8억 달러


AI 업계의 병목이 바뀌고 있다. 지난 1년간 주요 AI 연구소들이 내놓은 모델들은 신뢰성이 크게 개선됐다. 덕분에 개발자들이 실제로 작동하는 앱을 만들 수 있는 영역이 훨씬 넓어졌다. Cursor의 에이전트 코딩, ChatGPT의 딥 리서치, 데카곤(Decagon)이나 하비(Harvey) 같은 분야별 AI 앱들이 그 증거다. 새 모델 출시를 기다릴 필요가 없다. 이미 나와 있는 모델만으로도 충분히 많은 걸 할 수 있게 됐다.

inferact logo - 와우테일

그래서 이제 추론(inference)이 핵심 과제로 떠올랐다. AI 추론 엔진의 대표 오픈소스 프로젝트였던 vLLM의 개발팀이 인퍼랙트(Inferact)라는 회사를 세우고 시드 라운드에서 1.5억 달러를 투자받았다. 안드레센 호로위츠(Andreessen Horowitz)와 라이트스피드 벤처 파트너스(Lightspeed Venture Partners)가 공동으로 주도했고, 회사 밸류는 8억 달러다.

인퍼랙트는 2023년 버클리 대학교 Sky Computing Lab에서 개발된 오픈소스 프로젝트 vLLM을 중심으로 만들어졌다. vLLM은 대규모 언어모델(LLM)의 추론 속도를 2~4배 높여주는 엔진이다. 현재 메타(Meta), 구글(Google), 캐릭터닷에이아이(Character.ai) 같은 대형 기업들이 실제 서비스에서 쓰고 있다. 2,000명 넘는 개발자가 기여했고, 지금 이 순간에도 전 세계 40만 개 이상의 GPU에서 돌아가고 있다. OpenAI 같은 주요 AI 랩과 하드웨어 제조사들도 자사 모델과 칩이 vLLM에서 첫날부터 작동하도록 직접 코드를 기여한다.

인퍼랙트 CEO 사이먼 모(Simon Mo)는 버클리 박사과정 학생이자 vLLM 프로젝트 창립 멤버다. 공동 창업자로는 같은 프로젝트의 핵심 개발자 권우석(Woosuk Kwon), 카이차오 유(Kaichao You), 로저 왕(Roger Wang)이 함께했다. 데이터브릭스(Databricks) 공동창업자이자 버클리 Sky Computing Lab 디렉터인 이온 스토이카(Ion Stoica) 교수도 창업 멤버로 참여했다. 투자에는 데이터브릭스 벤처캐피털, UC 버클리 총장 펀드 등이 함께했다.

인퍼랙트가 하려는 일은 크게 두 가지다. 첫째, vLLM 오픈소스 프로젝트에 전담 재정과 개발 리소스를 제공하는 것이다. 프로젝트가 커지면서 새로운 모델 아키텍처, 새로운 하드웨어 플랫폼, 멀티노드 배포 같은 여러 방향으로 동시에 확장해야 하는데, 이걸 제대로 지원하는 게 회사의 가장 중요한 역할이다. 둘째, 차세대 상용 추론 엔진을 만드는 것이다. 기존 추론 서비스 제공자들과 경쟁하는 게 아니라 소프트웨어 스택 자체를 개선하고 “범용 추론 레이어”를 구축하는 데 집중한다. 기존 제공자 대부분이 이미 vLLM을 내부에서 쓰고 있으니, 함께 협력해서 생태계 전체를 키우겠다는 전략이다.

인퍼랙트의 등장은 최근 AI 인프라 시장의 뚜렷한 패턴을 보여준다. 인기 있는 오픈소스 도구들이 수억 달러 가치의 스타트업으로 전환되고 있다는 것이다. 대표적인 예가 바로 하루 전 공개된 래딕스아크(RadixArk)다. 래딕스아크는 vLLM과 같은 버클리 Sky Computing Lab에서 2023년 만들어진 SGLang 프로젝트를 상업화한 회사로, 액셀(Accel) 주도로 4억 달러 밸류에 투자받았다. SGLang은 xAI와 Cursor 같은 회사들이 AI 모델을 더 빠르고 저렴하게 돌리는 데 쓰는 도구다.

인퍼랙트와 래딕스아크의 잇따른 대형 투자는 AI 업계의 무게중심이 모델 학습에서 모델 배포로 옮겨가고 있다는 명확한 신호다. 안드레센 호로위츠의 발표문에서도 강조하듯, 앞으로 추론 수요는 기하급수적으로 늘어날 전망이다. AI 에이전트가 더 길게 돌아가면서 작업당 단계 수가 늘어나고, 각 단계마다 생성되는 토큰 수도 늘어나기 때문이다. 이런 상황에서 수천 개의 동시 요청을 효율적으로 처리하려면 배칭(batching), 캐시 정책, 각 모델 연산자를 각 칩에서 어떻게 실행할지 같은 세밀한 관리가 필요하다. 바로 이 레이어를 해결하는 게 추론 엔진이다.

추론 최적화 시장은 이미 뜨겁다. 최근 베이스텐(Baseten)이 3억 달러를 50억 달러 밸류로 투자받은 것도 같은 맥락이다. AI 애플리케이션을 실제로 돌리는 인프라 레이어가 투자자들의 주목을 받고 있다.

안드레센 호로위츠 인프라팀에게 이번 투자는 특별한 의미가 있다. a16z는 2023년부터 vLLM 프로젝트를 소규모로 지원해왔다. 첫 vLLM 밋업은 a16z 사무실에서 열렸고, a16z의 첫 오픈소스 AI 그랜트도 vLLM 팀에게 갔다. 매트 본스타인(Matt Bornstein) 파트너는 “AI 앱, 에이전트, 워크로드가 다양한 하드웨어 플랫폼에서 돌아가는 미래가 올 것이고, vLLM이 이런 성장을 가능하게 할 것”이라며 “놀라운 창업자들이 작은 팀으로 일하면서 더 큰 인프라 커뮤니티 사이에서 움직임을 만들어내는, 옛날 방식으로도 엄청난 인프라 발전이 일어날 수 있다”고 강조했다.

시드 라운드 금액으로는 역대급이다. 일리야 수츠케버(Ilya Sutskever)의 SSI가 10억 달러를 받은 것보다는 적지만, 미스트랄 AI(Mistral AI)의 1.15억 달러를 넘어섰다. 이번 1.5억 달러 투자는 AI 추론 인프라에 대한 업계 관심이 얼마나 급격히 커지고 있는지 보여준다. 인퍼랙트는 이 자금으로 vLLM 엔진을 계속 개선하고, 엔터프라이즈 기능을 구축하며, 빠르게 성장하는 추론 시장에서 입지를 다질 계획이다.

기사 공유하기

답글 남기기