오픈AI 음성모드 핵심 ‘라이브킷’, 1억 달러 투자유치로 유니콘 등극


챗GPT의 음성 대화 기능을 지탱하는 인프라 기업 라이브킷(LiveKit)이 1억 달러(약 1,450억원) 규모의 시리즈C 투자를 유치하며 기업가치 10억 달러(약 1조 4,500억원)를 달성했다. 음성 AI 시장이 폭발적으로 성장하는 가운데, 실시간 음성·영상 인프라의 핵심 플레이어로 자리매김했다는 평가다.

livekit logo - 와우테일

인덱스벤처스(Index Ventures)가 이번 투자를 주도했으며, 세일즈포스벤처스(Salesforce Ventures), 하나비캐피탈(Hanabi Capital)이 신규 투자자로 참여했다. 기존 투자자인 알티미터(Altimeter)와 레드포인트벤처스(Redpoint Ventures)도 후속 투자에 나섰다. 라이브킷은 이번 투자로 누적 투자금이 1억 8,300만 달러(약 2,655억원)에 이르렀다.

2021년 팬데믹 시기 오픈소스 프로젝트로 시작한 라이브킷은 개발자들이 실시간 음성·영상 애플리케이션을 쉽게 구축할 수 있도록 돕는 WebRTC 기반 인프라를 제공한다. 창업자 러스 드사(Russ d’Sa) 데이비드 자오(David Zhao)는 사이드 프로젝트에 실시간 비디오를 추가하려다 적절한 오픈소스 스택이 없다는 점을 발견하고 직접 솔루션을 만들기 시작했다.

현재 라이브킷은 OpenAI의 ChatGPT 고급 음성 모드(Advanced Voice Mode)를 비롯해 xAI의 Grok, 테슬라 차량 내 음성 비서, 스타링크 고객 지원 등 수백만 명이 매일 사용하는 음성 AI 서비스의 핵심 인프라를 담당하고 있다. 스포티파이, 메타, 마이크로소프트, 캐릭터AI, 스픽(Speak) 등 주요 기술 기업들도 라이브킷의 고객사다.

특히 미국 911 긴급 출동 센터의 약 25%가 라이브킷을 사용하고 있으며, 이를 통해 매주 최소 1명의 생명을 구하는 데 기여하고 있다고 회사 측은 밝혔다. 항공우주 기업들은 발사 및 비행 관찰용으로, 스카이디오(Skydio)는 경찰 드론 원격 조종용으로 라이브킷을 활용 중이다.

음성 AI 시장은 급속도로 확대되고 있다. 시장조사 기관들에 따르면 글로벌 AI 음성 생성 시장은 2024년 약 41억 6,000만 달러에서 2031년 207억 달러로 연평균 30.7% 성장할 것으로 예상된다. 음성 AI 에이전트 시장은 2024년 24억 달러에서 2034년 475억 달러로 10년간 약 20배 성장할 전망이다.

라이브킷의 성장도 가파르다. 2023년 6월 2,250만 달러 규모의 시리즈A를 유치한 뒤, 2025년 4월에는 알티미터 주도로 4,500만 달러 시리즈B를 조달했다. 당시 대부분의 투자자들이 “음성 인터페이스는 3~5년 후의 일”이라고 회의적이었지만, OpenAI의 GPT-4o 공개와 함께 음성 AI가 산업 전반으로 확산되며 라이브킷도 빠르게 성장했다.

회사는 현재 500개 이상의 유료 고객과 10만 명 이상의 개발자를 보유하고 있으며, 지난해 연간 매출 런레이트(run rate)가 1,000만 달러를 넘어섰다. 직원 수는 약 50명 수준이다.

라이브킷이 제공하는 핵심 가치는 실시간 통신의 복잡성을 해결하는 것이다. 기존 인터넷 인프라는 고대역폭 데이터를 실시간으로 전송하도록 설계되지 않았다. 음성 AI는 사용자 기기에서 클라우드의 AI 모델로 음성 입력을 전달하고, 생성된 출력을 다시 사용자에게 전송하는 과정에서 극도로 낮은 지연시간(latency)을 요구한다. 라이브킷은 이를 위한 “신경계”를 구축했다고 표현한다.

회사가 제공하는 라이브킷 에이전트(LiveKit Agents) 프레임워크는 개발자들이 음성 AI 에이전트를 쉽게 구축할 수 있도록 돕는다. OpenAI, xAI, 구글 등 주요 AI 모델과의 통합을 지원하며, 자동 턴 감지(turn detection), 사용자 인터럽션 처리, 다중 에이전트 오케스트레이션 등의 기능을 제공한다. 월 다운로드 수는 100만 회를 넘어섰다.

최근에는 xAI와 파트너십을 맺고 Grok 음성 에이전트 API를 출시했다. 테슬라 차량과 모바일 앱에서 수백만 명이 사용하는 Grok 음성 기술을 개발자들이 자신의 애플리케이션에 통합할 수 있게 됐다. Grok은 700밀리초 이하의 응답 속도를 자랑하며, 웃음, 속삭임, 한숨 등 감정적 뉘앙스까지 표현할 수 있는 음성-음성(voice-to-voice) 모델을 사용한다.

러스 드사 CEO는 “라이브킷이 궁극적으로 구축하는 것은 ‘AIWS(AI-native Web Services)’로, 결제에서 스트라이프가 한 일을 커뮤니케이션 분야에서 하고 있다”며 “OpenAI가 뇌를 만든다면, 라이브킷은 그 뇌와 신호를 주고받는 신경계를 구축하고 있다”고 설명했다.

라이브킷은 단순한 인프라 제공을 넘어 종합 플랫폼으로 진화하고 있다. 최근 출시한 제품들로는 ▲라이브킷 폰 넘버스(LiveKit Phone Numbers): 전화망 직접 연결 서비스 ▲라이브킷 인퍼런스(LiveKit Inference): 저지연 AI 모델 게이트웨이 ▲에이전트 빌더(Agent Builder): 브라우저 기반 음성 에이전트 제작 도구 ▲워크플로우(Workflows): 복잡한 비즈니스 프로세스 자동화를 위한 다중 에이전트 오케스트레이션 엔진 등이 있다.

경쟁 환경도 치열하다. 실시간 커뮤니케이션 인프라 시장에는 트윌리오(Twilio), 아고라(Agora), 보나지(Vonage) 등 기존 강자들이 있다. 음성 AI 분야에서는 일레븐랩스(ElevenLabs)가 2025년 1월 33억 달러 가치로 1억 8,000만 달러를 조달하며 강력한 경쟁자로 부상했다. 딥그램(Deepgram), 어셈블리AI(AssemblyAI) 같은 음성 인식 전문 기업들과 바피(Vapi), 블랜드AI(Bland AI), 리텔AI(Retell AI) 같은 음성 에이전트 플랫폼들도 시장 점유율을 높이고 있다.

하지만 라이브킷은 오픈소스 기반의 개발자 친화적 접근과 OpenAI, xAI 같은 선도 AI 기업들과의 긴밀한 파트너십을 통해 차별화를 꾀하고 있다. 특히 WebRTC 기반의 낮은 지연시간과 전 세계에 분산된 인프라를 통한 안정적인 서비스 제공이 강점이다.

라이브킷은 이번 투자금으로 엔지니어링 및 제품 팀을 확대하고, 핵심 인프라를 확장할 계획이다. 특히 “탄력적 에이전트 컴퓨팅 서비스(elastic agent compute service)”를 개발 중인데, 이는 음성 에이전트를 자동으로 배포하고 트래픽에 따라 확장·축소하는 시스템이다.

음성이 컴퓨터와의 주요 상호작용 방식으로 자리잡으면서, 실시간 커뮤니케이션 인프라의 중요성은 더욱 커질 전망이다. 드사 CEO는 “음성은 우리가 매일 사용하는 가장 자연스러운 인터페이스이며, 역사상 처음으로 컴퓨터와도 같은 방식으로 상호작용할 수 있게 됐다”고 강조했다.

기사 공유하기

답글 남기기