음성 AI 플랫폼 ‘딥그램’, 1.3억 달러 투자 유치하며 유니콘 등극


음성 AI 인프라 시장에 대형 투자가 이어지고 있다. 실시간 음성 AI 플랫폼 딥그램(Deepgram)이 1억 3000만 달러(약 1560억원) 규모의 시리즈C 투자를 유치했다고 13일 발표했다. 이번 투자로 딥그램의 기업가치는 13억 달러(약 1조 5600억원)로 평가받으며 유니콘 기업에 합류했다.

deepgram - 와우테일

이번 라운드는 유럽과 북미 고성장 테크 기업에 집중 투자하는 AVP가 주도했다. 기존 투자자인 알케온(Alkeon), 인큐텔(In-Q-Tel), 마드로나(Madrona), 타이거 글로벌(Tiger Global), 윙(Wing), 와이콤비네이터(Y Combinator)와 블랙록이 운용하는 펀드들이 재투자했다. 신규 투자자로는 앨럼나이 벤처스(Alumni Ventures), 프린스빌 캐피털(Princeville Capital)이 합류했다. 트윌리오(Twilio), 서비스나우 벤처스(ServiceNow Ventures), SAP, 시티 벤처스(Citi Ventures) 등 전략적 투자자들도 참여했다. 미시간대와 컬럼비아대도 투자자로 이름을 올렸다.

딥그램은 실시간 음성 인식(STT), 음성 합성(TTS), 완전 자율 음성 에이전트를 제공하는 엔터프라이즈급 플랫폼이다. 현재 1300개 이상 기업이 딥그램 API로 음성 AI 기능을 구축 중이다. 지금까지 5만년 분량의 오디오를 처리했고 1조 개 이상의 단어를 전사했다.

스콧 스티븐슨 딥그램 공동창업자 겸 CEO는 “수십억 건의 동시 대화가 음성 AI로 구동되는 시대가 빠르게 다가오고 있다”며 “기업과 개발자들은 대규모 양방향 대화를 실시간으로 처리할 수 있는 인프라를 필요로 한다”고 말했다. 딥그램은 2016년 미시간대에서 암흑물질 연구를 수행하던 입자물리학 박사 출신 연구자들이 창업했다.

AVP의 엘리자베스 드 생테냥 제너럴 파트너는 “스트라이프가 결제 경제의 토대가 되는 API 플랫폼을 제공한 것처럼 딥그램은 B2B 음성 AI 경제의 핵심 플랫폼이 될 것”이라고 평가했다. 그는 “실시간으로 안정적이며 확장 가능한 음성 AI 인프라를 구축한 딥그램은 향후 10년을 대표하는 기반 AI 기업 중 하나가 될 것”이라고 전망했다. AVP는 딥그램의 유럽 등 핵심 시장 진출을 지원할 예정이다.

딥그램의 주력 제품은 업계 최고 정확도를 자랑하는 실시간 음성 인식 모델 노바-3(Nova-3), 비용 효율적인 음성 합성 모델 아우라-2(Aura-2), 음성 에이전트의 난제인 끼어들기 문제를 해결한 대화형 음성 인식 모델 플럭스(Flux) 등이다. 엔터프라이즈급 실시간 대화형 AI API인 보이스 에이전트 API와 음성 운영체제 사가(Saga)도 제공한다. 모든 모델은 산업별 전문 용어와 음향 환경에 맞춰 커스터마이징할 수 있으며 클라우드 API는 물론 온프레미스 배포도 지원한다.

딥그램은 이번 투자와 함께 레스토랑 음성 AI 업체 오프원(OfOne)의 인수를 발표했다. 오프원은 2022년 설립된 와이콤비네이터 출신 스타트업으로 드라이브스루 주문 자동화에 특화된 AI 음성 플랫폼을 개발해왔다. 95% 이상의 주문 처리율과 높은 직원 만족도를 기록하며 대형 QSR(퀵서비스 레스토랑) 브랜드들과 협력해왔다. 오프원 팀은 딥그램에 합류해 레스토랑 특화 솔루션인 ‘딥그램 포 레스토랑(Deepgram for Restaurants)’을 이끌게 된다. 인수 금액은 공개되지 않았다.

딥그램은 올해 여러 특허를 확보하며 기술력을 입증했다. 트랜스포머를 활용한 엔드투엔드 자동 음성 인식, 하드웨어 효율적인 자동 음성 인식, 딥러닝 내부 상태 인덱스 기반 검색 및 분류등이다. 이들 특허는 딥러닝 아키텍처, 표현 학습, 배포 효율성 등 핵심 영역에서 딥그램의 리더십을 뒷받침한다.

샌프란시스코에 새롭게 개설하는 음성 AI 협업 허브는 고객, 파트너, 개발자들이 직접 만나 협업하는 공간이 된다. 실무 세션, 라이브 데모, 경영진 브리핑, 커뮤니티 모임, 개발자 해커톤 등이 진행될 예정이다.

음성 AI 시장에는 대형 투자가 잇따르고 있다. AI 음성합성 스타트업 일레븐랩스(ElevenLabs)는 지난 1월 1억 8000만 달러 시리즈C 투자를 유치하며 기업가치 33억 달러를 인정받았다. 지난해 1월 8000만 달러 시리즈B로 유니콘에 등극한 지 1년 만에 기업가치가 3배 증가했다. 지난 9월에는 직원 지분 매각 프로그램을 통해 기업가치가 66억 달러까지 치솟았다.

오큘러스(Oculus) 공동창업자 브렌던 이리베가 설립한 대화형 AI 스타트업 세서미(Sesame)는 지난해 10월 2억 5000만 달러 시리즈B 투자를 유치했다. 세쿼이아 캐피털(Sequoia Capital)과 스파크 캐피털(Spark Capital)이 주도한 이번 투자로 세서미의 총 투자 유치 금액은 3억 달러를 넘어섰다. 세서미는 음성 기반 AI를 스마트 글래스에 통합한 제품을 개발 중이다.

프랑스 음성 AI 스타트업 그라디움(Gradium)은 창업 3개월 만에 7000만 달러 시드 투자를 유치하며 화제를 모았다. 퍼스트마크 캐피털(FirstMark Capital)과 유라제오(Eurazeo)가 주도하고 전 구글 CEO 에릭 슈미트와 프랑스 통신 억만장자 자비에 니엘 등이 참여한 이번 라운드는 유럽 음성 AI 분야 시드 투자 사상 최대 규모다. 구글 딥마인드 출신 연구진이 설립한 그라디움은 200밀리초 미만의 초저지연 음성 합성 기술을 개발하고 있다.

음성 AI 시장은 빠르게 성장하고 있다. 시장조사업체에 따르면 글로벌 AI 음성 생성 시장은 2024년 30억 달러에서 2030년 204억 달러 규모로 연평균 37.1% 성장할 전망이다. 음성 AI 인프라 시장은 2024년부터 2029년까지 124억 달러 증가하며 연평균 28% 성장할 것으로 예상된다.

트윌리오의 앤디 오도워 음성 및 비디오 제품 관리 부사장은 “트윌리오의 유연한 오케스트레이션 기능과 글로벌 통신 인프라를 딥그램 API 기반 음성 인식과 결합하면 지연 시간이 짧고 사람과 같은 AI 에이전트 경험을 제공할 수 있다”며 “이것이 오늘날 음성 AI 르네상스를 이끌고 있다”고 평가했다.

기사 공유하기

답글 남기기