프랑스 음성AI ‘그라디움’, 시드 단계서 7000만 달러 투자유치


프랑스 비영리 AI 연구소 큐타이(Kyutai)에서 분사한 음성 AI 스타트업 그라디움(Gradium)이 시드 라운드에서 7000만 달러(약 980억원)를 투자받았다. 회사 설립 3개월 만에 이뤄낸 성과로, 초기 단계 투자치고는 이례적인 규모다.

gradium team - 와우테일

퍼스트마크 캐피탈(FirstMark Capital)과 유라제오(Eurazeo)가 공동으로 리드했다. 여기에 DST 글로벌 파트너스(DST Global Partners), 구글 전 CEO 에릭 슈미트, 프랑스 통신재벌 자비에 니엘, CMA CGM 회장 로돌프 사데, 코렐리아 캐피탈(Korelya Capital), 앰플리파이 파트너스(Amplify Partners), 리퀴드2(Liquid2), 드라이스데일 벤처스(Drysdale Ventures) 등이 참여했다. 

엔젤 투자자 명단도 화려하다. 튜링상 수상자이자 메타 전 수석 AI 과학자 얀 르쿤, 데이터독 CEO 올리비에 포멜, 슈퍼셀 창업자 일카 파나넨, 허깅페이스 공동창업자 토마스 울프, 버셀 CEO 기예르모 라우흐 등이 이름을 올렸다.

그라디움은 음성을 사람과 기계 사이의 기본 인터페이스로 만들겠다는 비전을 갖고 있다. 핵심 기술은 음성 전사, 합성, 변환, 대화를 하나로 통합한 ‘오디오 언어 모델(Audio Language Model)’이다. 기존 음성 AI가 불안정하고 느리며 비용도 높다는 문제를 해결해, 초저지연으로 자연스러운 음성 상호작용을 구현하는 것이 목표다.

창업진은 음성 AI 분야의 선구자들이다. CEO 닐 제기두르(Neil Zeghidour)는 메타와 구글 딥마인드를 거쳐 큐타이 공동창업자로 활동했다. CTO 올리비에 테불은 구글 브레인, CCO 로랑 마자레는 구글 딥마인드와 제인스트리트, CSO 알렉상드르 데포세는 메타에서 근무한 경력이 있다. 이들은 신경 오디오 코덱과 오디오 언어 모델을 발명하고 오픈소스로 공개한 인물들로, 최초의 음성 복제·텍스트-음악 생성·음성-음성 번역 기술을 구현했다.

창업팀의 실력은 이미 검증됐다. 지난해 7월 큐타이에서 세계 최초 실시간 대화형 AI 모델 ‘모시(Moshi)‘를 공개해 업계의 주목을 받았다. 모시는 200밀리초의 초저지연으로 70가지 감정과 스타일로 대화할 수 있는 모델이다. 오픈AI가 고급 음성 모드를 발표만 하고 출시를 미루던 시점에 먼저 공개돼 화제가 됐다. 올해 2월에는 스마트폰에서도 구동 가능한 실시간 번역 모델 ‘히비키(Hibiki)‘도 선보였다. 이런 연구 성과를 상용화하기 위해 지난 9월 그라디움을 설립한 것이다.

제기두르 CEO는 “큐타이에서 오픈소스 연구 임무를 완수한 뒤, 대기업들로부터 다국어 지원과 더 높은 품질의 모델을 요청받기 시작했다”고 창업 배경을 설명했다. 오픈소스 프로토타입을 실제 제품으로 발전시키는 것은 비영리 연구소의 미션이 아니었기에 별도 회사를 세웠다는 것이다. 그라디움은 큐타이와 협력 관계를 유지하며 최신 연구를 빠르게 제품화할 수 있는 구조를 갖췄다.

서비스는 이미 시작됐다. 그라디움은 영어·프랑스어·독일어·스페인어·포르투갈어를 지원하는 실시간 다국어 전사 및 합성 API를 제공하고 있다. 설립 3개월 만에 매출을 내기 시작했고, 헬스케어 대화 에이전트·고객 지원·시장조사·게임 NPC·디지털 광고 아바타 등 다양한 분야에서 고객사를 확보했다. 현재 팀 규모는 9명이며, 소수 정예를 유지할 계획이다.

음성 AI 시장은 빠르게 커지고 있다. CB인사이츠에 따르면 지난해 이 분야 스타트업 투자는 전년 대비 8배 증가한 21억 달러를 기록했다. 대표 기업 일레븐랩스(ElevenLabs)는 올해 1월 1억8000만 달러 시리즈C 투자를 유치하며 33억 달러 기업가치를 인정받았고, 9월에는 66억 달러 기업가치로 직원 주식 매각을 진행했다. 연간 반복 매출(ARR)도 2억 달러를 돌파했다. 오픈AI, 앤트로픽, 메타, 미스트랄 등 주요 AI 기업들도 음성 모델을 속속 내놓으면서 경쟁이 치열해지고 있다.

그라디움은 기술력으로 승부하겠다는 전략이다. 제기두르 CEO는 “음성 AI의 잠재력은 아직 대부분 실현되지 않았다”며 “상호작용이 너무 거칠기 때문”이라고 진단했다. 사용자 말을 중간에 끊거나, 발화 종료 시점을 잘못 판단하거나, 부적절한 감정으로 응답하는 문제가 여전하다는 것이다. 그는 “정확도, 지연시간, 대화 흐름, 표현력 있는 합성이라는 네 가지 핵심 요소에서 기존 기술의 한계를 돌파하겠다”고 포부를 밝혔다.

그라디움은 2026년을 음성 AI의 근본적 기술 한계를 해결하는 시점으로 보고 있다. 제기두르 CEO는 “음성 전사 기술은 30년간 존재해왔지만 여전히 완전하지 않다”며 “이는 인력의 문제가 아니라 아키텍처의 문제”라고 강조했다. 회사의 목표는 명확하다. 전체 AI 경제의 인터페이스 레이어가 될 음성 인프라 기업이 되는 것이다.

기사 공유하기

답글 남기기