한국 대학생이 만든 ‘나리랩스’, 구글-일레븐랩스 넘는 AI 음성 모델 개발


한국의 두 대학생이 설립한 나리랩스(Nari Labs)가 구글의 NotebookLM에 맞서는 오픈소스 AI 음성 모델 ‘Dia’를 개발해 화제를 모으고 있다. 음성합성 시장이 급성장하며 일레븐랩스(ElevenLabs), 세사미(Sesame) 등과 경쟁하는 가운데, 나리랩스는 자금 없이 단 3개월 만에 고성능 텍스트-음성(TTS) 모델을 완성했다.

Nari Labs Dia - 와우테일

일레븐랩스는 올해 초에 기업가치 33억 달러(약 4조원)에 1.8억 달러를 투자받았고, 세사미는 10억 달러 이상 가치에 2억 달러 투자를 유치 중인 것으로 알려졌다. 

나리랩스가 개발한 16억 파라미터 규모의 Dia는 텍스트 대사로 사실적인 대화 음성을 생성하며, 오디오 프롬프트를 통해 감정과 톤을 자유롭게 조절할 수 있다. 특히 웃음, 기침, 한숨 같은 비언어적 표현을 자연스럽게 구현해, “(laughs)” 같은 텍스트를 실제 웃음 소리로 바꾸는 점에서 차별화된다. 일레븐랩스, 세사미, NotebookLM과 비교해도 뛰어난 음질과 대화 처리 능력을 자랑하며, 팟캐스트, 오디오북, 가상 비서 등 다양한 응용 가능성을 보여준다.

나리랩스는 공동 설립자 토비 김을 포함한 두 대학생으로 구성된 소규모 팀이다. AI 전문 지식 없이 2023년 말 구글 NotebookLM의 팟캐스트 기능에 영감을 받아 개발을 시작했고, 구글 TPU Research Cloud의 지원으로 고성능 모델을 훈련했다. Dia는 PyTorch 2.0+와 CUDA 12.6 기반으로, 10GB 이상 VRAM GPU에서 실행된다. 현재 영어만 지원하지만, 다국어 확장과 CPU 호환성을 계획 중이다. Apache 2.0 라이선스로 허깅페이스(Hugging Face)깃허브(GitHub)에 공개됐으며, ZeroGPU Space를 통해 설치 없이 테스트할 수 있다.

나리랩스는 향후 다국어 지원, 소비자용 버전, 소셜 기능을 갖춘 음성 플랫폼 개발을 목표로 하며, 토비 김은 “고품질 음성 AI를 누구나 사용할 수 있게 하겠다”고 밝혔다. 디스코드(Discord)를 통해 사용자 피드백을 수집하며 책임 있는 AI 사용을 강조한다.

기사 공유하기

답글 남기기