레몬 슬라이스, 1050만 달러 투자 유치.. “사진 한 장으로 실시간 대화 AI 아바타 생성”


레몬 슬라이스(Lemon Slice)와이콤비네이터(Y Combinator)와 매트릭스 파트너스(Matrix Partners)가 주도한 시드 라운드에서 1050만 달러를 투자받았다. 드롭박스 CTO 아라시 페르도우시(Arash Ferdowsi), 트위치 CEO 에밋 시어(Emmett Shear), 유명 DJ 듀오 더 체인스모커스(The Chainsmokers)도 투자에 동참했다.

lemon slice logo - 와우테일

MIT와 스탠퍼드 출신 연구자들이 2024년 창업한 레몬 슬라이스는 사진 한 장만으로 실시간 대화가 가능한 AI 아바타를 만드는 기술을 개발한다. 공동 창업자 리나 콜루치(Lina Colucci), 시드니 프리마스(Sidney Primas), 앤드류 와이츠(Andrew Weitz)는 이전에도 함께 ML 컨설팅 회사를 운영하며 나이키, 구글 등을 고객사로 둔 경험이 있다.

레몬 슬라이스의 핵심 제품 ‘레몬 슬라이스-2(Lemon Slice-2)’는 200억 개 파라미터 규모의 디퓨전 모델이다. GPU 한 대로 초당 20프레임 속도의 실시간 영상을 만들어낸다. 사용자가 사진 한 장을 올리면, 그 이미지를 바탕으로 고객 상담, 학습 도우미, 정신건강 상담 등 다양한 역할을 수행하는 디지털 아바타가 생성된다. 아바타를 만든 뒤에도 배경이나 스타일, 캐릭터 외형을 자유롭게 바꿀 수 있다.

콜루치는 생성형 AI 초기에 여러 비디오 모델을 실험하면서 비디오가 반드시 대화형으로 진화할 것임을 깨달았다고 말했다. 챗GPT가 사람들을 사로잡은 이유가 대화할 수 있다는 점이었기에, 비디오에도 그런 상호작용 기능을 더하고 싶었다고 덧붙였다.

사람 모습의 아바타뿐 아니라 동물이나 가상 캐릭터 같은 비인간형 아바타도 만들 수 있다. 아바타의 목소리는 일레븐랩스(ElevenLabs) 기술로 생성한다. 회사는 API와 한 줄의 코드로 웹사이트에 삽입할 수 있는 위젯 형태로 서비스를 제공한다.

레몬 슬라이스가 내세우는 차별점은 자체 개발한 범용 디퓨전 모델이다. 디퓨전 모델은 노이즈 섞인 데이터에서 역으로 학습해 새로운 결과물을 만들어내는 생성형 AI의 한 방식이다. 구글의 Veo나 오픈AI의 소라처럼 최첨단 비디오 생성 모델들이 채택하는 접근법이기도 하다.

YouTube 동영상

디퓨전 모델의 핵심은 ‘노이즈 제거’ 과정이다. 정적인 노이즈 상태에서 시작해 수십, 수백 단계를 거치며 점진적으로 노이즈를 걷어내 최종 영상을 완성한다. 레몬 슬라이스는 여기에 트랜스포머 구조를 결합한 ‘디퓨전 트랜스포머’ 방식을 쓴다. 언어 모델 GPT가 트랜스포머로 텍스트를 이해하듯, 레몬 슬라이스는 트랜스포머로 영상의 시공간 패치를 처리한다.

이미 시장을 선점한 경쟁사들은 각자 다른 접근법을 택했다. 기업가치 21억 달러로 평가받는 신테시아(Synthesia)는 올해 1월 NEA 주도 시리즈D에서 1억8000만 달러를 조달했다. 기업용 교육과 마케팅 영상에 특화된 모델로, 230개 이상의 아바타를 제공하며 140개 언어를 지원한다.

헤이젠(HeyGen)은 지난해 6월 벤치마크(Benchmark)가 이끈 시리즈A에서 6000만 달러를 투자받았고, 기업가치는 5억 달러로 평가받았다. 포네틱 애니메이션 방식으로 입 모양을 정교하게 구현하는 게 강점이다.

타부스(Tavus)는 지난 11월 CRV가 주도한 시리즈B에서 4000만 달러를 유치했다. 감정 인식과 실시간 상호작용에 특화된 ‘PALs(Personal Affective Links)’ 기술로 차별화를 꾀한다. 이스라엘의 D-ID는 2022년 시리즈B에서 2500만 달러를 투자받았다. 사진 한 장을 애니메이션으로 만드는 데 강점이 있지만, 실시간 대화보다는 짧은 클립 생성에 집중한다.

이들은 모두 사전 녹화된 영상이나 특정 시나리오에 최적화된 모델을 쓴다. 반면 레몬 슬라이스의 디퓨전 모델은 처음부터 끝까지 통합된 방식으로 작동한다. 사람 얼굴이든 동물이든, 정적인 아바타든 역동적인 캐릭터든 하나의 모델로 처리할 수 있다. 특정 용도에 묶이지 않는다는 뜻이다. 데이터와 컴퓨팅을 늘릴수록 성능이 계속 향상되는 ‘스케일링’ 특성도 갖췄다.

콜루치는 지금까지 본 아바타 솔루션들이 제품 가치를 오히려 떨어뜨린다고 지적했다. 섬뜩하고 움직임이 부자연스러우며, 처음 몇 초는 그럴듯해 보이지만 대화를 시작하면 금방 어색함이 느껴진다는 것이다. 그는 아바타가 대중화되지 못한 건 단순히 품질이 충분하지 않았기 때문이라고 분석했다.

이 지점이 바로 투자자들이 주목한 부분이다. 매트릭스의 일리야 수카르(Ilya Sukhar) 파트너는 아바타가 영상 콘텐츠가 중요한 영역에서 큰 쓸모가 있을 것으로 봤다. 사람들은 긴 글을 읽기보다 유튜브로 배우는 걸 선호한다는 것이다. 그는 레몬 슬라이스의 기술력과 자체 모델이 다른 스타트업 대비 경쟁 우위를 제공할 것으로 평가했다.

수카르는 레몬 슬라이스가 실제로 제품을 출시한 경험이 있는 매우 기술적인 팀이라고 평가했다. 데모나 연구만 하는 게 아니라는 것이다. 그는 다른 경쟁사들은 특정 시나리오나 업종에만 집중하지만, 레몬 슬라이스는 다른 AI 분야에서 검증된 범용 스케일링 접근법을 쓴다고 설명했다. 데이터와 컴퓨팅을 늘리는 방식이다.

와이 콤비네이터의 재러드 프리드만(Jared Friedman)은 레몬 슬라이스가 아바타의 ‘어색한 느낌’을 극복할 수 있는 근본적인 기술 접근법을 쓰는 유일한 회사라고 봤다. 기존 아바타들은 실제 사람처럼 보이려다 오히려 묘하게 불편한 느낌을 준다. 이를 ‘불쾌한 골짜기(uncanny valley)’ 현상이라고 부른다. 사람과 거의 비슷하지만 완벽하지 않아서 생기는 위화감이다.

프리드만은 레몬 슬라이스의 디퓨전 모델이 이 한계를 넘어설 수 있다고 평가했다. 구글의 Veo3나 오픈AI의 소라와 같은 비디오 디퓨전 트랜스포머를 쓰기 때문이다. 처음부터 끝까지 통합된 범용 모델이라 성능 향상에 이론적 한계가 없다는 것이다. 다른 경쟁사들의 모델은 일정 수준 이상 개선되지 않는 반면, 레몬 슬라이스는 데이터와 컴퓨팅을 늘릴수록 실제 사람과 구분하기 어려운 수준까지 도달할 가능성이 있다고 프리드만은 설명했다. 사람 얼굴이든 동물 얼굴이든 모두 작동하고, 새 얼굴을 추가하는 데 이미지 하나면 충분하다고 덧붙였다.

레몬 슬라이스는 무단 얼굴이나 음성 복제를 막기 위한 안전장치를 갖췄고, 콘텐츠 검열에는 대형 언어 모델을 활용한다고 밝혔다. 회사는 구체적인 고객사 이름은 공개하지 않았지만 교육, 언어 학습, 전자상거래, 기업 교육 분야에서 이미 활용되고 있다고 전했다.

현재 직원 8명을 둔 레몬 슬라이스는 이번 투자금으로 엔지니어링과 영업·마케팅 인력을 늘리고, 모델 학습에 필요한 컴퓨팅 비용을 충당할 계획이다.

기사 공유하기

답글 남기기