영상·이미지·음성·음악까지: 생성AI 서비스 시장 지형도 2026


몇 줄의 텍스트로 영상을 만들고, 사진 한 장으로 노래를 완성하고, 목소리를 복제해 140개 언어로 더빙한다. 불과 2~3년 전만 해도 SF 영화 속 장면이었던 일들이 지금 이 순간 실제 비즈니스 현장에서 벌어지고 있다.

gen AI Landscape cover - 와우테일

변화의 속도는 숫자로 드러난다. AI 음악 플랫폼 수노(Suno)에서는 하루에만 700만 곡이 만들어진다. 클링AI(Kling AI)는 출시 19개월 만에 6억 개의 영상을 쏟아냈다. 영상 AI 힉스필드(Higgsfield)는 창업 9개월 만에 ARR 2억 달러를 찍었다. 투자자들은 이 흐름에 수십억 달러를 베팅하고 있다.

이제 창작의 문법이 바뀌었다. 영상 제작에 수십 명의 인력과 수억 원의 예산이 필요하던 시대는 끝나간다. 마케터는 프롬프트 하나로 광고를 뽑아내고, 스타트업은 배우 없이 글로벌 캠페인을 돌린다. 와우테일이 영상·이미지·음성·음악 생성AI 시장의 주요 플레이어들을 한자리에 정리했다.

이 시장을 이해하는 핵심 구분선이 있다. 바로 모델을 직접 개발하는 곳그 모델을 가져다 서비스를 만드는 곳이다. 전자는 막대한 연산 자원을 투입해 파운데이션 모델을 훈련하고, 후자는 그 위에 UX와 워크플로를 얹어 특정 고객층을 공략한다. 해자의 성격도, 투자 논리도, 생존 방정식도 완전히 다르다. 아래 각 분야 정리에서 이 구분을 함께 표기했다.


영상(Video) 생성

영상 생성AI는 지금 가장 뜨겁게 달아오른 분야다. 창작 도구부터 마케팅 플랫폼, 기업용 아바타, 캐릭터 중심 영상, 실시간 생성, 중국발 저가 모델까지 치열한 경쟁이 펼쳐지고 있다. 특히 2026년 들어 감지되는 새로운 흐름은 모델 개발사들이 직접 콘텐츠 제작에 뛰어드는 것이다. 루마AI는 할리우드 스튜디오와 합작법인을 세웠고, 힉스필드는 자체 오리지널 시리즈를 내놓았다. 모델만 팔아서는 할리우드·넷플릭스·디즈니가 가져가는 막대한 콘텐츠 수익의 일부도 챙길 수 없다는 판단이 배경에 있다. 이 흐름은 기존의 “모델 레이어 vs 서비스 레이어” 구분을 흐리고 있다.

모델을 직접 만드는 곳

런웨이(Runway)는 영상 생성AI의 선두주자다. 2026년 2월 제너럴 애틀랜틱 주도로 3억1500만 달러 시리즈E를 유치하며 기업가치 53억 달러를 달성했다. 누적 조달액은 8억6000만 달러다. 최신 모델 Gen-4.5는 구글과 오픈AI의 영상 생성 모델을 여러 벤치마크에서 앞질렀다. 런웨이는 지금 한 걸음 더 나아가고 있다. “월드 모델(World Model)”이라 불리는 차세대 AI — 단순히 영상을 만드는 게 아니라 물리적 세계를 이해하고 시뮬레이션하는 시스템 — 개발에 투자를 쏟아붓고 있다. 의학, 기후, 에너지, 로보틱스 분야 응용을 목표로 하며, 자율주행차와 로보틱스 기업들과의 협업도 늘리고 있다.

루마AI(Luma AI)는 멀티모달 범용인공지능(AGI)을 목표로 하는 곳이다. 지난해 11월 사우디아라비아 공공투자펀드(PIF) 산하 AI 기업 휴메인(HUMAIN) 주도로 9억 달러 시리즈C를 유치했다. 기업가치는 40억 달러를 넘어섰다. 드림 머신(Dream Machine) 플랫폼으로 창작자들에게 영상과 이미지 생성 도구를 제공하며, 2024년 9월에는 세계 최초의 추론 비디오 모델 레이3(Ray3)를 선보였다. 2026년 4월에는 한발 더 나아가 원더 프로젝트(Wonder Project)·AWS와 합작으로 영상 제작 서비스 법인 ‘이노베이티브 드림스(Innovative Dreams)’를 설립했다. 모델 공급자에서 실제 영상 콘텐츠 제작자로 영역을 넓힌 것이다. 창업자 아밋 제인(Amit Jain)은 “AGI는 멀티모달이며 현실이 AGI의 데이터셋”이라고 강조한다.

문밸리(Moonvalley)는 영상 생성AI 업계의 이단아다. 경쟁사들이 저작권 소송에 시달리는 동안, 딥마인드·구글·메타·디즈니·드림웍스 출신들이 모인 이 캐나다 스타트업은 처음부터 100% 라이선스 데이터만으로 모델을 훈련했다. 제너럴 캐피털리스트 주도에 CAA, 컴캐스트벤처스 등이 참여해 누적 1억5400만 달러를 조달했다. 프로 영화감독을 위한 영상 AI 마레이(Marey)는 궤적 제어, 카메라 무브먼트, 모션 전환 등 할리우드급 제어 기능을 제공한다.

데카르트(Decart)는 실시간 영상 생성이라는 새 카테고리를 열었다. 이스라엘 텔아비브를 기반으로 2023년 창업한 이 스타트업은 2025년 8월 벤치마크·제브 벤처스 주도로 1억 달러 시리즈B를 유치하며 기업가치 31억 달러를 달성했다. 누적 조달액은 1억5300만 달러. 세계 최초 실시간 영상 생성 모델 오아시스(Oasis)는 공개 3일 만에 사용자 100만 명을 넘겼다. 후속 모델 미라지LSD(MirageLSD)는 실시간 라이브 영상을 좀비·레고·스팀펑크 등 각종 스타일로 즉석 변형한다. 데카르트의 무기는 자체 GPU 최적화 스택이다. 기존 영상 생성 모델이 시간당 수백~수천 달러의 연산 비용을 쓰는 반면, 데카르트는 이를 25센트 이하로 낮췄다. 구글 지니3(Genie 3) 외에 이 수준의 실시간 성능을 보여준 곳은 없다. 영상 생성과 월드 모델의 경계에 서 있는 독특한 포지션이다.

모델을 가져다 서비스를 만드는 곳

힉스필드(Higgsfield)는 AI 영상 분야에서 가장 빠르게 성장하는 플레이어다. 2026년 1월 시리즈A 1억3000만 달러, 기업가치 13억 달러를 확정하며 유니콘이 됐다. 창업 9개월 만에 ARR 2억 달러를 넘겼고 1년 만에 3억 달러를 돌파했다. 스냅에서 생성AI 수장을 지낸 알렉스 마슈라보프(Alex Mashrabov)가 창업했다. 힉스필드는 오픈AI·구글 등 외부 모델과 자체 로직을 결합한 풀스택 영상 제작 플랫폼이다. 사용자의 85%가 소셜미디어 마케터이며 하루 450만 건의 영상이 생성된다. 모델 자체가 아닌 “마케터가 쓰기 편한 UX와 워크플로”에 승부를 건 것이 성장의 비결이다. 최근에는 ‘힉스필드 오리지널 시리즈’를 론칭해 자체 콘텐츠 제작에도 나섰다. 루마AI와 마찬가지로 모델·서비스·콘텐츠까지 수직 통합하는 행보다. 힉스필드처럼 외부 모델을 하나의 인터페이스로 묶어주는 어그리게이터 포지션으로는 크레아(Krea)미라지(Mirage, 전 캡션즈)도 있다.

피카랩스(Pika Labs)는 스탠퍼드 AI 박사과정 출신들이 2023년 창업한 영상 생성 플랫폼이다. 스파크 캐피털 주도로 시리즈B에서 8000만 달러를 유치하며 누적 조달액 1억3500만 달러, 기업가치 약 4억7000만 달러를 기록했다. 어도비 파이어플라이(Adobe Firefly)에 공식 통합돼 기업 크리에이터 시장에도 발을 넓히고 있다.

캐릭터 중심 영상

기업용 아바타가 “프레젠터”라면, 캐릭터 중심 영상은 감정을 연기하는 디지털 배우를 만드는 분야다. 스토리텔링·광고·소셜 콘텐츠에서 캐릭터가 말하고 움직이는 장면이 핵심 가치인 영역이다.

헤드라(Hedra)는 이 카테고리의 선두주자다. 스탠퍼드 박사과정을 중퇴하고 창업한 마이클 링엘바흐(Michael Lingelbach)가 2023년 세운 이 스타트업은 2025년 5월 a16z 인프라 펀드 주도로 시리즈A 3200만 달러를 유치하며 누적 4400만 달러·기업가치 2억 달러를 달성했다. 자체 개발한 캐릭터-3(Character-3)는 이미지·텍스트·오디오를 동시에 처리하는 옴니모달 파운데이션 모델이다. 사진 한 장과 스크립트만 있으면 표정·입모양·눈동자 움직임이 자연스럽게 동기화된 캐릭터 영상을 만든다. 사용자 300만 명이 1000만 개 영상을 생성했고 ARR은 출시 4~6개월 만에 1000만 달러를 돌파했다. 2025년 7월 공개한 ‘라이브 아바타(Live Avatars)’는 앞서 언급한 라이브킷 인프라 위에서 구동되며, 100밀리초 미만 지연으로 실시간 대화형 AI 캐릭터를 구현한다. 헤드라는 캐릭터 모델을 직접 개발하면서도 영상 생성은 비오(Veo)·클링·플럭스(Flux)·이마젠(Imagen), 음성은 일레븐랩스·카트시아를 조합하는 하이브리드 구조다.

기업용 아바타 영상

신테시아(Synthesia)는 기업용 AI 아바타 영상 시장의 선두주자다. 2026년 1월 기업가치 40억 달러에 2억 달러 시리즈E를 유치했다. 포춘 100대 기업의 70%가 고객사이고 ARR은 1억5000만 달러에 달한다. 자체 아바타 모델을 일부 보유하고 있으나 핵심 경쟁력은 기업 워크플로 통합과 140개 언어 지원이다.

헤이젠(HeyGen)은 신테시아의 강력한 도전자다. 누적 6560만 달러를 조달한 작은 회사지만 고객 수 기준 연간 성장률이 152%에 달한다. ARR은 9500만 달러. 신테시아보다 50~75% 낮은 가격으로 프로슈머와 중소기업을 공략하며 빠르게 시장을 잠식하고 있다.

타부스(Tavus)는 실시간 대화형 AI 휴먼을 만드는 곳이다. 2025년 11월 시리즈B 4000만 달러를 유치했다. 헤이젠이나 신테시아가 미리 녹화된 영상을 활용하는 방식이라면, 타부스는 200밀리초 지연으로 실시간 양방향 대화가 가능한 AI 휴먼을 구현한다.

레몬슬라이스(Lemonslice)는 사진 한 장으로 실시간 대화 AI 아바타를 만드는 스타트업이다. 2025년 12월 1050만 달러를 투자받았다.

중국발 영상 AI의 부상

중국 AI 비디오 스타트업들은 미국 경쟁사보다 훨씬 빠른 속도로 성장하고 있다. AI 벤치마킹 기업 아티피셜 애널리시스(Artificial Analysis)가 추적하는 상위 8개 영상 생성 모델 가운데 이스라엘 스타트업 하나를 제외하면 나머지는 모두 중국 기업이다. 이들은 모두 자체 파운데이션 모델을 보유하고 있다.

쾌수(Kuaishou, 快手) 산하 클링AI(Kling AI)는 2024년 6월 출시 19개월 만에 ARR 2억4000만 달러를 달성했다. 사용자 6000만 명이 누적 6억 개의 영상을 만들었다. 미니맥스(MiniMax)의 하이루오AI(Hailuo AI)는 2026년 1월 홍콩 증권거래소에 상장하며 기업가치 40억 달러를 확인받았다. 알리바바가 주도해 6000만 달러를 투자한 픽스버스(PixVerse)는 등록 사용자 1억 명을 넘어섰다. 바이트댄스(ByteDance)의 시댄스(Seedance)는 2월 시댄스 2.0을 중국에서 먼저 공개했고 글로벌 출시를 준비 중이다. 할리우드 IP를 무단으로 활용한 영상이 쏟아지며 영화협회 등의 반발을 샀는데, 자세한 내용은 이 기사를 참고하길.

3D·월드 시뮬레이션

영상 생성AI의 다음 단계는 ‘세계를 이해하는 AI’다. ‘피지컬 AI의 어머니’로 불리는 페이페이 리(Fei-Fei Li)가 창업한 월드랩스(World Labs)는 공간 지능(Spatial Intelligence) 특화 스타트업으로, 2026년 2월 대규모 투자를 유치했다. 2D 이미지나 영상에서 3D 세계를 생성하는 ‘라지 월드 모델(Large World Model)’을 개발 중이다. 런웨이도 월드 모델 개발을 핵심 전략으로 삼고 있다. 앞서 영상 섹션에서 다룬 데카르트 역시 실시간 월드 생성 역량으로 이 카테고리 경계에 있다. 오픈AI의 소라(Sora)는 2025년 12월 공개 이후 불과 3개월 만에 서비스가 종료됐다.


이미지(Image) 생성

이미지 생성 시장은 모델 개발사들이 직접 소비자를 상대하는 구조가 특징이다. 별도의 애플리케이션 레이어 없이 모델 자체가 서비스가 되는 경우가 많다.

모델을 직접 만드는 곳

미드저니(Midjourney)는 AI 이미지 생성 시장의 이례적인 존재다. 외부 투자 한 푼 없이, 직원 107명으로 2025년 ARR 5억 달러를 달성했다. 직원 1인당 약 470만 달러의 매출을 올리는 셈이다. 시장점유율은 26.8%로 1위다. V7 모델로 손과 물체의 일관성 문제를 상당 부분 해소했고, 2025년 6월에는 영상 생성 V1 모델도 출시했다. 8월엔 메타(Meta)가 미드저니의 미적 기술을 라이선스하는 파트너십을 맺었다. 다만 디즈니·유니버설·워너브라더스 등 할리우드 메이저 스튜디오들의 저작권 소송이라는 법적 리스크가 남아 있다.

블랙포레스트랩스(Black Forest Labs)는 독일에서 스태빌리티AI(Stability AI) 출신 연구자들이 2024년 창업한 회사다. 창업 16개월 만에 3억 달러 시리즈B, 기업가치 32억5000만 달러를 달성했다. 세일즈포스벤처스와 a16z, 엔비디아, 제너럴 캐털리스트가 투자했다. FLUX 모델은 오픈소스와 상업용 이중 라이선스 전략으로 개발자 생태계와 기업 시장을 동시에 공략한다. 메타와 2년 1억4000만 달러 규모의 계약을 맺었고, 어도비·캔바·스냅과도 파트너십을 맺었다. ARR은 약 1억 달러다.

이데오그램(Ideogram)은 구글 브레인 출신들이 2022년 캐나다 토론토에서 창업했다. a16z가 주도한 시리즈A에서 8000만 달러를 조달했다. 이미지 속에 텍스트를 정확하게 렌더링하는 능력에서 업계 1위로 평가받는다. 로고, 포스터, 소셜미디어 배너처럼 문자가 포함된 이미지 제작에 강점이 있다.

리크래프트(Recraft)는 기업 브랜드 디자인 시장을 공략하는 이미지 생성 플랫폼이다. 2025년 5월 액셀 주도로 시리즈B 3000만 달러, 누적 4200만 달러를 조달했다. 자체 개발한 V3 모델은 2024년 업계 벤치마크 ‘아티피셜 애널리시스(Artificial Analysis)’에서 DALL-E와 미드저니를 제치고 1위를 기록했다. 러시아 검색엔진 얀덱스 출신 안나 베로니카 도로구시(Anna Veronika Dorogush)가 창업했다. 차별점은 브랜드 일관성이다. 로고와 제품을 이미지 안에 정확한 위치에 배치하는 포지셔닝 제어가 가능해, 아마존·엔비디아·세일즈포스·우버 같은 대기업 디자인 팀이 고객사로 올라가 있다. 사용자 400만 명, ARR 500만 달러 규모다. 미드저니가 창작자 커뮤니티를, 블랙포레스트랩스가 개발자 생태계를 공략한다면, 리크래프트는 기업 브랜드 팀을 정조준한다.

스태빌리티AI는 오픈소스 이미지 생성의 원조였지만, 창업자 퇴사와 재정난을 겪으며 업계 주도권을 잃었다. 블랙포레스트랩스의 창업자들이 바로 스태빌리티AI 출신이라는 점은 시사하는 바가 크다.

이미지 생성 분야에서는 미드저니·블랙포레스트랩스·이데오그램·리크래프트 모두 모델 개발과 서비스를 직접 운영한다. 어도비 파이어플라이처럼 이들의 모델을 가져다 자사 제품에 통합하는 빅테크는 아래 빅테크 섹션에서 다룬다.


음성·오디오(Voice/Audio)

음성 AI는 구조가 가장 뚜렷하게 나뉘는 분야다. 모델을 만드는 곳, 모델을 연결하는 통신 인프라, 그 위에서 실제 비즈니스 문제를 해결하는 애플리케이션—세 레이어가 명확하게 분리돼 있다. 각 레이어마다 해자도 투자 논리도 완전히 다르다.

모델을 직접 만드는 곳

일레븐랩스(ElevenLabs)는 AI 음성 시장을 통째로 바꾼 회사다. 2026년 2월 시퀀시아 주도로 5억 달러 시리즈D, 기업가치 110억 달러를 확정했다. 창업 3년 만에 기업가치가 11배로 뛴 것이다. 2025년 ARR은 3억3000만 달러이며 포춘 500 기업 중 41%가 고객사다. 텍스트-음성 변환(TTS)으로 시작해 음성 복제, 더빙, 음악 생성, 대화형 AI 에이전트 플랫폼 일레븐에이전트(ElevenAgents)까지 확장하며 AI 오디오 전 분야를 포괄하는 풀스택 플랫폼으로 진화했다. 폴란드 출신 마티 스타니제프스키(Mati Staniszewski)와 피오트르 다브코프스키(Piotr Dabkowski)가 2022년 창업했다.

세서미AI(Sesame AI)는 일레븐랩스와 정반대 지점을 노린다. 일레븐랩스가 “엔터프라이즈 음성 인프라”라면, 세서미는 “감정이 살아있는 AI 동반자”다. 2025년 10월 세쿼이아·a16z 공동 주도로 시리즈B 2억5000만 달러, 누적 3억7600만 달러를 유치했다. 오큘러스(Oculus) 공동창업자이자 전 CEO인 브렌던 이라이브(Brendan Iribe)가 세웠다. 자체 개발한 CSM(Conversational Speech Model)은 기존 TTS처럼 LLM 출력을 음성으로 변환하는 방식이 아니라, 텍스트와 오디오를 동시 처리해 리듬과 감정이 실린 대화를 직접 생성한다. 2025년 2월 공개한 음성 캐릭터 마야(Maya)와 마일즈(Miles) 데모는 몇 주 만에 100만 명이 접속해 500만 분의 대화를 나눴다. 단순히 기술이 좋다는 감탄을 넘어, 사용자가 “재미있어서 계속 쓰게 되는” 보기 드문 반응을 이끌어낸 것이 투자자들의 결심을 이끌었다. 세서미는 여기서 멈추지 않고 하루 종일 착용하는 AI 스마트 글래스 하드웨어까지 개발 중이다. 음성이 다음 인터페이스가 된다는 전제 아래 소프트웨어·모델·하드웨어를 모두 수직 통합하는 행보다.

딥그램(Deepgram)은 음성-텍스트 변환(STT) 모델 분야의 강자다. 2026년 1월 1억3000만 달러를 투자받았다. 초저지연 음성 인식 API를 대량 제공하며, 주요 AI 에이전트 플랫폼들의 기반 인프라로 광범위하게 채택됐다.

카트시아AI(Cartesia AI)는 음성 인프라 모델 시장의 신흥 강자다. 스탠퍼드 AI 연구자 카란 고엘(Karan Goel), 알버트 구(Albert Gu) 등이 2023년 창업했다. 클라이너 퍼킨스 주도로 시리즈A 6400만 달러를 조달해 누적 9100만 달러를 확보했다. 초저지연(75ms 이하) TTS API 소닉(Sonic)을 제공하며, 일레븐랩스보다 5분의 1 수준의 가격으로 비용에 민감한 기업 고객을 공략한다.

나리랩스(Nari Labs)는 한국계 음성 AI 스타트업이다. 2025년 4월 투자를 유치했다. 자체 개발한 텍스트-음성 변환 모델로 자연스러운 한국어 음성 합성에 강점이 있어, 한국어 AI 에이전트 시장의 핵심 인프라로 주목받고 있다.

그라디움(Gradium)은 프랑스 비영리 AI 연구소 키우타이(Kyutai)에서 분사한 음성 AI 스타트업이다. 시드 단계에서 7000만 달러를 조달한 이례적인 사례다. 얀 르쿤, 토마스 울프 등 유명 엔젤투자자들이 참여했다. 음성 전사, 합성, 변환, 대화를 단일 신경망으로 통합한 오디오 언어 모델을 개발 중이다.

미렐로(Mirelo)는 AI 비디오의 빈 곳을 채우는 스타트업이다. 영상 콘텐츠가 폭발적으로 늘어나는 동안 대부분의 AI 영상에는 소리가 없다는 점에 주목해, 영상을 분석해 동작과 맥락에 맞는 사운드 이펙트를 자동 생성하는 자체 모델을 개발했다. 인덱스 벤처스와 a16z 주도로 시드 4100만 달러를 조달했다. 창업자 CJ 시몬-가브리엘과 플로리안 벤젤은 아마존 AWS 연구소 출신 AI 연구자이자 음악가다.

모델과 서비스를 연결하는 통신 인프라

음성 AI 생태계에는 모델도, 최종 서비스도 아닌 독특한 레이어가 있다. 바로 실시간 통신 인프라다. AI 음성 에이전트가 실제 전화 통화처럼 작동하려면 음성 데이터를 초저지연으로 주고받을 ‘배관’이 필요한데, 이 레이어를 책임지는 곳이 라이브킷(LiveKit)이다. 2026년 1월 1억 달러를 유치했다. WebRTC 기반 오픈소스 프로젝트로 시작한 라이브킷은 자체 AI 모델을 만들지는 않지만, 딥그램·카트시아·일레븐랩스·오픈AI 등의 모델을 조합해 돌리는 음성 에이전트들의 공통 인프라로 자리 잡았다. 음성 AI 붐의 숨은 수혜자로, Zoom·Twilio 같은 기존 통신 인프라 회사들이 지켜온 시장을 AI 시대 버전으로 재편하고 있다.

모델을 가져다 서비스를 만드는 곳

음성 AI 에이전트는 전화나 음성 인터페이스를 통해 사람처럼 대화하며 실제 업무를 처리하는 서비스다. 레스토랑 예약 접수, 고객 문의 응대, 배달 주문 처리, 병원 예약 확인 같은 반복적인 통화 업무를 사람 없이 24시간 자동으로 처리할 수 있다. 기존 IVR(자동응답 시스템)과 달리 정해진 메뉴가 아니라 자유로운 대화가 가능하고 맥락을 이해해 유연하게 응답한다. 인간 상담원 대비 70% 이상 비용 절감이 가능해 투자가 빠르게 몰리는 분야다. 딥그램·카트시아·라이브킷 같은 인프라 모델 위에 실제 비즈니스 로직을 얹어 특정 버티컬을 공략하는 방식이다.

기가(Giga)는 6100만 달러를 유치하고 도어대시(DoorDash)와 협력하며 기업용 음성 AI 에이전트 시장을 공략하고 있다. 음식 배달 주문부터 고객 지원까지 실제 비즈니스 워크플로에 음성 AI를 통합하는 데 집중한다.

보이스런(VoiceRun)은 2026년 1월 투자를 유치하며 기업용 음성 에이전트 시장에 뛰어들었다.


음악(Music) 생성

음악 생성 분야는 현재 모델 개발과 서비스 운영이 동일 회사에 통합된 형태가 지배적이다.

모델을 직접 만드는 곳

수노(Suno)는 AI 음악 생성 시장의 압도적 1위다. 2025년 11월 멘로벤처스 주도로 2억5000만 달러 시리즈C를 유치하며 기업가치 24억5000만 달러를 기록했다. ARR은 2억 달러이며 사용자들이 하루 700만 곡을 만들어낸다. 텍스트 프롬프트로 보컬과 악기 연주가 포함된 완성곡을 몇 초 만에 생성한다. 9월 출시한 ‘수노 스튜디오’는 프로급 멀티트랙 편집 기능을 제공한다. 다만 유니버설뮤직그룹, 소니뮤직, 워너뮤직그룹 등 3대 음반사의 저작권 소송이 진행 중이다.

유디오(Udio)는 a16z 투자를 받으며 수노의 대항마로 떠올랐지만, 음반사와의 저작권 소송을 합의하면서 사용자가 생성한 곡의 소유권을 포기하는 조건을 수용해 성장에 제동이 걸렸다.


빅테크: 모든 레이어를 직접 장악한다

빅테크와 스타트업의 결정적 차이는 레이어 전략에 있다. 스타트업은 모델 또는 서비스 중 하나에 집중하지만, 빅테크는 파운데이션 모델 개발부터 소비자 서비스까지 수직 통합을 완성하고 있다. 자체 모델로 스타트업의 모델 레이어를 위협하는 동시에, 기존 플랫폼의 방대한 사용자 기반으로 서비스 레이어도 장악한다. 이것이 스타트업들이 빅테크를 경쟁자로 가장 두려워하는 이유다.

오픈AI(OpenAI)는 소라(Sora)로 영상, DALL-E로 이미지, 어드밴스드 보이스 모드로 음성 시장을 동시에 공략하고 있다. 소라는 2024년 12월 정식 출시됐지만 기대에 못 미친다는 평가를 받으며 서비스 3개월 만에 종료됐다.

구글 딥마인드(Google DeepMind)의 비오(Veo) 3는 네이티브 오디오와 물리 법칙 구현에서 높은 평가를 받는다. 이미지는 이마젠(Imagen) 4, 오디오 요약은 노트북LM(NotebookLM)으로 시장을 커버한다.

메타(Meta)는 무비젠(Movie Gen)으로 영상 시장을, 오디오크래프트(AudioCraft)로 음악 시장을 공략하며 오픈소스 전략을 유지하고 있다. 미드저니와 블랙포레스트랩스의 기술을 라이선스하며 생태계를 보강하고 있다.

마이크로소프트(Microsoft)는 2026년 4월 자체 개발 모델 MAI 시리즈 3종을 공개했다. MAI-트랜스크라이브-1(MAI-Transcribe-1)은 음성 전사, MAI-보이스-1(MAI-Voice-1)은 음성 생성, MAI-이미지-2(MAI-Image-2)는 이미지 생성에 특화됐다. 오픈AI 의존도를 줄이고 독자 AI 기술 경쟁력을 키우려는 전략의 일환이다.

어도비(Adobe)는 파이어플라이(Firefly)를 포토샵, 일러스트레이터, 프리미어 프로에 깊이 통합하며 기존 창작자 생태계를 AI로 업그레이드하는 전략을 취하고 있다. 자체 모델 개발과 함께 블랙포레스트랩스·피카랩스 등 스타트업 모델을 파이어플라이 플랫폼에 통합해 서비스 범위를 빠르게 넓히고 있다. 저작권 문제 없는 라이선스 학습 데이터를 무기로, 법적 확실성이 필요한 기업 고객들을 공략한다.

캔바(Canva)도 이 흐름에 합류했다. 2024년 호주의 AI 이미지 생성 스타트업 레오나르도AI(Leonardo AI)를 3억 달러에 인수해 자사 AI 크리에이티브 스위트의 엔진으로 편입시켰다. 디자인 협업 플랫폼 위에 AI 이미지·영상 생성 기능을 얹는 전략이다.


2026년, 시장을 관통하는 다섯 가지 흐름

생성AI 서비스 시장에서 지금 가장 중요한 다섯 가지 흐름을 정리했다.

중국 AI의 약진

클링AI의 ARR 2억4000만 달러, 미니맥스의 홍콩 상장, 픽스버스의 글로벌 1억 사용자. 중국 기업들은 더 빠르고 더 저렴한 자체 모델로 서구 스타트업을 압박하고 있다. AI 벤치마크 상위권에서 중국산 모델이 차지하는 자리는 이미 절반을 넘었다.

저작권 전쟁

할리우드는 AI 영상과 음악 서비스를 상대로 소송을 쏟아내고 있다. 미드저니·수노에 이어 클링AI까지 법적 압박이 이어진다. 누가 어떤 방식으로 데이터를 확보하느냐가 기업의 생존을 가른다. 문밸리처럼 처음부터 100% 라이선스 데이터만 쓰는 방식, 어도비처럼 저작권 확실성을 기업 마케팅으로 삼는 전략이 각광받는 이유다.

수직 통합의 가속화

루마AI는 할리우드 제작사와 합작법인을 세웠고, 힉스필드는 자체 오리지널 시리즈를 냈다. 세서미AI는 AI 동반자 소프트웨어를 넘어 하루 종일 착용하는 스마트 글래스 하드웨어까지 개발 중이다. 모델만 팔던 스타트업들이 콘텐츠와 하드웨어 레이어까지 직접 장악하려는 흐름이다. 빅테크와 스타트업의 경계가 희미해지고 있다.

실시간화

결과물을 기다려서 받던 생성AI가 이제 실시간 상호작용 매체로 진화하고 있다. 데카르트는 실시간 영상 생성을, 세서미AI는 실시간 감정 대화를, 타부스와 헤드라는 실시간 캐릭터 아바타를 구현했다. 라이브킷은 이 모든 것을 가능하게 하는 통신 인프라를 제공한다. “AI에게 말을 걸면 결과물이 나온다”는 패러다임이 “AI와 실시간으로 함께 만든다”는 패러다임으로 전환되고 있다.

월드 모델로의 진화

런웨이와 월드랩스는 이미 “영상을 만드는 AI”에서 “세계를 이해하는 AI”로 피벗을 선언했다. 데카르트의 실시간 세계 생성도 이 흐름의 일부다. 로보틱스, 자율주행, 시뮬레이션으로 영역을 확장하는 이 흐름이 생성AI 서비스의 다음 장을 쓸 것이다. [월드모델 지형도 확인]

이 기사는 영문기사로 발행되었습니다: 영문기사 보러가기

기사 공유하기

답글 남기기