인셉션, 디퓨전 LLM으로 5천만 달러 시드 투자 유치…”기존보다 10배 빠르다”


스테이블 디퓨전, 미드저니, 소라를 가능하게 한 디퓨전 기술의 공동 발명자가 이번엔 언어모델 시장에 도전장을 냈다. 스탠포드 대학교 스테파노 에르몬(Stefano Ermon) 교수가 창업한 AI 스타트업 인셉션(Inception)이 시드 라운드에서 5천만 달러(약 700억원) 규모의 투자를 유치했다.

Inception Team - 와우테일

시드 단계 투자 규모로는 매우 이례적인 금액이다. 통상 시드 라운드가 수백만 달러에서 1000만 달러 수준인 점을 고려하면, 인셉션이 받은 관심이 얼마나 뜨거운지 알 수 있다. 실리콘밸리 유력 벤처캐피털인 멘로 벤처스(Menlo Ventures)가 이번 라운드를 주도했고, 메이필드(Mayfield), 이노베이션 인데버스(Innovation Endeavors), 마이크로소프트 M12, 스노우플레이크 벤처스(Snowflake Ventures), 데이터브릭스 인베스트먼트(Databricks Investment), 엔비디아의 벤처 부문 엔벤처스(NVentures)가 대거 참여했다. 여기에 구글 브레인 창립자 앤드류 응(Andrew Ng), 오픈AI 공동창업자 안드레이 카파시(Andrej Karpathy) 등 AI 업계 거물들까지 엔젤 투자자로 합류하며 화제를 모았다.

인셉션은 투자 발표와 동시에 자사 플래그십 모델 머큐리(Mercury)의 대폭 업그레이드 버전을 공개했다. 에르몬 CEO는 “AI 모델 훈련은 점점 빨라지고 있지만, 실제 서비스 단계에서 비효율적인 추론 속도가 가장 큰 걸림돌이 되고 있다”며 “디퓨전이 최고 성능의 모델을 실용적 규모로 활용할 수 있게 만드는 해법”이라고 강조했다.

에르몬 교수는 2019년부터 스탠포드 연구실에서 디퓨전 기술을 텍스트에 적용하는 연구를 진행해왔다. 수년간의 연구 끝에 획기적인 돌파구를 찾아냈고, 이를 논문으로 발표한 뒤 작년 여름 상용화를 위해 인셉션을 설립했다. 공동창업자로는 UCLA 교수 아디티아 그로버(Aditya Grover), 코넬대 교수 볼로디미르 쿨레쇼프(Volodymyr Kuleshov)가 함께했다. 세 사람 모두 디퓨전 모델, 플래시 어텐션(Flash Attention), DPO(Direct Preference Optimization) 등 생성형 AI의 핵심 기술 개발에 참여한 인물들이다.

인셉션의 핵심 혁신은 이미지·영상 생성에 쓰이던 디퓨전 기술을 텍스트에 적용했다는 점이다. 먼저 디퓨전 모델이 무엇인지 이해할 필요가 있다. 미드저니나 스테이블 디퓨전 같은 이미지 생성 AI를 써본 사람이라면 익숙할 것이다. 이들은 처음 노이즈(잡음)로 가득한 흐릿한 이미지에서 시작해 점진적으로 노이즈를 제거하면서 선명한 그림을 완성한다. 마치 안개가 걷히듯 전체 이미지가 동시에 개선되는 방식이다.

반면 기존 언어모델은 완전히 다른 방식으로 작동한다. GPT나 제미니 같은 LLM은 자기회귀 방식을 쓴다. 왼쪽에서 오른쪽으로, 단어를 하나씩 순차적으로 생성한다. 첫 단어가 나와야 두 번째가 나오고, 세 번째를 만들려면 앞의 두 단어가 완성돼야 한다. 에르몬 교수는 “두 번째 단어는 첫 단어 없이 만들 수 없고, 세 번째 단어는 앞의 두 단어 없이 만들 수 없다”며 “이것이 구조적 병목”이라고 설명했다.

인셉션의 머큐리는 이미지 생성 방식을 텍스트에 그대로 적용했다. 토큰을 하나씩 예측하는 대신 전체 텍스트 블록을 한 번에 생성한다. 처음엔 ‘노이즈가 섞인 대략적인 텍스트’로 시작해 반복적으로 정제하면서 최종 답안을 완성하는 방식이다. 마치 흐릿한 이미지가 점점 선명해지듯, 애매한 텍스트가 정확한 문장으로 수렴한다. 핵심은 모든 단어가 순차적이 아닌 병렬로 동시에 개선된다는 점이다. 이 때문에 GPU를 훨씬 효율적으로 활용할 수 있고, 결과적으로 생성 속도가 극적으로 빨라진다.

Inception Benchmark - 와우테일

성능 차이는 극적이다. 머큐리는 엔비디아 H100 GPU에서 초당 1000토큰 이상을 생성한다. 기존 LLM이 초당 200토큰 정도를 만드는 것과 비교하면 5~10배 빠른 속도다. 오픈AI GPT-4o 미니, 앤스로픽 클로드 하이쿠 같은 속도 최적화 모델보다도 빠르면서 품질은 동등하거나 더 우수하다는 게 회사 측 설명이다. 에르몬 교수는 “이런 속도는 기존에 그로크(Groq), 세레브라스, 삼바노바 같은 전용 칩에서만 가능했다”고 말했다.

실제 벤치마크에서도 머큐리의 성능이 입증됐다. 코딩 능력을 평가하는 코파일럿 아레나(Copilot Arena)에서 머큐리 코더 미니는 GPT-4o 미니, 제미나이 1.5 플래시 같은 모델을 제치고 2위에 올랐다. 심지어 GPT-4o 같은 대형 모델보다 높은 점수를 받았다. 속도는 GPT-4o 미니보다 4배 빠르다.

머큐리는 이미 실무에 투입되기 시작했다. 프록시AI, 빌드글레어, 킬로 코드 등 여러 개발 도구에 통합됐다. 개발자들은 머큐리의 빠른 응답 속도를 활용해 코드 자동완성, 실시간 제안, 즉각적인 편집 적용 같은 기능을 구현하고 있다. 포춘 500대 기업 여러 곳도 고객 지원 챗봇, 음성 에이전트 등에 머큐리를 테스트 중이다.

가격도 경쟁력 있다. 입력 토큰 100만 개당 0.25달러, 출력 토큰 100만 개당 1달러다. 클로드 4.5 하이쿠와 비교하면 5배 빠른 속도에 가격은 4분의 1 수준이다. 신규 사용자에게는 1000만 토큰을 무료로 제공하며, API는 오픈AI와 호환돼 기존 시스템에 쉽게 통합할 수 있다.

인셉션은 이번 투자금으로 연구개발 인력을 확충하고 제품 라인업을 확대할 계획이다. 회사 측은 디퓨전 모델이 단순히 빠른 것을 넘어 환각(hallucination) 감소를 위한 자체 오류 수정, 텍스트·이미지·코드를 아우르는 멀티모달 처리 등 새로운 가능성을 열 것으로 기대하고 있다. 에르몬 교수는 “모든 LLM이 디퓨전 패러다임을 기반으로 하는 미래를 그리고 있다”며 “이는 생성형 AI를 더 빠르고, 저렴하고, 품질 좋게 만들 것”이라고 전망했다.

기사 공유하기

답글 남기기