유튜브로 물리 법칙 배우는 로봇…로다AI, 파운데이션 모델로 4.5억  달러 투자 유치


산업 현장의 로봇 자동화는 오랫동안 ‘조건부 성공’이었다. 구조화된 환경에서는 잘 작동하지만, 레이아웃이 바뀌거나 한 번도 보지 못한 물체가 등장하는 순간 멈춰버리는 것이 현실이었다. 로다AI(Rhoda AI)는 바로 이 ‘현실 세계의 벽’을 넘겠다는 목표로 설립됐다.

Rhoda AI team - 와우테일

로다AI는 18개월간의 스텔스 운영을 마치고 공개 출범을 선언하며, 영상 예측 제어 방식에 기반한 로봇 지능 플랫폼 ‘퓨처비전(FutureVision)’을 공개했다. 동시에 시리즈A 투자 유치도 함께 발표했는데, 조달 규모는 4억 5000만 달러, 기업가치는 17억 달러로 평가됐다.

창업자 겸 CEO인 재그딥 싱(Jagdeep Singh)은 딥테크 연쇄 창업자다. 그는 이전에 고체 전지 스타트업 퀀텀스케이프(QuantumScape)를 공동 창업하고 CEO로 이끌었으며, 광통신 네트워크 기업 인피네라(Infinera)도 창업했다. 인피네라는 이후 노키아(Nokia)에 23억 달러에 인수됐다. 공동 창업자로는 최고과학책임자(CSO) 에릭 라이언 찬(Eric Ryan Chan), 스탠퍼드대 교수이자 연산 이미징 연구소장 고든 웻스타인(Gordon Wetzstein) 등이 포함돼 있다. 에릭 찬은 컴퓨터 비전과 생성 모델링 분야 연구자로, 이전에 월드랩스(World Labs)에서 생성 모델 설계를 담당했다.

인터넷 영상 수억 편으로 물리 세계 학습

기존 산업용 로봇은 미리 프로그래밍된 동작만 반복할 수 있고, 더 최근에 등장한 비전-언어-액션(VLA) 모델도 실험실에서는 인상적인 성능을 보이지만 실제 환경의 변동성을 처리하는 데는 한계가 있었다. 로다AI는 이 문제를 다른 방향에서 풀었다.

로다AI는 원격 조종 로봇 데이터에 주로 의존하는 대신, 수억 편에 달하는 인터넷 영상으로 모델을 사전 학습시켜 움직임, 물리학, 물리적 상호작용에 대한 강력한 사전 지식을 쌓는다. 이후 더 적은 양의 로봇 데이터로 사후 학습을 진행해 특정 로봇에 맞는 행동 방식과 영상 예측을 로봇 동작으로 변환하는 매핑을 학습시킨다.

이를 기반으로 개발된 것이 자체 독점 아키텍처인 직접 영상 액션(DVA, Direct Video Action) 모델이다. DVA 시스템은 환경을 지속적으로 관찰하고 미래 상태를 영상으로 예측한 후, 그 예측을 동작으로 변환해 실행하고 다시 세계를 관찰하는 과정을 수백 밀리초마다 폐루프 방식으로 반복한다. 이 구조 덕분에 상황이 변하더라도 실시간으로 물리 인식 제어가 가능하다. 또한 새로운 작업을 익히는 데 필요한 원격 조종 데이터가 단 10시간에 불과할 만큼 학습 효율도 높다.

퓨처비전은 이 아키텍처 위에 구축된 파운데이션 모델로, 로다 시스템의 지능 레이어로 기능하며 향후 다양한 로봇 하드웨어·소프트웨어 플랫폼에 라이선스 방식으로 제공될 예정이다.

실제 공장서 검증, 자동화 불모지 공략

이 기술은 이미 실제 생산 환경에서 효과를 입증했다. 고용량 제조 평가에서 로다의 로봇은 인간의 개입 없이 사이클당 2분 미만으로 부품 처리 워크플로를 완료하며 고객의 핵심 성과 지표(KPI)를 초과했다. 한 ‘분류(Decanting)’ 작업에서는 10kg 박스 개봉, 작은 탭 당기기, 변형 가능한 비닐 봉지 분류를 자율적으로 수행했는데, 해당 산업 파트너는 이 작업을 “자동화 불가능”으로 여겨왔던 공정이었다.

VC 펌 라이트모티프(Leitmotif) 매니징 파트너이자 전 폭스바겐 그룹 임원 옌스 비제(Jens Wiese)는 “제조 현장에서 변동성이 높은 작업은 오랫동안 자동화에 저항해왔다”며 “진짜 도전은 한 번 잘 되는 게 아니라, 실제 생산 조건에서 일관되고 안정적인 결과를 내는 것”이라고 말했다.

4억 5000만 달러 투자, 프렘지 인베스트 주도

이번 시리즈A는 캐프리콘 인베스트먼트 그룹(Capricorn Investment Group), 코슬라 벤처스(Khosla Ventures), 라이트모티프, 매터 벤처 파트너스(Matter Venture Partners), 메이필드(Mayfield), 프렘지 인베스트(Premji Invest), 프렐류드 벤처스(Prelude Ventures), 테마섹(Temasek), 조라(Xora)와 존 도어(John Doerr) 등 실리콘밸리 리더들이 참여했다. 이 중 프렘지 인베스트가 이번 라운드를 주도했다.

Rhoda AI logo - 와우테일

프렘지 인베스트 매니징 파트너 산데시 파트남(Sandesh Patnam)은 “현실 세계 환경에서 조작 가능한 지능형 로봇을 먼저 대규모로 배치하는 기업이 강력한 데이터 플라이휠을 시작하게 될 것”이라며 “로다가 그 목표를 달성하는 데 필요한 기술적 토대, 야망, 실행 역량을 갖추고 있다고 확신한다”고 밝혔다.

조달 자금은 지속적인 연구·개발 투자, 산업 배치 및 고객 파일럿 확대, 생성 AI·컴퓨터 비전·로보틱스에 걸친 다학제 팀 성장에 활용될 예정이다.

로봇 파운데이션 모델, 치열한 경쟁

로봇 AI 파운데이션 모델 시장은 대규모 자금이 집중되는 격전지다. 로다AI와 가장 직접적으로 경쟁하는 곳은 샌프란시스코의 피지컬 인텔리전스(Physical Intelligence)와 피츠버그의 스킬드AI(Skild AI) 두 곳이다.

피지컬 인텔리전스는 지난해 11월 알파벳 성장 펀드 캐피탈G(CapitalG) 주도로 6억 달러를 조달하며 기업가치 56억 달러를 기록했다. 누적 조달액은 11억 달러. 최근 e커머스 포장을 겨냥한 π₀.₆ 모델을 공개하며 로다와 타깃이 겹쳤다. 비전-언어-액션(VLA) 모델 방식을 택한 피지컬 인텔리전스와 달리, 로다는 인터넷 영상 기반 비디오 예측 제어라는 다른 기술 경로를 걷고 있다.

스킬드AI는 올해 1월 소프트뱅크 그룹(SoftBank Group)과 엔비디아(NVIDIA) 주도로 14억 달러를 유치하며 기업가치 140억 달러를 달성했다. ‘스킬드 브레인(Skild Brain)’이라는 파운데이션 모델을 어떤 로봇 하드웨어에든 탑재할 수 있는 플랫폼 전략을 추구하며, 대규모 시뮬레이션과 인터넷 영상 학습을 결합해 로봇 데이터 부족 문제를 해결한다는 점에서 로다와 접근법이 유사하다.

한편 로봇 하드웨어 영역에서는 테슬라(Tesla), 피규어AI(Figure AI), 유니트리(Unitree), 어질리티 로보틱스(Agility Robotics) 등이 휴머노이드 개발을 주도하고 있다. 로다AI는 파운데이션 모델의 타사 라이선스와 자체 로봇 하드웨어 개발을 병행하는 투트랙 전략을 검토 중인 것으로 알려졌다.

수억 편의 유튜브 영상에 담긴 물리 세계의 논리를 로봇에 이식하려는 시도. 실험실 밖 현실에서 로봇이 진정한 범용 도구로 자리잡을 수 있을지, 로다AI의 행보에 업계의 시선이 쏠리고 있다.

기사 공유하기

답글 남기기