엔비디아 “로봇 두뇌 무료로 쓰세요”… 코스모스 3 전격 오픈소스화


엔비디아가 로봇과 자율주행차를 위한 AI 모델을 공개했다. 이름은 코스모스 3(Cosmos 3). 5월 31일 발표된 이 모델의 핵심은 단순하다. 지금까지 로봇 개발자들이 따로따로 만들어야 했던 세 가지—보는 것, 생각하는 것, 움직이는 것—를 하나로 합쳤다.

엔비디아

엔비디아(NVIDIA)는 이 모델을 완전히 오픈소스로 공개했다. 모델 파일, 학습 방법, 데이터셋 전부를 무료로 풀었다. 누구나 내려받아 자기 로봇에 적용할 수 있다.

지금까지는 왜 복잡했나

로봇을 만들려면 세 가지가 필요하다. 첫째, 카메라로 본 영상을 이해하는 ‘시각 AI’. 둘째, “다음에 무슨 일이 벌어질까”를 예측하는 ‘물리 시뮬레이션’. 셋째, “팔을 어떻게 움직여야 컵을 집을까”를 계산하는 ‘동작 생성’.

지금까지는 이 세 가지를 각각 다른 모델로 만들어야 했다. 시각 AI는 A 회사 모델, 시뮬레이션은 B 회사 툴킷, 동작 생성은 연구실에서 직접 개발. 이걸 하나로 엮는 데만 몇 달이 걸렸다.

코스모스 3는 이 세 가지를 단일 모델 안에 집어넣었다. 엔비디아는 이걸 “피지컬 AI를 위한 파운데이션 모델”이라고 부른다. ChatGPT가 언어 AI의 기본 모델이라면, 코스모스 3는 로봇 AI의 기본 모델이 되겠다는 목표다.

어떻게 작동하나

코스모스 3는 두 개의 엔진을 갖고 있다. 엔비디아는 이걸 ‘리즈너(Reasoner)’와 ‘제너레이터(Generator)’라고 이름 붙였다.

리즈너는 영상을 보고 이해하는 엔진이다. “저기 컵이 있네. 사람 손이 다가오고 있어. 컵이 기울어질 것 같은데?”처럼 상황을 파악한다. 텍스트 설명, 이미지, 영상을 모두 입력받을 수 있다.

제너레이터는 미래를 만들어내는 엔진이다. 리즈너가 파악한 상황을 바탕으로 “컵이 넘어지면 이렇게 보일 거야”라는 영상을 생성한다. 동시에 “팔을 이렇게 움직이면 컵을 안전하게 잡을 수 있어”라는 동작 명령도 만든다.

두 엔진은 하나의 모델 안에서 실시간으로 정보를 주고받는다. 마치 사람의 눈과 뇌와 손이 협력하는 것처럼, 보고·판단하고·움직이는 과정이 끊김 없이 이어진다.

코스모스 3는 두 가지 크기로 나왔다. 나노(Nano) 버전은 80억 개의 파라미터를 가진 작은 모델이다. 일반 워크스테이션에 있는 GPU(엔비디아 RTX PRO 6000 같은)에서 실시간으로 돌아간다. 로봇 연구실이나 소규모 스타트업이 바로 쓸 수 있는 크기다. 슈퍼(Super) 버전은 320억 파라미터로, 대규모 데이터센터용이다. 자율주행차 시뮬레이션처럼 엄청난 양의 데이터를 만들어야 할 때 쓴다.

모델만 공개한 게 아니다. 엔비디아는 로봇, 물리 시뮬레이션, 자율주행, 창고 환경 등 여섯 가지 분야의 학습 데이터셋도 함께 풀었다. 모두 합성 데이터—즉, 실제로 촬영한 게 아니라 컴퓨터로 만든 영상이다. 모델 파일은 허깅페이스(Hugging Face)에, 코드는 깃허브(GitHub)에 올렸다. 학습 방법을 담은 스크립트도 제공한다.

엔비디아는 네 가지 벤치마크 테스트 결과를 공개했다. R-Bench(로봇 추론), PAI-Bench(피지컬 AI 통합), Physics-IQ(물리 법칙 이해), RoboLab(로봇 제어). 모두 오픈소스 모델 중에서는 1등이라고 밝혔다.

빅테크와 스타트업의 각축전

피지컬 AI 분야는 이미 치열하다. 빅테크와 스타트업이 서로 다른 전략으로 시장을 공략하고 있다.

구글(Google)은 RT-X 프로젝트를 통해 로봇 파운데이션 모델을 개발 중이다. 구글 딥마인드는 33개 연구기관과 협력해 22종의 로봇에서 수집한 50만 개 이상의 동작 데이터로 RT-2 모델을 학습시켰다. RT-2는 언어 모델과 로봇 제어를 결합한 비전-언어-액션(VLA) 모델이다. “저기 있는 멸종위기 동물을 집어줘”처럼 추상적 명령도 이해한다. 구글의 접근법은 엔비디아와 비슷하지만, 오픈소스 전략은 아니다.

메타(Meta)도 최근 로보틱스 스타트업 ARI를 인수하며 피지컬 AI에 뛰어들었다. 빅테크들이 로봇과 자율주행을 차세대 플랫폼으로 보고 있다는 뜻이다.

스타트업 진영도 활발하다. 피지컬 인텔리전스(Physical Intelligence)는 지난해 4억 달러를 투자받았고, 올해 20억 달러를 추가로 유치하며 범용 로봇 두뇌 개발에 속도를 내고 있다. 카네기멜런대 출신 연구진이 세운 스킬드 AI(Skild AI)는 로봇 파운데이션 모델 개발사다. 피규어 AI(Figure AI)는 휴머노이드(인간형) 로봇에 집중하며 오픈AI와 협력 중이다. 물리 시뮬레이션 전문 제네시스 AI(Genesis AI)도 있다.

이들 스타트업 입장에서 코스모스 3 오픈소스화는 복잡한 상황이다. 강력한 도구를 공짜로 쓸 수 있다는 건 좋다. 하지만 이 모델이 엔비디아 GPU에서 가장 잘 돌아가도록 설계됐다는 건 부담이다. 엔비디아 플랫폼에 종속될 위험이 커진다.

특히 제네시스 AI처럼 물리 시뮬레이션에 특화된 회사는 직격탄을 맞을 수 있다. 코스모스 3가 시뮬레이션 기능까지 통합 제공하기 때문이다. “우리는 시뮬레이션만 정말 잘합니다”라는 차별화 포인트가 약해진다.

엔비디아의 진짜 목표

엔비디아가 이 모델을 무료로 푼 이유는 명확하다. GPU를 더 많이 팔기 위해서다.

AI 학습용 GPU 시장은 이미 포화 상태다. 이제는 AI를 실제로 돌리는 ‘추론(inference)’ 시장, 그것도 데이터센터가 아닌 로봇·자율주행차 같은 현장용 GPU 시장을 키워야 한다. 코스모스 3 나노가 RTX PRO 6000에서 실시간으로 돌아간다고 강조한 건 그래서다.

피지컬 AI 스타트업들은 이제 선택해야 한다. 엔비디아 플랫폼 위에서 특화된 애플리케이션을 빠르게 만들 것인가, 아니면 독자적인 기술 스택을 고수하며 전략적 자율성을 지킬 것인가. 구글처럼 자체 모델을 개발할 자원이 있는 빅테크와 달리, 스타트업들은 속도와 독립성 사이에서 고민해야 한다.

로보틱스 시장 지형도에 대한 자세한 내용은 여기를 참고하시길.

주요 AI 기업들의 투자 관계망에 대한 자세한 내용은 여기를 참고하시길.

기사 공유하기

답글 남기기