[CES 2025] 엔비디아, 생성형 AI 플랫폼 ‘코스모스’ 출시.. “로봇공학의 ‘ChatGPT 시대’ 연다”


엔비디아(NVIDIA)가 자율주행차(AVs)와 로봇과 같은 물리적 AI 시스템 개발을 가속화하기 위한 최첨단 생성형 세계 기반 모델(World Foundation Models, WFMs), 고급 토크나이저, 가드레일, 그리고 가속화된 비디오 처리 파이프라인을 포함한 플랫폼인 ‘NVIDIA 코스모스(Cosmos)’를 발표했다.

NVIDIA Cosmos mid - 와우테일

AI에서 World Model은 주로 인공지능 시스템이 외부 세계를 이해하고 이를 시뮬레이션하거나 예측할 수 있도록 내부적으로 구축한 가상 모델을 의미합니다. 이는 인간이 머릿속에서 주변 환경을 이해하고 상상력을 통해 미래를 예측하거나 대안을 탐구하는 방식과 유사하다.

물리적 AI 모델은 개발 비용이 높고, 방대한 양의 실세계 데이터와 테스트가 필요하다. 코스모스의 WFMs는 개발자들이 기존 모델을 훈련하고 평가하기 위해 물리 기반의 사실적인 합성 데이터를 대량으로 생성할 수 있는 쉬운 방법을 제공한다. 또한 개발자들은 코스모스 WFMs를 미세 조정하여 맞춤형 모델을 구축할 수도 있다.

NVIDIA의 창립자이자 CEO인 젠슨 황(Jensen Huang)은 “로봇공학의 ChatGPT 시대가 다가오고 있다. 대규모 언어 모델과 마찬가지로, 세계 기반 모델은 로봇과 자율주행차 개발을 진전시키는 데 필수적이지만, 모든 개발자들이 자신만의 모델을 훈련할 수 있는 전문 지식과 자원을 갖추고 있지는 않다”며, “우리는 코스모스를 통해 물리적 AI를 민주화하고 모든 개발자가 일반 로봇공학을 접근 가능하게 만들고자 한다”고 말했다.

NVIDIA 코스모스의 오픈 모델 제품군은 개발자들이 대상 애플리케이션의 필요에 따라 자율주행차 주행 기록이나 로봇이 창고를 탐색하는 비디오와 같은 데이터셋으로 WFMs를 맞춤 설정할 수 있음을 의미한다.

코스모스 WFMs는 물리적 AI 연구 및 개발을 위해 특별히 제작되었으며, 텍스트, 이미지, 비디오, 로봇 센서 또는 모션 데이터와 같은 입력의 조합으로부터 물리 기반 비디오를 생성할 수 있다. 이 모델들은 물리적 상호작용, 객체 영속성, 그리고 창고나 공장과 같은 산업 환경 및 다양한 도로 조건을 포함한 운전 환경의 고품질 시뮬레이션 생성을 위해 구축되었다.

CES 오프닝 키노트에서 젠슨 황은 코스모스 모델을 사용한 물리적 AI 개발자들의 활용 사례를 소개했다

  • 비디오 검색 및 이해: 개발자들이 비디오 데이터에서 눈 덮인 도로 조건이나 창고 혼잡과 같은 특정 훈련 시나리오를 쉽게 찾을 수 있도록 지원.
  • 물리 기반 사실적 합성 데이터 생성: NVIDIA Omniverse 플랫폼에서 개발된 제어된 3D 시나리오로부터 사실적인 비디오를 생성.
  • 물리적 AI 모델 개발 및 평가: 기반 모델 위에 맞춤형 모델을 구축하거나, 코스모스를 사용해 모델을 강화 학습으로 개선하거나, 특정 시뮬레이션 시나리오에서의 성능을 테스트.
  • 예측 및 ‘멀티버스’ 시뮬레이션: 코스모스와 Omniverse를 사용해 AI 모델이 선택할 수 있는 모든 가능한 미래 결과를 생성하여 가장 정확한 경로를 선택하도록 지원.

물리적 AI 모델을 구축하려면 페타바이트 규모의 비디오 데이터와 수만 시간의 컴퓨팅 시간이 필요하다. 데이터 큐레이션, 훈련, 모델 맞춤화에 드는 막대한 비용을 절약하기 위해 코스모스는 다음과 같은 기능을 제공한다:

물리적 AI 산업의 선구자들이 이미 코스모스 기술을 도입하고 있다.

AI 및 휴머노이드 로봇 기업인 1X는 코스모스 토크나이저를 사용해 1X World Model Challenge 데이터셋을 출시했다. XPENG은 코스모스를 사용해 휴머노이드 로봇 개발을 가속화할 예정이며, HillbotSkild AI는 코스모스를 활용해 범용 로봇 개발을 빠르게 진행 중이다.

Agility의 최기술책임자(CTO)인 프라스 벨라가푸디(Pras Velagapudi)는 “로봇 환경에서 성공적인 학습을 위한 주요 과제는 데이터 부족과 다양성”이라며, “코스모스의 텍스트, 이미지, 비디오를 세계로 변환하는 기능은 우리가 다양한 작업을 위한 사실적인 시나리오를 생성하고 확장할 수 있게 해주며, 이는 비싼 실세계 데이터 캡처 없이도 모델을 훈련할 수 있도록 한다”고 말했다.

교통 분야의 리더들도 자율주행차를 위한 물리적 AI 구축에 코스모스를 활용하고 있다:

자율주행차를 시작으로 물리적 세계를 위한 생성형 AI를 선도하는 Waabi는 자율주행차 소프트웨어 개발 및 시뮬레이션을 위한 데이터 큐레이션 맥락에서 코스모스를 평가 중이고, 자율주행을 위한 AI 기반 모델을 개발 중인 Wayve는 안전 및 검증을 위한 엣지 및 코너 케이스 운전 시나리오를 검색하는 도구로 코스모스를 평가 중이다.

자율주행차 툴체인 제공업체 Foretellix는 코스모스와 NVIDIA Omniverse Sensor RTX API를 함께 사용해 고품질 테스트 시나리오와 훈련 데이터를 대규모로 생성 및 평가할 예정이고, 글로벌 라이드셰어링 기업인 Uber는 NVIDIA와 협력해 자율 주행 모빌리티를 가속화하고 있다. Uber의 풍부한 운전 데이터셋은 코스모스 플랫폼과 NVIDIA DGX Cloud™의 기능과 결합되어 자율주행차 파트너들이 더 강력한 AI 모델을 더 효율적으로 구축할 수 있도록 지원한다는 계획이다.

Uber의 CEO인 다라 코스로샤히(Dara Khosrowshahi)는 “생성형 AI는 미래의 모빌리티를 주도할 것이며, 이는 풍부한 데이터와 매우 강력한 컴퓨팅 성능을 필요로 한다”며, “NVIDIA와의 협력을 통해 우리는 산업 전반에 걸쳐 안전하고 확장 가능한 자율주행 솔루션의 타임라인을 앞당길 수 있을 것이라고 확신한다”고 말했다.

기사 공유하기

답글 남기기