엔비디아, ‘생각하는 자율주행차’ 만드는 AI 모델 공개… 레벨4 시대 성큼


엔비디아(NVIDIA)가 AI 학술대회 뉴립스(NeurIPS) 2025에서 자율주행차가 사람처럼 상황을 판단하고 운전할 수 있게 해주는 새로운 AI 모델을 공개했다. 핵심은 ‘엔비디아 드라이브 알파마요-R1(NVIDIA DRIVE Alpamayo-R1)’이다. 카메라로 본 장면을 이해하고, 왜 특정 행동을 해야 하는지 스스로 추론한 뒤, 실제 주행 경로까지 결정하는 비전 언어 행동(VLA) 모델로는 업계 최초다.

NVIDIA DRIVE Alpamayo R1 reasoning 720x383 1 - 와우테일

기존 자율주행 시스템은 사람이 갑자기 뛰어드는 교차로, 예고 없이 막힌 차선, 자전거 도로를 가로막은 배달 트럭 같은 돌발 상황에서 허둥대기 일쑤였다. 단순히 ‘이런 패턴이면 이렇게 반응한다’는 식으로 학습했기 때문이다. 알파마요-R1은 다르다. 마치 운전자가 머릿속으로 ‘저 사람이 갑자기 뛰어들 수 있으니 속도를 줄이자’고 생각하듯, AI도 상황을 단계별로 분석하고 최선의 경로를 고른다. 엔비디아는 이를 ‘CoT(Chain of Thought, 사고의 연쇄) 추론’이라고 부른다.

예를 들어 보행자가 많은 구역에서 자전거 도로 옆을 지나간다고 하자. 알파마요-R1은 주변 상황을 살피고 ‘자전거 도로에서 떨어지는 게 좋겠다’ 혹은 ‘무단횡단할 것 같은 사람이 있으니 멈추자’는 판단을 내린다. 단순 반응이 아니라 ‘왜 그렇게 했는지’까지 설명할 수 있다는 점이 기존 시스템과 다르다.

성능도 눈에 띈다. 엔비디아 연구 논문에 따르면 까다로운 상황에서 경로 설정 정확도가 기존 모델보다 최대 12% 높았다. 시뮬레이션에서는 도로 이탈이 35%, 아슬아슬한 접근 사고가 25% 줄었다. 실제 도심 도로에서 테스트했을 때도 반응 속도가 99밀리초(0.099초)에 불과해 실시간 주행에 문제가 없었다. 모델은 깃허브(GitHub)와 허깅페이스(Hugging Face)에 오픈소스로 풀렸고, 학습에 쓴 데이터 일부도 함께 공개된다.

알파마요-R1을 이해하려면 먼저 올해 초 CES에서 공개된 ‘코스모스(Cosmos)‘를 알아야 한다. 코스모스는 ‘세계 기반 모델(WFM)’이라 불리는데, 쉽게 말해 현실 세계가 어떻게 돌아가는지 이해하고 예측하는 AI다. “이 속도로 가면 3초 뒤 저 위치에 있겠다”, “저 물체를 밀면 이쪽으로 굴러가겠다” 같은 물리 법칙과 공간 관계를 학습한 모델이라고 보면 된다. 수백만 시간 분량의 실제 주행·로봇 영상으로 훈련됐고, 개발자들은 이걸로 실제 주행 데이터 수천 킬로미터를 가상으로 수백만 킬로미터로 불리거나, 다양한 날씨·돌발 상황을 만들어 AI를 테스트할 수 있다.

알파마요-R1은 코스모스 중에서도 ‘코스모스 리즌(Cosmos Reason)’이라는 추론 모델을 기반으로 만들어졌다. 코스모스 리즌이 “저 보행자가 길을 건너려는 것 같다”고 상황을 읽어주면, 알파마요-R1은 여기에 “그러니까 속도를 줄이고 오른쪽으로 비켜가자”는 실제 운전 결정까지 덧붙이는 식이다. 상황 인식과 행동 결정을 하나로 엮은 셈이다. 젠슨 황 엔비디아 CEO는 CES에서 “로보틱스에도 ChatGPT 같은 순간이 올 것”이라며 코스모스로 로봇 개발의 문턱을 크게 낮추겠다고 했다.

이번 뉴립스에서 코스모스 생태계도 한층 넓어졌다. 자율주행 시뮬레이션용 라이다 데이터를 만들어내는 ‘LidarGen’, 3D 재구성 영상의 흐릿한 부분이나 구멍을 순식간에 메워주는 ‘옴니버스 NuRec 픽서’, 대형 비디오 모델을 로봇 제어용으로 바꿔주는 ‘코스모스 폴리시’ 등이 새로 나왔다. 휴머노이드 로봇 개발사 1X, 피규어 AI(Figure AI), 자율주행 트럭의 가틱(Gatik) 등이 이미 코스모스를 쓰고 있다.

자율주행 시장 경쟁은 갈수록 뜨거워지고 있다. 구글 계열 웨이모(Waymo)는 샌프란시스코·LA·피닉스·오스틴에서 주당 25만 건 넘는 유료 승차 서비스를 운영 중이고, 애틀랜타·마이애미·워싱턴DC로 영역을 넓히고 있다. 테슬라(Tesla)는 6월 오스틴에서 로보택시 시범 서비스를 시작했다. 다만 테슬라 자율주행 책임자 아쇼크 엘루스와미는 최근 “솔직히 웨이모보다 몇 년 뒤처져 있다”고 인정했다. 대신 차량 가격이 싸서 빠르게 규모를 키울 수 있다는 게 테슬라의 주장이다. 웨이모가 카메라 29개, 레이더 6개, 라이다 5개를 장착하는 반면, 테슬라는 카메라와 AI만으로 승부를 건다.

중국 업체들도 거세게 치고 올라오고 있다. 딥루트.ai(DeepRoute.ai)는 연말까지 20만 대 넘는 양산차에 자율주행 시스템을 깔 계획이고, VLA 방식 통합 플랫폼을 구축하고 있다. 위라이드(WeRide)는 아부다비에서 안전요원 없는 완전 무인 로보택시 상업 허가를 받은 첫 해외 기업이 됐다. 자율주행 시장에서 VLA 모델의 중요성이 커지는 만큼, 엔비디아가 알파마요-R1을 오픈소스로 푼 건 업계 전반에 상당한 파급력을 미칠 전망이다.

한편 엔비디아는 이번 학회에서 자율주행 외에도 다양한 AI 기술을 선보였다. 음성 AI 분야에서는 여러 사람이 동시에 말하거나 빠르게 대화를 주고받아도 각자의 말을 알아듣는 ‘멀티토커 패러킷(MultiTalker Parakeet)’, 녹음 파일에서 누가 언제 말했는지 실시간으로 구분하는 ‘소트포머(Sortformer)’를 공개했다. AI 안전 분야에서는 상황에 따라 유해 콘텐츠 판단 기준을 유연하게 적용하는 ‘네모트론 콘텐츠 세이프티 리즈닝’이 나왔다.

엔비디아 연구진은 이번 뉴립스에서 70편 넘는 논문과 워크숍을 발표했다. 음성·소리·음악을 두루 이해하는 ‘Audio Flamingo 3’, 80억 파라미터 모델을 40억으로 줄이면서도 성능은 오히려 높인 ‘Minitron-SSM’, 오래 훈련할수록 추론 능력이 꾸준히 느는 ‘ProRL’ 기법 등이 관심을 끌었다. 엔비디아의 오픈소스 행보는 AI 벤치마크 기관 아티피셜 애널리시스(Artificial Analysis)가 만든 ‘오픈니스 인덱스’에서도 인정받았다. 라이선스 개방성, 학습 데이터 투명성, 기술 문서 공개 정도를 따지는 이 지표에서 엔비디아 네모트론 모델이 업계 최상위권에 올랐다.

크라우드스트라이크(CrowdStrike), 팔란티어(Palantir), 서비스나우(ServiceNow) 같은 기업들이 엔비디아 네모트론을 활용해 보안·업무자동화용 AI 에이전트를 만들고 있다. 엔비디아는 학회 기간 중 ‘네모트론 서밋’을 열고 브라이언 카탄자로 응용 딥러닝 연구 부사장이 기조연설을 맡았다.

기사 공유하기

답글 남기기