리얼월드, 독자 5지 로봇손 AI 모델 ‘RLDX-1’ 공개


피지컬 AI 기업 리얼월드(RLWRLD)가 독자 로보틱스 파운데이션 모델(Robotics Foundation Model, RFM) ‘RLDX-1’을 7일 공개했다.

RLDX-1은 고자유도 5지(5-finger) 로봇 손에 인간 수준의 정교한 조작 능력을 부여하기 위해 설계된 ‘Dexterity-First’ 파운데이션 모델이다. 시각과 언어뿐 아니라 손에 가해지는 힘(토크)·촉각·작업 기억까지 단일 모델에서 함께 처리한다는 점에서, 시각·언어 중심의 기존 범용 VLA(Vision-Language-Action) 모델과 구조적으로 차별화된다.

RLWRLD리얼월드 마우스 피킹 2 - 와우테일
RLWRLD리얼월드 마우스 피킹 1 - 와우테일

업계는 흔히 ‘지능이 먼저 만들어지면 손재주는 자연히 따라온다’고 본다. 리얼월드의 관점은 정반대다. 손재주는 지능 다음에 오는 것이 아니라, 지능이 물리 세계에서 행동할 때 반드시 거치는 경로 그 자체라는 것이다. 힘(토크)·촉각·접촉 시점 등 시각만으로는 잡히지 않는 신호를 다룰 수 있어야 비로소 산업 현장의 정교한 작업이 자동화된다는 문제의식이다. 리얼월드는 이를 입증하기 위해 자체 벤치마크 ‘DexBench’를 통해 파지 다양성, 공간 정밀도, 시간 정밀도, 접촉 정밀도, 맥락 인지 등 5가지 손 조작 영역을 정의했다.

리얼월드 측은 “RLDX-1은 글로벌 공개 벤치마크 8종에서 엔비디아(NVIDIA)의 GR00T, 피지컬 인텔리전스(Physical Intelligence)의 π0 등 기존 최고 성능(SOTA) 모델을 모두 앞섰다”라며 “장기·접촉 중심 과제로 설계된 ‘RoboCasa Kitchen’에서는 70.6점을 기록해 70점대를 돌파한 세계 최초의 VLA 모델”이라고 설명했다. 

이어 “ 휴머노이드 전용 평가 ‘GR-1 Tabletop’에서는 58.7점으로 차순위 모델인 엔비디아 GR00T N1.6 대비 10.7%p 차이를 기록했으며 강건성 평가 ‘LIBERO-Plus’에서도 86.7%를 달성했다”고 전했다. 

리얼월드가 개발에 참여한 위로보틱스의 휴머노이드 ALLEX 기반 평가에서 ‘커피 따르기(Pot-to-Cup Pouring)’ 과제 성공률은 70.8%를 기록했다. 비교 대상 모델들이 30%대 후반에 머문 것을 고려하면 약 두 배에 달하는 수치다.

리얼월드의 기술적 핵심은 멀티-스트림 액션 트랜스포머(Multi-Stream Action Transformer, MSAT) 구조다. 기존 VLA가 시각·언어·행동·촉각·메모리 등 서로 다른 신호를 단일 스트림에서 처리하는 것과 달리, MSAT는 각 모달리티에 독립된 스트림을 부여한 뒤 모달리티 간 조인트 어텐션(joint attention)으로 통합한다. 힘(토크)·촉각 등 시각으로는 잡히지 않는 물리 신호와 장기 기억 또한 별도 모듈에서 처리해, 단일 모델이 보고(see), 느끼고(feel), 기억하고(remember), 적응(adapt)할 수 있도록 설계됐다.

배재경 리얼월드 CTO는 “각 모달리티가 자기 자리에서 충분히 표현될 수 있도록 구조를 분리한 것이 RLDX-1의 핵심”이라며 “토크 신호로 접촉 순간을 정확히 포착하고 시간 축의 동적 변화를 추론하는 능력은 기존 VLA가 구조적으로 다루기 어려웠던 영역”이라고 설명했다.

RLDX-1은 업 현장의 실제 작업을 최우선으로 설계됐다. 리얼월드는 수십 개 산업 파트너사와의 협력을 통해 제조·물류 현장의 작업을 직접 관찰·분석했으며, 이 결과를 담은 자체 벤치마크 ‘DexBench’를 함께 공개했다.

오는 13일 미국에서 열릴 ‘Dexterity Night’ 론칭 행사에는 한국·미국·일본의 휴머노이드 하드웨어 기업들이 참여해 ‘왜 로봇 산업의 다음 변곡점이 손인가’를 주제로 패널 토론도 진행될 예정이다.

이번에 공개된 RLDX-1은 사전학습 체크포인트(RLDX-1-PT)와 두 종의 플랫폼별 미드-트레이닝 체크포인트 등 총 3종(각 8.1B 파라미터)으로 구성된다. 모델 가중치·학습 코드·기술 문서는 깃허브(GitHub)와 허깅페이스(Hugging Face)를 통해 외부 연구자에게도 공개됐다. 위로보틱스의 ALLEX, 협동로봇 팔 Franka Research 3, 오픈소스 로봇 플랫폼 OpenArm까지 단일 백본에서 구동되며, 특정 하드웨어에 종속되지 않는 크로스-임바디먼트(cross-embodiment) 구조를 입증한다.

개발에는 엔비디아 Isaac GR00T·Isaac Lab·Isaac Sim·cuRobo를 시뮬레이션·정책 최적화에, H100/A100 GPU를 학습 컴퓨트로, Jetson AGX Thor·TensorRT 등 엔비디아의 클라우드–엣지 스택을 추론 단계에 활용했다. AWS, 마이크로소프트 등 글로벌 클라우드·AI 인프라 파트너와의 협력도 연구와 실증 양쪽에서 이어질 예정이다.

리얼월드는 RLDX-1을 시작으로 차세대 기술 비전인 ‘4D+ 월드 모델(World Model)’ 영역으로 나아갈 계획이다. 대부분의 로보틱스 파운데이션 모델 기업이 영상 데이터 기반의 비전형 월드 모델을 추구하지만, 접촉 토크·촉각·로봇 관절 상태 등 산업 현장의 정교한 손 작업에 필요한 정보는 카메라 영상에 담기지 않는다는 것이 리얼월드의 판단이다.

리얼월드의 ‘4D+ 월드 모델’은 시각·언어·행동에 더해 접촉·토크·로봇 상태까지 시간 축 위에서 통합적으로 예측·생성하며, 기존 영상 기반 모델이 다루지 못한 물리 정보를 직접 시뮬레이션하는 구조다.

류중희 리얼월드 대표는 “픽셀에 담기지 않은 정보는 영상을 아무리 수집해도 나타나지 않는다”며 “RLDX-1은 우리가 향하는 방향의 첫 번째 마일스톤일 뿐이다. 한·일 산업 현장에서 검증한 데이터와 기술을 바탕으로 글로벌 휴머노이드 파트너들과 함께 4D+ 월드 모델로 나아가는 긴 로드맵의 출발점이 오늘”이라고 말했다.

리얼월드는 미국을 시작으로 일본·한국에서도 순차적으로 RLDX-1 론칭 행사를 진행할 예정이다.

RLWRLD리얼월드 마우스 피킹 6 - 와우테일
RLWRLD리얼월드 마우스 피킹 3 - 와우테일

기사 공유하기

답글 남기기