구글 딥마인드, “AGI 핵심 기술” 실시간 월드 모델 ‘지니3’ 공개


구글 딥마인드가 인공일반지능(AGI) 달성을 위한 핵심 기술로 평가받는 차세대 월드 모델 ‘Genie 3’를 발표했다. 이 모델은 범용 AI 에이전트 훈련에 활용될 수 있는 최초의 실시간 대화형 월드 모델이라는 점에서 주목받고 있다.

google deepmind genie3 - 와우테일

딥마인드 연구 디렉터 슐로미 프룩터(Shlomi Fruchter)는 언론 브리핑에서 “Genie 3는 최초의 실시간 대화형 범용 월드 모델”이라며 “특정 환경에 국한되지 않고 사실적인 세계와 상상 속 세계, 그리고 그 사이의 모든 것들을 생성할 수 있다”고 설명했다.

현재 연구 미리보기 단계로 공개되지 않은 Genie 3는 에이전트를 위한 새로운 환경을 생성할 수 있는 전작 Genie 2와 물리학에 대한 깊은 이해를 보여주는 최신 비디오 생성 모델 Veo 3를 기반으로 개발되었다. 구글 딥마인드는 지난 10여 년간 실시간 전략 게임에서 에이전트 훈련부터 개방형 학습 로보틱스를 위한 시뮬레이션 환경 개발에 이르기까지 다양한 연구를 진행해왔다.

Genie 3의 가장 눈에 띄는 개선점은 성능과 지속성의 대폭 향상이다. 간단한 텍스트 프롬프트만으로 720p 해상도에서 초당 24프레임의 속도로 수 분간 지속되는 대화형 3D 환경을 생성할 수 있다. 이는 기존 Genie 2가 10-20초만 생성할 수 있었던 것에 비해 획기적인 발전이다. 특히 ‘프롬프트 가능한 세계 이벤트’ 기능을 통해 사용자는 텍스트 명령으로 생성된 세계를 실시간으로 변화시킬 수 있다. 예를 들어, 날씨 조건을 바꾸거나 새로운 객체나 캐릭터를 추가하는 것이 가능하다.

Genie 3의 핵심 혁신은 물리적 일관성을 장기간 유지하는 능력이다. 모델이 이전에 생성한 내용을 기억할 수 있기 때문인데, 딥마인드는 이 기능을 명시적으로 프로그래밍하지 않았다고 밝혔다. 이는 ‘창발적 능력’으로, 모델이 스스로 학습한 결과다. 프룩터는 “모델이 자기회귀적(auto-regressive) 방식으로 한 번에 하나의 프레임을 생성한다”며 “다음에 일어날 일을 결정하기 위해 이전에 생성된 내용을 돌아봐야 하는데, 이것이 아키텍처의 핵심 부분”이라고 설명했다.

Veo와 마찬가지로 Genie 3는 하드코딩된 물리 엔진에 의존하지 않는다. 대신 모델이 스스로 세상의 작동 원리를 학습한다. 객체가 어떻게 움직이고, 떨어지고, 상호작용하는지를 기억하고 장기간에 걸쳐 추론함으로써 물리 법칙을 터득한다. 마치 인간이 테이블 가장자리에 놓인 유리잔이 곧 떨어질 것임을 직감하거나, 떨어지는 물체를 피하기 위해 몸을 숙이는 것과 같은 방식이다.

YouTube 동영상

Genie 3는 물과 조명 같은 자연 현상과 복잡한 환경 상호작용을 경험할 수 있게 해주며, 동물 행동부터 복잡한 식물 생태까지 생생한 생태계를 생성한다. 또한 상상력을 발휘해 환상적인 시나리오와 표현력 풍부한 애니메이션 캐릭터를 만들어내고, 지리적·시간적 경계를 뛰어넘어 다양한 장소와 과거 시대를 탐험할 수 있게 해준다.

딥마인드는 Genie 3의 실용성을 입증하기 위해 자사의 범용 AI 에이전트인 SIMA(Scalable Instructable Multiworld Agent)와의 테스트를 실시했다. 창고 환경에서 “밝은 녹색 쓰레기 압축기에 접근하라”거나 “빨간 지게차로 걸어가라”와 같은 작업을 지시했다. 딥마인드 개방성 팀의 연구원 잭 파커-홀더(Jack Parker-Holder)는 “세 가지 경우 모두에서 SIMA 에이전트가 목표를 달성할 수 있었다”며 “Genie 3가 일관성을 유지하기 때문에 가능한 일”이라고 설명했다.

딥마인드 연구진은 Genie 3가 교육, 게임, 창작 프로토타이핑에 활용될 수 있지만, 진정한 혁신은 범용 작업을 위한 에이전트 훈련에서 나타날 것이라고 강조했다. 파커-홀더는 “월드 모델은 AGI로 가는 길의 핵심이며, 특히 실제 세계 시나리오 시뮬레이션이 특히 어려운 embodied 에이전트에게 중요하다”고 말했다.

이 모델은 AI 에이전트들을 한계까지 밀어붙여 인간이 현실 세계에서 학습하는 것과 유사하게 자신의 경험으로부터 배우도록 강제할 잠재력을 가지고 있다. 에이전트들이 단순히 입력에 반응하는 것을 넘어 계획을 세우고, 탐험하고, 불확실성을 추구하며, 시행착오를 통해 개선할 수 있는 자기 주도적이고 체현된 학습이 가능하다는 것이다.

하지만 Genie 3도 여전히 몇 가지 한계점을 안고 있다. 연구진이 물리학을 이해한다고 주장하지만, 스키어가 산을 내려가는 데모에서는 스키어와 관련된 눈의 움직임이 현실적으로 반영되지 않았다. 또한 에이전트가 취할 수 있는 행동의 범위도 제한적이다. 프롬프트 가능한 세계 이벤트가 광범위한 환경 개입을 허용하지만, 이는 반드시 에이전트 자체가 수행하는 것은 아니다. 공유 환경에서 여러 독립적인 에이전트 간의 복잡한 상호작용을 정확하게 모델링하는 것도 여전히 어려운 과제다. 무엇보다 Genie 3는 현재 몇 분간의 연속적인 상호작용만 지원할 수 있는데, 적절한 훈련을 위해서는 몇 시간이 필요하다.

그럼에도 불구하고 Genie 3는 embodied 에이전트 분야에서 중요한 진전을 나타낸다. 파커-홀더는 “아직 embodied 에이전트를 위한 ‘Move 37 순간’은 없었다”며 “하지만 이제 새로운 시대를 열 수 있을 것”이라고 전망했다. 여기서 ‘Move 37’은 2016년 딥마인드의 바둑 AI 알파고와 세계 챔피언 이세돌의 대국에서 알파고가 둔 전례 없는 기발한 수를 의미한다. 이 한 수는 인간의 이해를 뛰어넘는 새로운 전략을 발견하는 AI의 능력을 상징하게 되었다.

구글 딥마인드는 Genie 3의 개방형이고 실시간적인 기능들이 안전성과 책임감에 대한 새로운 과제를 제기한다고 인정하며, 책임감 있는 개발 및 혁신 팀과 긴밀히 협력하고 있다고 밝혔다. 현재 Genie 3는 제한적인 연구 프리뷰로만 제공되며, 소규모 학술진과 창작자들에게 조기 접근을 제공하고 있다. 이를 통해 중요한 피드백과 다학제적 관점을 수집하며, 위험과 적절한 완화 방안에 대한 이해를 지속적으로 구축해 나가고 있다.

Genie 3에 대한 더 자세한 정보는 구글 딥마인드 공식 블로그에서 확인할 수 있다. 이 모델은 월드 모델이 AI 연구와 생성 미디어 분야에서 본격적인 영향력을 발휘하기 시작하는 중요한 전환점이 될 것으로 예상된다. 특히 로봇과 자율 시스템 같은 에이전트 훈련을 위한 무한한 가능성을 열어줄 뿐만 아니라, 교육과 전문가 훈련 분야에서도 새로운 기회를 창출할 것으로 기대된다.

기사 공유하기

답글 남기기