알파고의 DNA가 제미나이에 이식되다 — 강화학습의 귀환과 소형 모델 혁명


노벨상 수상자이자 구글 딥마인드 CEO 데미스 허사비스(Demis Hassabis)가 와이콤비네이터(Y Combinator) 대표 개리 탄(Garry Tan)과 마주 앉았다. 4월 29일 진행된 이 대담에는 AGI의 현주소, 딥마인드의 기술 전략, 그리고 AI 시대 창업자에게 던지는 직언이 담겼다. 와우테일이 주목할 내용을 골라 3편의 연속 기사로 정리한다. (대담 원본 영상)

이 시리즈의 다른 기사:

Hassabis YC interview 2 - 와우테일

2016년 서울, 알파고(AlphaGo)는 이세돌 9단을 이겼다. 그 대국의 2국 37수는 지금도 회자된다. 바둑 역사상 어떤 인간도 두지 않았던 수였다. 전문가들은 처음엔 “실수”라고 했다가, 몇 수 후 그것이 천재적인 수였음을 깨달았다.

알파고가 그 수를 찾아낸 방법은 강화학습(Reinforcement Learning)이었다. 스스로 수십만 번의 대국을 시뮬레이션하며 어떤 수가 장기적으로 이기는 수인지를 학습했다. 허용된 모든 수를 나무처럼 뻗어나가며 탐색하는 몬테카를로 트리 서치(Monte Carlo Tree Search)와 결합해, 인간이 평생 두어도 상상할 수 없는 경우의 수를 탐색했다.

그 기술이 10년이 지난 지금, 챗봇의 두뇌에 이식되고 있다.

체인오브쏘트는 알파고의 후예다

구글 딥마인드(Google DeepMind) CEO 데미스 허사비스(Demis Hassabis)는 4월 29일 와이콤비네이터(Y Combinator) 대담에서 이렇게 말했다. “지금의 모든 최첨단 모델에서 볼 수 있는 사고 패턴과 체인오브쏘트 추론은, 본질적으로 알파고가 개척한 개념의 귀환입니다.”

체인오브쏘트(Chain-of-Thought)란 AI가 답을 바로 내놓는 대신, 중간 사고 과정을 단계별로 펼쳐 보이며 추론하는 방식이다. ‘1+1=2이고, 2+2=4이므로, 따라서…’ 같은 식이다. 마치 수학 시험에서 풀이 과정을 적는 것처럼 AI가 생각하는 과정을 드러내는 것인데, 이것이 결국 알파고가 수천 번의 수를 시뮬레이션하며 최선을 찾아가던 방식과 같은 원리라는 것이다.

그래서 허사비스는 강화학습이 여전히 저평가돼 있다고 봤다. LLM(거대 언어 모델) 붐이 일면서 ‘더 많은 데이터, 더 큰 모델’이 AI 발전의 전부인 것처럼 여겨지는 분위기가 됐지만, 스스로 목표를 설정하고 계획을 세워 실행하는 에이전트를 만드는 데는 강화학습이 핵심이라는 것이다. 딥마인드는 알파고 이후에도 알파스타(AlphaStar, 스타크래프트 AI), 알파제로(AlphaZero) 등을 통해 이 기술을 계속 발전시켜 왔다. 이제 그 성과를 거대 언어 모델의 스케일에서 다시 실행하고 있다. MCTS를 포함한 다양한 RL 기법들을 파운데이션 모델과 통합하는 작업이다.

“향후 수년간 주요 돌파는 여기서 나올 것입니다.”

프론티어 모델과 소형 모델의 분업

AI 모델은 두 가지 방향으로 동시에 발전하고 있다. 한편에서는 GPT-4나 제미나이 울트라처럼 천문학적인 컴퓨팅을 동원한 초거대 모델이 등장한다. 다른 한편에서는 스마트폰에서도 돌아가는 소형 모델이 빠르게 성능을 높이고 있다. 언뜻 모순처럼 보이지만, 허사비스는 이 두 흐름이 사실 하나의 전략이라고 설명했다.

그 연결고리가 ‘증류(distillation)’ 기술이다. 초대형 프론티어 모델을 먼저 만들어 최첨단 능력을 확보한다. 그 다음, 그 능력을 압축해서 훨씬 작은 모델에 담아낸다. 마치 백과사전의 핵심 내용을 요약집으로 만드는 것과 비슷한 원리다. 딥마인드는 이 증류 기술을 가장 먼저 개발한 곳 중 하나다.

결과가 이미 나오고 있다. 허사비스에 따르면 최첨단 프론티어 모델이 출시되고 6~12개월이 지나면, 그 능력의 90~95%를 스마트폰급 소형 모델에 담을 수 있다. 비용은 10분의 1이다. 이론적으로 이 압축에 한계가 있는지도 아직 알 수 없다고 했다. “우리는 아직 그 한계에 도달하지 않았습니다.”

구글이 이 기술에 집중하는 이유는 규모 때문이다. 구글 검색, 유튜브, 구글 맵스에는 수십억 명의 사용자가 있다. 이 모든 서비스에 AI를 녹이려면 응답이 빠르고, 비용이 저렴하고, 지연이 없어야 한다. 이 압박이 증류 기술을 세계 최고로 끌어올리는 동력이 됐다. 제미나이 플래시(Gemini Flash) 모델이 그 결과물이고, 오픈소스로 공개한 젬마(Gemma) 4는 출시 2.5주 만에 4000만 다운로드를 기록했다.

왜 작은 모델을 공개하는가

허사비스는 젬마를 오픈소스로 공개한 이유도 설명했다. 엣지 디바이스, 즉 스마트폰이나 로봇에 배포되는 순간 그 모델은 어차피 외부에 노출된다. 기기 안에 들어있는 모델을 완전히 비밀로 유지하는 것은 불가능에 가깝다. 그렇다면 처음부터 공개하는 게 낫다는 전략이다. 여기에는 중국의 오픈소스 모델에 대응하는 서방 진영의 대안이 필요하다는 전략적 판단도 깔려 있다.

엣지 모델의 또 다른 이유는 프라이버시다. 가정용 로봇, 스마트 안경처럼 극도로 개인적인 데이터를 다루는 기기에서는 오디오와 영상이 로컬에서 처리되는 것이 이상적이다. 클라우드로 보내지 않고 기기 안에서 처리한다. 특수한 경우에만 더 큰 클라우드 모델에 작업을 위임하는 구조 — 허사비스는 이것이 AI의 이상적인 최종 형태라고 했다.

1000배 엔지니어

와이콤비네이터 대표 개리 탄(Garry Tan)이 청중에게 물었다. “지금 이 자리에 계신 분들 중 6개월 전보다 500~1000배 많은 작업량을 소화하는 분이 계실 겁니다. 2000년대 구글 엔지니어 한 명이 평생 할 작업량을 지금은 혼자서 해낸다는 얘기도 있어요.”

허사비스는 고개를 끄덕이며 이렇게 덧붙였다. “소형 모델의 강점 중 하나는 속도입니다. 프론티어 모델 대비 90~95% 성능이라도 상관없습니다. 빠른 반복에서 오는 이득이 그 10% 성능 격차를 훨씬 초과합니다.”

코드를 짜고 테스트하고 수정하는 사이클이 극도로 빨라진다. 혼자서 팀 전체가 하던 일을 해낸다. 이미 일부 개발자들 사이에서는 현실이 된 이야기다.

에이전트는 지금 ‘막 시작됐다’

AI 에이전트란 단순히 질문에 답하는 것을 넘어, 스스로 계획을 세우고 여러 단계의 작업을 연속으로 수행하는 AI를 말한다. 예를 들어 “다음 주 출장 일정을 잡아줘”라는 한 마디에 항공권을 검색하고, 호텔을 예약하고, 캘린더에 일정을 입력하고, 관련자에게 이메일을 보내는 것까지 혼자 해내는 AI다.

에이전트 열풍에 대해 허사비스는 이렇게 정리했다. “저는 지금 막 시작됐다고 봅니다. 과대평가가 아닙니다.”

다만 현실은 아직 거기서 멀다. 수십 개의 에이전트를 수십 시간 돌려도 그 결과물이 투자에 비례하는지 확신하기 어렵다. 바이브코딩(Vibe Coding), 즉 AI에게 말로 지시해서 앱을 만드는 도구로 앱스토어 1위 AAA 게임이 아직 나오지 않았다는 것도 이를 보여준다.

허사비스는 이렇게 진단했다. “기술의 문제가 아니라 공예(craft)의 문제입니다. 인간의 혼과 취향이 아직 필요합니다.” 그러면서 6~12개월 안에 에이전트로 만들어진 진정한 히트 소프트웨어가 등장할 것으로 기대했다.

AI가 바둑 게임을 발명할 수 있을까

허사비스는 AI 창의성의 현재 위치를 이 질문으로 설명했다.

알파고의 37수는 창의적이었다. 그러나 알파고가 바둑이라는 게임 자체를 발명할 수 있을까. “5분이면 배우지만 평생 마스터 못 하고, 미학적으로 우아하며, 하루 안에 한 판을 끝낼 수 있는 전략 게임을 만들어라”는 설명을 주고 바둑을 도출해내는 것 — 지금의 AI는 불가능하다.

37수와 바둑 발명 사이의 거리. 그것이 지금 AI 창의성의 한계이자, 다음 10년이 풀어야 할 과제다.

에이전트 지형도에 대한 자세한 내용은 여기를 참고하시길.

YouTube 동영상

기사 공유하기

답글 남기기