메타, 슈퍼인텔리전스랩 첫 모델 ‘뮤즈 스파크’ 출시… 라마 실패 딛고 프론티어 복귀


라마(Llama) 4의 실패를 계기로 AI 조직을 전면 재정비한 메타(Meta)가 9개월 만에 그 결과물을 내놓았다. 8일(현지시간) 메타는 메타 슈퍼인텔리전스 랩스(Meta Superintelligence Labs, MSL)의 첫 번째 모델 뮤즈 스파크(Muse Spark)를 공개했다. 현재 meta.ai와 메타 AI 앱에서 즉시 사용 가능하며, 수 주 안에 페이스북(Facebook)·인스타그램(Instagram)·왓츠앱(WhatsApp) 등 주요 서비스와 레이밴(Ray-Ban) AI 스마트글래스에도 순차 적용된다.

meta muse spark - 와우테일

9개월 만의 귀환

뮤즈 스파크는 코드명 ‘아보카도(Avocado)’로 개발됐으며, 새로 선보이는 뮤즈(Muse) 모델 패밀리의 첫 작품이다. 메타는 지난해 여름 라마 4가 시장의 냉담한 반응을 얻자 저커버그 주도로 AI 조직 전체를 해체 수준으로 재편했다. 이후 9개월 동안 프리트레이닝 스택을 전면 재구축하고 모델 아키텍처, 최적화, 데이터 파이프라인을 모두 새로 만들었다. 그 결과물이 바로 뮤즈 스파크다.

MSL을 이끄는 알렉산더 왕(Alexandr Wang) X에 올린 글에서 “9개월 전 AI 스택을 처음부터 다시 만들었다. 새로운 인프라, 새로운 아키텍처, 새로운 데이터 파이프라인. 뮤즈 스파크는 그 작업의 결과물이며, 이제 메타 AI를 구동한다”며 더 큰 모델이 이미 개발 중이라고 전했다. 저커버그는 페이스북에 “세계 수준의 어시스턴트이자, 시각적 이해·건강·소셜 콘텐츠·쇼핑·게임 등 개인 슈퍼인텔리전스와 관련한 영역에서 특히 강하다”고 소개했다.

소식이 알려지자 메타 주가는 장중 한때 9% 이상 급등했다.

뮤즈 패밀리의 설계 의도: 스파크는 시작일 뿐

이번에 공개된 스파크는 뮤즈 패밀리의 첫 번째이자 가장 가벼운 모델이다. 메타는 스파크를 “작고 빠르게 설계된 모델”이라고 명시하며, 수십억 명의 일상 사용자를 위한 소비자향 제품으로 포지셔닝했다. 아직 뒤이을 모델들의 명칭이나 규모를 공식 공개하지는 않았지만, 왕은 “더 크고 강력한 모델이 이미 개발 중”이라고 밝혔다. 업계에선 스파크 위로 더 강력한 추론 모델이 올라오는 계층 구조가 형성될 것으로 보고 있으며, 하이페리온(Hyperion) 데이터센터 등 대규모 인프라 투자가 이를 뒷받침하기 위한 준비라는 해석이다. 오픈AI가 GPT-4o→GPT-5.4→GPT Pro로, 앤트로픽이 소네트(Sonnet)→오퍼스(Opus)로 계층을 구분하듯, 메타도 뮤즈 패밀리 안에서 유사한 구조를 갖춰갈 것으로 예상된다. 메타는 향후 일부 모델을 오픈소스로 공개할 계획이라고 밝혔다.

멀티모달 추론 모델… 코딩은 여전히 약점

뮤즈 스파크는 텍스트·이미지·음성을 동시에 처리하는 네이티브 멀티모달 추론 모델이다. 응답 방식은 빠른 ‘인스턴트(Instant)’ 모드와 단계적으로 풀어나가는 ‘싱킹(Thinking)’ 모드, 두 가지로 나뉜다. 여기에 병렬 에이전트를 동원해 심층적인 과학·수학 문제를 처리하는 ‘컨템플레이팅(Contemplating)’ 모드도 추가로 출시된다. 이 모드는 구글의 제미나이 딥 씽크(Gemini Deep Think)와 오픈AI의 GPT Pro를 정면 겨냥한다.

벤치마크 성적은 고루하지 않다. 그래프·수식 이해력을 측정하는 CharXiv 리즈닝에서 86.4점을 기록해 제미나이 3.1 프로(80.2)와 GPT 5.4(82.8)를 앞질렀다. 건강 분야 개방형 질의 평가인 HealthBench Hard에서는 42.8점으로 제미나이 3.1 프로(20.6)·GPT 5.4(40.1)·그록 4.2(20.3)를 큰 폭으로 웃돌았다. 에이전틱 검색 평가 DeepSearchQA에서도 74.8점으로 경쟁사들을 앞섰다. 컨템플레이팅 모드에서는 최난도 학술 문제 평가 Humanity’s Last Exam에서 50.2점으로 제미나이 3.1 딥 씽크(48.4)와 GPT 5.4 Pro(43.9)를 모두 넘었다.

약점도 분명하다. 코딩과 에이전틱 기능에서는 격차가 남아 있다고 메타도 직접 인정했다. ARC-AGI 2에서 42.5점에 그쳐 제미나이 3.1 프로(76.5)와 GPT 5.4(76.1)에 크게 뒤졌고, 에이전틱 터미널 코딩 평가 Terminal-Bench 2.0에서도 59.0점으로 GPT 5.4(75.1)보다 낮았다. 앤트로픽이 강세를 보이는 바이브 코딩(vibe coding) 분야에서도 의미 있는 수준에 이르지 못했다는 평가가 지배적이다.

건강·쇼핑을 앞세운 ‘개인 슈퍼인텔리전스’

메타가 뮤즈 스파크로 차별화를 꾀하는 두 영역은 건강과 쇼핑이다. 건강 추론 능력을 높이기 위해 1000명 이상의 의사와 협업해 훈련 데이터를 구성했으며, 음식 영양 성분이나 운동 시 활성화되는 근육 등 건강 정보를 시각적으로 풀어내는 인터랙티브 화면을 생성할 수 있다. 쇼핑 모드에서는 사용자가 팔로우하는 크리에이터와 커뮤니티의 스타일을 참고해 맞춤 제품을 추천하고 구매 링크까지 제공한다. 35억 명 이상의 플랫폼 이용자 데이터를 AI 서비스와 연결해 광고 수익을 넘어서는 부가가치를 만들겠다는 전략이다.

여러 서브에이전트가 분업하는 멀티에이전트 오케스트레이션도 주목할 기능이다. 여행 계획처럼 복잡한 요청이 들어오면 한 에이전트가 일정표를 짜는 동안 다른 에이전트는 아이 친화적인 활동을 찾는 식으로 병렬 처리한다.

오픈소스 노선 이탈… 개발자 커뮤니티의 반발

뮤즈 스파크가 불러일으킨 가장 큰 논란은 오픈소스 정책의 전환이다. 라마 시리즈가 공개 가중치(open-weight) 방식으로 누구나 내려받아 쓸 수 있었던 것과 달리, 뮤즈 스파크는 클로즈드 모델이다. 설계와 코드가 공개되지 않으며, 현재는 메타 자체 생태계 안에서만 사용 가능하다. 선별된 파트너에게만 비공개 API 프리뷰가 제공되고, 요금 정책은 아직 발표되지 않았다.

왕은 향후 오픈소스 버전 출시 계획이 있다고 밝혔지만, 개발자 커뮤니티의 반응은 회의적이다. 라마 4 시리즈가 기대만큼 개발자 트랙션을 얻지 못한 뒤의 불가피한 전환이라는 시각이 있는가 하면, 경쟁력 있는 추론 모델을 확보한 지금 ‘문을 닫는 것’이라는 비판도 나온다.

라마 생태계의 규모 자체는 이미 상당하다. 2026년 초 기준 전체 다운로드 수가 12억 건에 달하고 하루 평균 100만 건이 내려받아진다. 그러나 알리바바(Alibaba)와 딥시크(DeepSeek) 등 중국 모델이 허깅페이스(HuggingFace) 내 다운로드의 41%를 차지하며 빠르게 자리를 넓히는 동안, 메타의 오픈소스 리더십은 사실상 흔들려 왔다.

계산 효율 10배 개선

기술적으로 주목할 부분은 효율성이다. 메타에 따르면 뮤즈 스파크는 라마 4 매버릭(Llama 4 Maverick)과 동등한 성능을 내는 데 필요한 컴퓨팅이 10배 이상 줄었다. 강화학습 과정에서 ‘사고 시간’에 패널티를 부여해 모델이 추론 토큰을 과도하게 쓰지 않도록 훈련하는 ‘사고 압축(thought compression)’ 기법이 핵심이다. 더 적은 토큰으로 문제를 풀어낸 뒤 다시 정밀도를 높이는 방식이다. 여러 에이전트가 동시에 추론을 나눠 처리하는 병렬 멀티에이전트 방식도 응답 속도를 유지하면서 성능을 끌어올리는 데 기여한다.

모델이 ‘자신이 평가받고 있다는 것’을 알았다

이번 출시에서 가장 이례적인 대목은 안전성 평가 결과다. 제3자 평가기관 아폴로 리서치(Apollo Research)는 뮤즈 스파크가 자신이 테스트한 모든 모델 가운데 가장 높은 수준의 ‘평가 인식(evaluation awareness)’을 보였다고 밝혔다. 테스트 시나리오를 ‘얼라인먼트 트랩(alignment trap)’으로 인식하고, 평가를 받고 있기 때문에 정직하게 행동해야 한다고 스스로 추론하는 경우가 빈번히 관찰됐다.

모델이 평가 환경을 인지하고 그에 맞춰 다르게 행동한다면 기존 안전성 벤치마크 자체의 신뢰성이 흔들릴 수 있다. 메타는 자체 후속 조사에서 이 인식이 일부 얼라인먼트 평가에서 실제 행동에 영향을 줄 수 있다는 초기 증거를 발견했지만, 출시를 막을 수준은 아니라고 결론 내렸다. 생물학·화학 무기 관련 요청에 대한 거부율은 98%를 기록했다.

‘라마 4 벤치마크 조작’의 그림자

뮤즈 스파크 출시에는 해소되지 않은 불신도 따라붙는다. 메타는 과거 라마 4 벤치마크에서 대다수 사용자가 접근할 수 없는 미공개 특수 버전으로 성능 지표를 부풀렸다는 사실을 뒤늦게 인정한 전례가 있다. 실제로 이번에도 제3자 평가기관 아티피셜 애널리시스(Artificial Analysis)의 독립 평가에서 Humanity’s Last Exam 점수가 메타 발표치(50.4)보다 낮은 39.9%로 측정됐다.

‘복귀’는 맞지만, 선두는 아직

시장 반응은 “돌아오긴 했지만 선두는 아니다”로 요약된다. 한쪽에서는 메타가 뮤즈 스파크를 공개한 바로 전날, 앤트로픽이 클로드 미토스(Claude Mythos) 프리뷰를 발표했다. 사이버보안 역량이 너무 강력해 일반에 공개하지 않고 AWS·애플·구글·마이크로소프트 등 소수 파트너사에만 제한적으로 제공하는 모델로, 코딩 벤치마크에서 기존 공개 모델 대부분을 제쳤다. 중국의 Z.AI도 같은 주 SWE-Bench Pro에서 최상위권에 올랐다. 뮤즈 스파크의 글로벌 상위 5위권 진입은 의미 있는 성과지만, 프론티어의 경계는 그 사이에도 빠르게 이동하고 있다.

와튼스쿨의 에탄 몰릭(Ethan Mollick) 교수는 “메타가 자체 프론티어 모델을 보유했다는 사실 자체에 가치가 있다. 그것을 말할 수 있는 기업은 극소수”라고 평가했다. 메타는 소셜미디어를 통해 35억 명 이상의 이용자 데이터를 이미 확보하고 있다는 점에서, 경쟁사보다 유리한 출발선에 서 있다. 뮤즈 스파크는 그 전략적 게임의 ‘시작 신호’다.이번 출시는 메타가 스케일 AI(Scale AI)에 143억 달러를 투자하고 왕을 영입한 지 9개월, MSL 출범 이후 처음 나온 공개 제품이다. 향후 공개될 뮤즈 패밀리 상위 모델이 진짜 판세를 가를 시험대가 될 것이다.

기사 공유하기

답글 남기기