구글 TPU 설계자들이 만든 LLM 전용 칩, 맷엑스가 5억 달러 투자유치


AI 반도체 시장에 구글 출신 엔지니어들이 도전장을 내밀었다. LLM(대규모 언어 모델) 전용 칩 스타트업 맷엑스(MatX)가 시리즈B로 5억 달러(약 7,200억 원) 이상을 유치했다고 발표했다. AI 칩 시장에서 엔비디아의 독주에 맞서는 새로운 도전자가 등장한 것이다.

matx logo - 와우테일

엔비디아의 GPU는 다양한 연산을 처리할 수 있는 범용 칩이다. 그런데 이 범용성이 오히려 약점이 될 수 있다. LLM만을 위한 칩이라면 불필요한 회로를 걷어내고 LLM에 최적화된 설계를 적용할 수 있기 때문이다. 맷엑스는 바로 이 점에 착안해 탄생한 회사다.

창업자들의 구글 TPU 경력

맷엑스는 2022년 말 구글 반도체 팀 출신인 라이너 포프(Reiner Pope) CEO와 마이크 건터(Mike Gunter) CTO가 함께 세운 회사다. 포프는 구글에서 PaLM(팜) 모델의 추론 소프트웨어를 설계하고, TPU v5e 아키텍처 최적화에 참여한 엔지니어다. 건터는 구글 TPU의 수석 하드웨어 설계자 출신으로, 당시 구글에서 가장 빠른 ML 칩을 함께 만들었다.

두 사람은 구글 내부에서도 LLM 처리 속도를 높이려 했지만, 다양한 팀의 요구가 뒤섞이다 보니 LLM에만 집중할 수 없었다고 회상했다. 결국 구글을 나와 오직 LLM만을 위한 칩을 만들기로 결심했다. 포프는 “엔비디아 GPU는 분명 훌륭한 제품이지만, LLM에 특화한다면 훨씬 더 잘할 수 있다고 확신했다”고 밝혔다.

맷엑스 원(MatX One): 처리량과 지연시간을 동시에 잡다

이번 투자 발표와 함께 맷엑스는 첫 번째 칩인 ‘맷엑스 원(MatX One)’의 구체적인 설계를 공개했다. 핵심은 ‘분리형 시스톨릭 어레이(splittable systolic array)’다. 기존 시스톨릭 어레이는 대형 행렬 연산에서 에너지 효율이 높지만, 크기가 작거나 모양이 불규칙한 행렬에서는 활용도가 떨어진다는 단점이 있었다. 맷엑스 원은 이 구조를 분리 가능하게 설계해 다양한 행렬 크기에서도 높은 활용도를 유지한다.

메모리 구성도 독특하다. 일반적으로 AI 칩 설계는 두 갈래로 나뉜다. 하나는 SRAM(정적 램)을 주로 활용해 응답 지연시간을 줄이는 방식이고, 다른 하나는 HBM(고대역폭 메모리)을 사용해 긴 문맥을 처리하는 방식이다. 맷엑스 원은 이 둘을 결합해 SRAM 기반 설계의 낮은 지연시간과 HBM의 긴 문맥 처리 능력을 동시에 구현했다. 포프는 “이 조합에 새로운 수치 처리 방식을 더해 현재 발표된 어떤 시스템보다 높은 처리량을 달성했다”고 설명했다.

회사는 내부 테스트 결과 맷엑스 원이 엔비디아의 차기 루빈 울트라(Rubin Ultra) 제품보다 단위 면적당 연산 성능에서 앞선다고 밝혔다. 현재 100명 규모의 팀이 한 건물에 모여 학습률 스케줄부터 스윙 모듈로 스케줄링, 수치 정밀도, 하드웨어 연결까지 전 분야를 함께 연구 중이다.

제인 스트리트·상황 인식 LP가 주도

이번 5억 달러 시리즈B는 제인 스트리트(Jane Street)와 시추에이셔널 어웨어니스 LP(Situational Awareness LP)가 공동으로 이끌었다. 제인 스트리트는 월스트리트에서 기술 역량으로 이름난 퀀트 트레이딩 회사이며, 시추에이셔널 어웨어니스 LP는 전 오픈AI 연구원 레오폴트 아셴브레너(Leopold Aschenbrenner)가 설립한 투자사다.

이 밖에 스파크 캐피탈(Spark Capital), 다니엘 그로스(Daniel Gross)와 냇 프리드먼(Nat Friedman)의 펀드 NFDG, 스트라이프(Stripe) 공동 창업자 패트릭·존 콜리슨(Patrick·John Collison) 형제, 트라이아토믹 캐피탈(Triatomic Capital), 하푼 벤처스(Harpoon Ventures), 안드레이 카르파티(Andrej Karpathy), 드와르케시 파텔(Dwarkesh Patel) 등이 참여했다. 또한 공급망 파트너로 반도체 설계 전문 기업 알칩(Alchip)과 마벨 테크놀로지(Marvell Technology)도 투자자 명단에 이름을 올렸다.

이번 투자로 기업가치는 수십억 달러 규모로 평가됐다. 블룸버그는 맷엑스의 가장 가까운 경쟁사로 평가되는 에치드(Etched)가 2026년 1월 5억 달러를 50억 달러 밸류에이션에 조달했다는 점을 언급하며 맷엑스의 밸류에이션도 그에 상응하는 수준일 것으로 분석했다. 앞서 2024년 11월 시리즈A에서는 약 1억 달러를 300억 달러 이상 밸류에이션에 유치한 바 있다.

조달 자금은 칩 개발 마무리와 생산 확대에 쓰인다. 테이프아웃(반도체 최종 설계 완료)은 1년 이내를 목표로 하고 있다.

격전지가 된 LLM 추론 칩 시장, 세 가지 전략의 충돌

맷엑스가 도전하는 LLM 추론 칩 시장은 이미 쟁쟁한 경쟁자들이 포진해 있다. 흥미로운 점은 각 회사가 엔비디아를 넘어서려는 방식이 전혀 다르다는 것이다.

가장 과감한 베팅을 하는 곳은 에치드(Etched)다. 2022년 하버드 중퇴 창업자들이 세운 에치드는 ‘소후(Sohu)’ 칩을 트랜스포머 아키텍처 전용으로 하드코딩했다. 현재 챗GPT, 클로드, 제미나이 등 주요 AI 모델의 99%가 트랜스포머 기반인 만큼, 이 구조에만 최적화하면 범용 GPU보다 훨씬 효율적인 처리가 가능하다는 논리다. 실제로 8개 칩으로 구성된 서버 하나가 초당 50만 개 이상의 토큰을 생성한다고 주장하는데, H100 GPU 160개에 맞먹는 수치다. 에치드는 2026년 1월 5억 달러를 유치하며 기업가치 50억 달러, 누적 투자금 약 10억 달러를 달성했다.

그러나 이 전략에는 구조적인 리스크가 따른다. 트랜스포머를 대체하는 새로운 아키텍처가 주류가 되는 순간, 소후 칩은 무용지물이 될 수 있다. 실제로 최근 AI 연구 커뮤니티에서는 트랜스포머의 한계를 극복하려는 시도들이 활발하다. 대표적인 게 맘바(Mamba)로, 트랜스포머의 고질적 약점인 ‘문맥이 길어질수록 연산량이 제곱으로 증가하는 문제’를 SSM(상태 공간 모델) 구조로 해결하려는 접근이다. RWKV처럼 RNN과 트랜스포머를 결합한 하이브리드 시도도 나오고 있다. 에치드 CEO 가빈 우베르티(Gavin Uberti) 본인도 “트랜스포머가 아닌 아키텍처로 패러다임이 바뀌면 칩이 쓸모없어질 수 있다”고 직접 인정할 정도다.

세레브라스(Cerebras)는 전혀 다른 방향으로 도전한다. 특정 아키텍처에 종속되는 대신, 칩 자체의 크기를 혁신적으로 키우는 방식이다. 일반 반도체는 웨이퍼에서 잘게 잘라낸 조각들이지만, 세레브라스는 웨이퍼 전체를 하나의 칩으로 사용한다. 덕분에 칩 간 데이터 이동 지연이 사라져 초당 2,000토큰 이상이라는 경이적인 처리 속도를 달성했다. 4조 개 트랜지스터와 90만 개 코어를 탑재한 WSE-3가 대표 제품이다. 특정 모델 아키텍처에 얽매이지 않는 범용성은 강점이지만, 웨이퍼 한 장에 결함이 생기면 전체가 불량이 되는 수율 문제와 높은 제조 비용이 약점이다. 세레브라스는 현재 220억 달러 밸류에이션을 목표로 10억 달러 추가 투자를 논의 중이며, 2026년 IPO를 추진하고 있다.

맷엑스의 전략은 이 둘 사이 어딘가에 위치한다. 에치드처럼 트랜스포머 하나에 극단적으로 묶지 않고, 세레브라스처럼 제조 공정을 뒤집는 도박도 하지 않는다. LLM 전반에 최적화된 설계 효율로 승부를 건다. 맘바 같은 새로운 아키텍처가 등장해도 LLM이라는 범주 안에 있는 한 대응할 수 있는 유연성을 확보하겠다는 포프의 판단이 깔려 있다.

텐스토렌트(Tenstorrent)도 무시할 수 없는 경쟁자다. AMD의 전설적인 칩 설계자 짐 켈러(Jim Keller)가 이끄는 텐스토렌트는 RISC-V 기반 오픈소스 AI 프로세서 생태계를 구축하면서 LG전자, 현대자동차 등 한국 기업의 투자도 받았다. 2024년 12월 기준 누적 투자금이 11억 달러를 넘어섰다.

결국 이 시장에서 엔비디아를 상대로 살아남으려면 단순히 빠른 칩만으로는 부족하다. 포프는 “성능, 안정성, 소프트웨어 호환성 등 다섯 가지 중요한 측면에서 기존 제품과 맞먹으면서 최소 하나에서는 확연히 앞서야 한다”며 “지금까지 하나의 장점에만 집중하는 스타트업 전략은 이 분야에서 통하지 않았다”고 짚었다. 

맷엑스는 수십만 개의 칩을 연결할 수 있는 고급 인터커넥트 기술을 갖추고 있어 대규모 클러스터 구성에서도 강점을 보인다. 특히 70억 개 이상, 이상적으로는 200억 개 이상의 파라미터를 가진 대형 모델에 최적화돼 있다고 밝혔다.

기사 공유하기

답글 남기기