MS, ‘AI 추론’ 특화 칩 마이아 200 공개… “AWS·구글보다 3배 빨라”


마이크로소프트(Microsoft)가 AI 추론에 최적화된 차세대 가속기 칩 마이아 200(Maia 200)을 발표했다. 스콧 거스리(Scott Guthrie) 마이크로소프트 클라우드+AI 부문 부사장은 26일(현지시간) “마이크로소프트가 구축한 가장 효율적인 추론 시스템”이라며 “현재 세대 하드웨어 대비 달러당 성능이 30% 향상됐다”고 밝혔다.

MS Maia200chip 1024x575 1 - 와우테일

거스리 부사장은 마이아 200이 아마존 3세대 트레이니엄(Trainium 3) 대비 FP4 성능이 3배, 구글 7세대 TPU(Tensor Processing Unit)보다 FP8 성능이 우수하다고 강조했다. 어떤 하이퍼스케일 클라우드 사업자의 자체 실리콘 중에서도 가장 성능이 뛰어나다는 평가다.

마이아 200은 ChatGPT 같은 대형 AI 모델의 추론 수요 급증에 대응해 개발됐다. AI 모델이 사용자 질의에 응답하는 ‘추론’ 과정의 속도와 비용 효율성을 극적으로 개선하는 것이 목표다. TSMC의 3나노 공정으로 제조된 이 칩은 1,400억 개 이상의 트랜지스터를 탑재했으며, 4비트 정밀도에서 10페타플롭스 이상, 8비트 정밀도에서 5페타플롭스 이상의 성능을 750W 전력 범위 내에서 구현한다.

메모리 시스템 설계도 주목할 만하다. 216GB의 HBM3e 메모리로 7TB/s의 대역폭을 제공하고, 272MB의 온칩 SRAM으로 데이터 이동 병목을 최소화했다. 마이크로소프트는 저정밀도 데이터 타입과 전용 DMA 엔진을 활용해 대형 모델이 필요로 하는 방대한 데이터를 효율적으로 처리할 수 있도록 설계했다.

시스템 아키텍처에서 마이크로소프트는 독특한 접근을 취했다. AI 클러스터 구축에는 크게 두 가지 네트워킹이 필요하다. 한 랙 안의 수십 개 칩을 초고속으로 연결하는 ‘스케일업’과 여러 랙을 연결하는 ‘스케일아웃’이다.

스케일업에서는 한 트레이 내 4개의 마이아 200 칩을 스위치 없이 직접 연결하는 전용 아키텍처를 구축했다. 스케일아웃에서는 표준 이더넷을 기반으로 하되, 그 위에 ‘마이아 AI 전송 프로토콜’이라는 맞춤형 소프트웨어 계층을 올렸다. 이를 통해 최대 6,144개의 가속기를 하나의 클러스터로 연결하며, 각 가속기는 양방향 2.8TB/s의 대역폭을 제공한다.

이 방식의 핵심은 엔비디아의 NVLink 같은 독점 패브릭에 의존하지 않는다는 점이다. 독점 패브릭은 특정 벤더만의 전용 네트워크 연결 기술로 비용이 비싸고 벤더 종속이 발생한다. 마이크로소프트는 표준 이더넷 하드웨어를 사용하면서 소프트웨어 최적화로 성능을 확보해 비용을 절감하고 벤더 종속을 피했다. 다만 스케일업 영역은 여전히 엔비디아 NVSwitch가 지배하고 있으며, 업스케일 AI(Upscale AI) 같은 스타트업이 개방형 표준 기반 칩으로 도전하고 있다.

업스케일 AI, 시드 투자 4개월 만에 2억 달러 투자받아 유니콘 등극 

마이크로소프트는 개발 과정에서도 혁신적인 방법을 적용했다. 실제 칩이 나오기 전에 정교한 사전 검증 환경을 구축해 칩, 네트워킹, 시스템 소프트웨어를 통합 설계했다. 대규모 언어 모델의 계산 및 통신 패턴을 미리 시뮬레이션하며 아키텍처를 최적화했고, 2세대 액체 냉각 시스템도 병행 개발했다. 그 결과 첫 패키징된 칩이 도착한 후 며칠 만에 AI 모델이 실행됐고, 첫 실리콘에서 데이터센터 랙 배치까지의 시간이 유사한 AI 인프라 프로그램 대비 절반 이하로 단축됐다.

마이아 200은 오픈AI(OpenAI) GPT-5.2 모델을 비롯해 마이크로소프트 365 코파일럿(Microsoft 365 Copilot)과 마이크로소프트 파운드리(Microsoft Foundry) 서비스에 활용된다. 무스타파 술레이만(Mustafa Suleyman)이 이끄는 마이크로소프트 슈퍼인텔리전스 팀은 마이아 200으로 합성 데이터를 생성하고 강화 학습을 수행해 차세대 자체 모델을 개선할 계획이다.

마이아 200은 아이오와주 디모인 인근 미국 중부 데이터센터에 배치되고 있으며, 애리조나주 피닉스 인근이 다음 배치 지역이다. 마이크로소프트는 개발자, AI 스타트업, 학계를 대상으로 마이아 SDK 프리뷰를 제공한다. SDK에는 파이토치 통합, 트리톤 컴파일러, 최적화된 커널 라이브러리가 포함돼 개발자가 이기종 하드웨어 간 모델을 쉽게 포팅할 수 있다.

이번 발표는 마이크로소프트가 2023년 11월 발표한 초대 마이아 100 이후 2년 만이다. 마이아 100은 주로 내부 프로젝트와 깃허브 코파일럿 데모에 활용됐으며 클라우드 고객에게는 제공되지 않았다. 거스리 부사장은 마이아 200의 경우 “향후 더 광범위한 고객 가용성을 제공할 것”이라고 밝혔다.

빅테크 기업들의 자체 AI 칩 개발 경쟁이 치열해지고 있다. 구글은 2015년부터 TPU를 개발해왔으며 2025년 11월 7세대 아이언우드를 출시했다. AWS는 2025년 12월 3세대 트레이니엄을 발표하며 학습과 추론 양쪽에서 경쟁력을 갖췄다고 강조했다.

흥미로운 점은 각 기업이 서로 다른 네트워킹 전략을 택하고 있다는 것이다. 구글은 자체 ICI 기반 3D 토러스 토폴로지로 최대 9,216개 칩을 연결하는 ‘슈퍼팟’을 구축한다. AWS는 UALink 표준을 지원하는 동시에 독자 네트워크를 개발 중이다. 마이크로소프트는 표준 이더넷을 적극 활용하되 소프트웨어로 차별화하는 길을 택했다. 

이들 기업은 자체 칩 개발을 통해 엔비디아 GPU에 대한 의존도를 줄이고 비용 효율성을 높이려 한다. 업계 전문가들은 맞춤형 ASIC 시장이 향후 몇 년간 GPU 시장보다 빠르게 성장할 것으로 전망한다.

기사 공유하기

답글 남기기