구글, AI 칩 역대 처음으로 두 개로 쪼갰다…8세대 TPU ‘TPU 8t·8i’ 공개


AI 칩 경쟁이 단순 성능 향상을 넘어 ‘용도별 최적화’ 전쟁으로 진화하고 있다.

Google Cloud Next TPU - 와우테일

구글(Google)이 22일 라스베이거스에서 열린 구글 클라우드 넥스트(Google Cloud Next) ’26에서 8세대 텐서처리장치(TPU) ‘TPU 8t’와 ‘TPU 8i’를 공개했다. 역대 TPU 가운데 처음으로 단일 칩 대신 학습(training)과 추론(inference)을 각각 담당하는 두 가지 아키텍처로 나눴다. 에이전틱 AI(Agentic AI) 시대에 학습과 추론의 요구사항이 완전히 달라졌다는 구글의 판단이 반영된 설계다.

구글 클라우드 SVP 겸 AI·인프라 수석 기술책임자 아민 바흐다트(Amin Vahdat)는 “학습과 서빙의 수요가 완전히 분리됐다”며 두 칩이 각기 다른 목적에 맞게 설계됐음을 강조했다.

학습용 TPU 8t — 121 엑사플롭스, 슈퍼파드 하나에 TPU 9600개

TPU 8t는 대규모 모델 학습에 특화된 칩이다. 단일 슈퍼파드에 9,600개의 TPU를 집적해 121 엑사플롭스(Exaflops)의 연산력과 2 페타바이트(PB) 공유 메모리를 제공한다. 이전 세대인 아이언우드(Ironwood) 대비 처리 성능은 약 3배, 와트당 성능은 최대 2배 향상됐다. 칩 간 연결을 담당하는 ICI(Inter-Chip Interconnect) 대역폭도 두 배로 늘렸다.

구글은 TPU 8t를 활용하면 100만 개 이상의 TPU를 단일 클러스터로 묶어 몇 달 걸리던 모델 학습을 몇 주로 단축할 수 있다고 밝혔다. 오케스트레이션은 구글 자체 프레임워크인 패스웨이즈(Pathways)와 JAX가 담당한다.

추론용 TPU 8i — 메모리 벽 허문 에이전트 전용 칩

추론에 최적화된 TPU 8i는 설계 철학 자체가 다르다. 핵심은 온칩 SRAM을 384MB로 이전 세대 대비 3배 늘린 것이다. 엔비디아 H100의 L2 캐시(50MB 수준)와 비교하면 약 7~8배 큰 수치다. HBM(고대역폭 메모리)은 288GB로 확장했다.

엔비디아 GPU는 “HBM을 크고 빠르게”라는 전략을 쓴다. 반면 TPU 8i는 추론 전용 칩이라는 특성을 살려 SRAM 쪽으로 과감하게 설계를 밀어붙였다. SRAM은 HBM보다 10~20배 빠르지만 칩 면적을 많이 차지해 용량을 키우기 어렵다는 물리적 한계가 있는데, 추론에만 집중하는 전용 칩이기에 가능한 트레이드오프다. AI 에이전트가 긴 대화 맥락을 처리할 때 발목을 잡던 KV 캐시를 실리콘 위에 통째로 올릴 수 있게 됐다.

칩 간 연결도 재설계됐다. ICI(Inter-Chip Interconnect) 대역폭을 19.2Tb/s로 두 배 늘리고, 네트워크 직경은 50% 이상 줄였다. ICI는 엔비디아의 NVLink에 대응하는 기술이다. NVLink가 별도 NVSwitch 칩을 통해 GPU를 묶는 방식인 데 반해, ICI는 칩들이 스위치 없이 직접 연결되는 메시 구조라 스위치 병목이 없다. TPU 8i는 새로운 보드플라이(Boardfly) 토폴로지로 단일 파드에 1,152개의 TPU를 직접 연결한다. 집단 연산을 별도 처리하는 CAE(Collectives Acceleration Engine)도 도입해 고동시성 요청에서 온칩 지연을 최대 5배 줄였다.

이를 통해 TPU 8i는 이전 세대 대비 추론 달러당 성능을 80% 높였다.

버고 네트워크 — 슈퍼파드와 슈퍼파드를 잇는 스케일아웃 패브릭

AI 데이터센터 인프라를 레이어로 나누면, ICI는 슈퍼파드 안에서 TPU 칩들을 직접 연결하는 스케일업(Scale-Up) 네트워크다. 그 위 계층, 즉 슈퍼파드와 슈퍼파드를, 더 나아가 데이터센터와 데이터센터를 연결하는 스케일아웃(Scale-Out) 네트워크가 바로 이번에 공개한 ‘버고(Virgo) 네트워크’다. AI 데이터센터 인프라 지형도에서 구분한 네트워크 패브릭 레이어에 해당한다.

버고는 코어 스위치→집계 스위치→엣지 스위치로 이어지던 기존 다계층 구조를 단순화한 ‘콜랩스드 패브릭(Collapsed Fabric)’ 아키텍처를 채택해 홉(hop) 수를 줄이고 대역폭을 이전 세대 대비 4배로 끌어올렸다. 엔비디아 생태계의 퀀텀-X800 인피니밴드(Quantum-X800 InfiniBand)나 스펙트럼-X(Spectrum-X) 이더넷에 대응하는 기술이지만, 구글이 TPU 워크로드에 맞게 자체 설계했다는 점이 다르다.

TPU 8t와 결합하면 단일 데이터센터에서 TPU 13만 4000개를 하나의 패브릭으로 연결하고, 여러 데이터센터를 묶으면 100만 개 이상의 TPU를 하나의 학습 클러스터로 구성할 수 있다. NVIDIA 베라 루빈(Vera Rubin) NVL72 기반 A5X 인스턴스도 버고 네트워크를 지원하며, 단일 데이터센터에서 GPU 8만 개, 멀티사이트로 96만 개까지 연결된다.

스토리지 측면에서는 관리형 루스터(Managed Lustre)가 초당 10TB 처리량을 지원해 전년 대비 10배, 경쟁사 대비 최대 20배 빠른 성능을 갖췄다.

“엔비디아 대항마”…시장 반응은 복잡

TechCrunch는 이번 발표를 “구글이 엔비디아와 경쟁하기 위해 두 가지 새 AI 칩을 출시했다”고 보도했다. 그러나 역설적으로 구글은 엔비디아와의 협력도 함께 발표했다. 구글 클라우드는 엔비디아 베라 루빈 플랫폼을 조기 도입하는 파트너가 될 예정이며, 오픈 컴퓨트 프로젝트(Open Compute Project)를 통해 팔콘(Falcon) 네트워킹 프로토콜을 엔비디아와 공동 개발하기로 했다.

칩 시장 분석가 패트릭 무어헤드(Patrick Moorhead)는 “구글이 TPU로 엔비디아에 위협이 될 것이라는 예측은 2016년 첫 TPU 발표 당시부터 있었다”며 “엔비디아는 현재 시총 약 5조 달러 기업이 됐다”고 현실을 지적했다. 구글 클라우드가 AI 클라우드 사업자로 성장할수록 TPU와 GPU 수요가 함께 늘어나는 구조다.

구글은 자사 AI 모델인 제미나이(Gemini)와 앤트로픽(Anthropic)의 클로드(Claude), 구글 딥마인드(DeepMind) 모델 등을 이 TPU 위에서 돌리고 있다. TPU 8t·8i는 올해 안에 구글 클라우드 고객에게 제공될 예정이다.

기사 공유하기

답글 남기기