AI 모델 하나를 학습시키는 데 원자력발전소 한 기의 전력이 필요한 시대가 왔다. GPT-4 학습에는 약 30메가와트(MW)의 전력이 지속적으로 투입됐고, 오픈AI의 스타게이트(Stargate) 프로젝트는 수 기가와트(GW) 규모의 전력을 필요로 한다. 국제에너지기구(IEA)에 따르면 전 세계 데이터센터 전력 소비량은 2030년 945테라와트시(TWh)로 지금의 두 배에 달할 전망이다. 2026~2030년 사이에만 약 100기가와트의 신규 데이터센터 용량이 추가되며, 이에 필요한 총 투자액은 3조 달러에 육박할 것으로 JLL은 분석한다.
그런데 AI 데이터센터의 병목은 GPU 하나가 아니다. AI 칩이 연산을 처리하고 그 결과가 바깥 세계로 나가기까지, 데이터는 물리적 거리에 따라 전혀 다른 기술 구간을 통과한다. 이 구간들 중 어느 하나라도 막히면 전체 시스템이 제 속도를 내지 못한다. 수십조 원의 투자가 각 구간을 혁신하려는 스타트업들로 쏟아지는 이유다.
GPU가 연산하려면 모델 가중치를 메모리에서 빠르게 읽어와야 한다. 이 구간의 병목을 ‘메모리 월(memory wall)’이라고 한다. 현재 주류 해법은 HBM(고대역폭 메모리)이다. GPU 칩과 메모리 칩을 같은 패키지 안에 나란히 얹고, 수만 개의 미세한 구리 범프로 연결하는 2.5D 패키징 구조다. 거리가 너무 짧아 광(光) 신호보다 전기 신호가 더 효율적이며, 광 인터커넥트 기술이 적용되지 않는다.
② 랙 내 GPU 간, 수십 센티미터~1미터 (스케일업)
한 랙 안의 GPU들이 서로 실시간으로 데이터를 나누는 구간이다. 현재는 전기 신호 기반 전용 고속 인터커넥트가 쓰인다. 거리가 1미터 내외라 아직 전기 신호로 충분하지만, 랙당 GPU 수가 늘고 데이터 양이 커지면서 광 전환이 논의되기 시작했다.
③ 랙과 랙 사이, 수 미터~수십 미터 (스케일아웃)
여러 랙을 서로 연결하는 구간이다. 이 구간은 이미 광케이블이 표준이다. 핵심 과제는 스위치 칩(전기)과 광케이블 사이의 변환 손실을 줄이는 것이다.
④ 데이터센터 간, 수 킬로미터 이상
처음부터 광케이블이 표준이다. 코히런트(Coherent), 루멘텀(Lumentum) 같은 전통 광통신 기업들이 장악하고 있다.
광 인터커넥트는 칩과 메모리 사이를 대체하는 기술이 아니다. 그 구간은 거리가 너무 짧아 광보다 전기가 유리하다. 광의 전장은 GPU와 GPU 사이(②스케일업), 그리고 랙과 랙 사이(③스케일아웃)다. 이 구분을 염두에 두고 지형도를 읽으면 각 스타트업이 어디서 무엇을 노리는지가 명확해진다.
와우테일은 이 프로젝트에서 꾸준히 추적해온 AI 인프라 스타트업 소식을 레이어별로 집대성해 지형도로 정리한다.
레이어 1: AI 칩(반도체) — 학습에서 추론으로, 설계 철학이 바뀐다
AI 인프라의 출발점은 칩이다. 그런데 AI가 ‘학습 시대’에서 ‘추론 시대’로 넘어오면서 칩에 요구하는 것이 근본적으로 달라졌다.
학습은 수백억 개의 파라미터를 수조 개의 토큰으로 반복 갱신하는 작업이다. 며칠~수주에 걸쳐 돌아가기 때문에 지연시간(latency)은 중요하지 않다. 오로지 처리량(throughput) 극대화가 목표다. 반면 추론은 사용자 요청이 들어올 때마다 즉시 응답을 만들어야 한다. 지연시간이 체감에 직결되고, 요청마다 비용이 발생하기 때문에 단위 비용당 토큰 수가 핵심 지표가 된다. 특히 추론은 복잡한 연산보다 메모리에서 모델 가중치를 빠르게 읽어오는 것이 성능을 좌우한다. 기존 GPU가 연산 성능 최대화에 맞게 설계된 반면, 추론 전용 스타트업들은 메모리 대역폭과 에너지 효율에 집중한다.
기존 강자
엔비디아(NVIDIA)는 AI 반도체 시장의 절대 강자로, GPU 시장 점유율 92%를 차지한다. 블랙웰(Blackwell) GB200 시스템은 2개의 B200 GPU와 그레이스(Grace) CPU를 결합해 최대 1.3엑사플롭스의 추론 성능을 제공한다. 2026년 하반기 출시 예정인 루빈(Rubin) 아키텍처는 블랙웰보다 40% 더 에너지 효율적일 것으로 예상된다.
AMD가 빠르게 추격 중이다. 2025년 AI 칩 매출은 56억 달러로 전년 대비 두 배 증가했다. MI300X는 오픈AI, 오라클, 메타가 채택했고, MI350 시리즈가 2026년 상반기 출시를 앞두고 있다. 브로드컴(Broadcom)은 구글, 메타, 바이트댄스와 협력해 맞춤형 AI 칩(ASIC)을 개발하며 2025년 4분기에만 AI 관련 매출 126억 달러를 기록했다.
도전하는 스타트업
맷엑스(MatX) — 구글에서 PaLM 추론 소프트웨어와 TPU v5e 아키텍처를 설계한 라이너 포프(Reiner Pope) CEO가 2022년 말 창업했다. LLM 전용 칩 ‘맷엑스 원(MatX One)’을 개발 중이다. 기존 시스톨릭 어레이를 분리 가능하게 설계해 다양한 행렬 크기에서도 높은 활용도를 유지하며, SRAM과 HBM을 결합해 낮은 지연시간과 긴 문맥 처리를 동시에 구현한다. 2026년 2월 제인 스트리트(Jane Street)·시추에이셔널 어웨어니스 LP 공동 주도 시리즈B에서 5억 달러를 유치했다.
포지트론 AI(Positron AI) — ‘메모리 우선 설계’ 추론 칩을 개발한다. 메모리 대역폭을 먼저 설계하고 연산을 여기에 맞춰 배치해 대역폭 활용률이 93%에 달한다(GPU는 보통 10~30%). 현재 제품 아틀라스(Atlas)는 엔비디아 H100과 동등한 성능을 3분의 1 전력으로 구현한다고 주장한다. 2026년 2월 아레나 프라이빗 웰스·점프 트레이딩 공동 주도, 카타르투자청·ARM 참여 시리즈B에서 2억 3천만 달러를 유치하며 유니콘에 등극했다.
에치드(Etched) — 트랜스포머(Transformer) 아키텍처 전용 칩 ‘소후(Sohu)’를 개발한다. 범용성을 버리고 트랜스포머에만 최적화해 8개 칩 서버 하나가 초당 50만 개 이상의 토큰을 생성한다고 주장한다. H100 GPU 160개에 맞먹는 수준이다. 다만 트랜스포머를 대체하는 아키텍처(맘바·RWKV 등)가 주류가 될 경우 칩이 무용지물이 될 수 있다는 구조적 리스크가 있다. 2026년 1월 5억 달러를 유치하며 기업가치 50억 달러, 누적 투자금 약 10억 달러를 달성했다.
세레브라스(Cerebras) — 웨이퍼 전체를 하나의 칩으로 만드는 ‘웨이퍼 스케일 엔진(WSE)’ 기술로 주목받는다. 칩 간 데이터 이동 지연을 없애 초당 2,000토큰 이상의 처리 속도를 자랑한다. 현재 220억 달러 밸류에이션으로 10억 달러 추가 투자를 논의 중이며 2026년 IPO를 추진하고 있다.
디매트릭스(d-Matrix) — ‘디지털 인메모리 컴퓨팅(DIMC)’ 방식으로 메모리 안에서 직접 연산을 처리한다. 데이터를 저장된 곳에서 바로 계산해 GPU 대비 10배 빠른 성능, 3배 낮은 비용, 3~5배 높은 에너지 효율을 주장한다. 2025년 불하운드캐피탈·트라이아토믹·테마섹 공동 주도 시리즈C에서 기업가치 20억 달러에 2억 7,500만 달러를 유치했다.
텐스토렌트(Tenstorrent) — AMD의 전설적인 칩 설계자 짐 켈러(Jim Keller)가 이끄는 회사로, RISC-V 기반 오픈소스 AI 프로세서 생태계를 구축 중이다. LG전자, 현대자동차 등 한국 기업의 투자도 받았으며 2024년 12월 기준 누적 투자금 11억 달러를 넘어섰다.
언컨벤셔널 AI(Unconventional AI) — 디지털 GPU와 근본적으로 다른 접근을 택한다. 아날로그 신호로 연산하는 뉴로모픽(neuromorphic) 칩을 개발한다. 뇌의 신경망이 디지털 0과 1이 아닌 연속적 신호로 동작하듯, 인간 뇌 수준의 에너지 효율(약 20와트)을 목표로 한다. 기존 디지털 AI 칩 대비 에너지 소비를 100배 이상 줄일 수 있다고 주장한다. 나빈 라오(Navin Rao) CEO는 인텔 데이터센터 사업부를 이끌며 제온(Xeon) 프로세서와 AI 가속기 전략을 총괄한 인물이다. 2025년 12월 시드 라운드에서 4억 7,500만 달러를 유치하며 기업가치 45억 달러를 달성했다.
인차지 AI(Encharge AI) — 아날로그 인메모리 컴퓨팅 방식의 추론 가속기를 개발한다. 디매트릭스(디지털 인메모리)와 원리는 비슷하지만 아날로그 신호로 연산을 수행한다. 디지털 방식 대비 에너지 효율이 극적으로 높다는 것이 핵심 주장이다. 프린스턴대 연구진이 창업했다. 2025년 2월 시리즈B에서 1억 달러를 유치했다.
레이어 2: 메모리 — 연산 속도를 결정하는 대역폭과 용량
칩이 아무리 빠르더라도 메모리에서 데이터를 가져오는 속도가 느리면 칩은 대기 상태에 빠진다. AI 추론에서 성능을 결정하는 가장 큰 변수 중 하나다. 이 레이어는 크게 두 영역으로 나뉜다. 하나는 GPU 패키지 안에 붙어 있는 온칩 메모리(HBM), 다른 하나는 GPU 바깥에서 연결해 메모리를 확장하는 CXL이다.
HBM — GPU에 붙어 있는 고속 메모리
고대역폭 메모리(HBM, High Bandwidth Memory) 시장은 삼성전자, SK하이닉스, 마이크론(Micron)이 주도한다. HBM은 메모리 칩 여러 개를 수직으로 쌓은 뒤 GPU 칩 옆에 나란히 올려놓고 실리콘 인터포저(중간 기판) 위에서 수만 개의 미세한 구리 범프로 연결하는 2.5D 패키징 구조다. 엔비디아 H100은 HBM3를 탑재하며 초당 3.35테라바이트의 대역폭을 제공한다. SK하이닉스는 2026년 HBM4 양산을 앞두고 있다. 다만 HBM은 비싸고 전력을 많이 먹으며 공급이 불안정하다는 약점이 있다.
포지트론 AI는 비싼 HBM 대신 저가 LPDDR5x 일반 메모리로 대체하되, 크레도 세미컨덕터(Credo Semiconductor)와 공동 개발한 ‘위버(Weaver)’ 팬아웃 칩렛으로 고속 연결해 HBM에 근접한 성능을 낸다. 같은 가격에 HBM보다 6배 많은 용량을 확보할 수 있다는 게 핵심 주장이다.
소프트웨어 혁신 — 구글 터보퀀트(TurboQuant)
하드웨어를 바꾸지 않고도 메모리 병목을 줄이는 소프트웨어 접근도 있다. 구글 리서치가 2026년 3월 공개한 터보퀀트(TurboQuant)가 대표적이다. 터보퀀트는 LLM 추론 중 GPU 메모리를 가장 많이 잡아먹는 KV 캐시(추론 시 처리한 토큰의 문맥 정보를 임시 저장하는 공간)를 6배 압축하면서도 모델 정확도 손실이 없다. 재학습이나 하드웨어 교체 없이 기존 모델에 즉시 적용 가능하다. 자세한 내용은 여기를 참고하길.
CXL — HBM의 한계를 넘는 메모리 확장 기술
HBM이 GPU 패키지 안에 붙어 있는 빠른 메모리라면, CXL(Compute Express Link)은 GPU 바깥에서 메모리를 대용량으로 확장하는 기술이다. 인텔이 2019년 주도해 만든 개방형 인터커넥트 표준으로, AMD·ARM·엔비디아·퀄컴·삼성·SK하이닉스·마이크론 등이 컨소시엄에 참여하고 있다.
일반 PCIe 슬롯에 꽂히지만, CXL의 핵심은 메모리 시맨틱(memory semantics) 지원이다. 네트워크 패킷을 주고받는 방식이 아니라, CXL로 연결된 외부 장치의 메모리를 CPU·GPU가 자신의 로컬 메모리처럼 직접 주소 지정해 읽고 쓸 수 있다. GPU 입장에서는 메모리가 갑자기 수 테라바이트로 확장되는 효과다.
속도는 HBM(수십 나노초)보다 느리다(수백 나노초). 하지만 용량은 비교할 수 없이 크다. 에이전트 시대가 오면 KV 캐시가 수백 기가바이트로 불어나는데, GPU 메모리만으로는 감당이 안 된다. CXL이 그 중간 계층을 채운다.
[HBM] 빠름 / 비쌈 / 수십~수백 GB ← 핵심 연산 가중치
[CXL] 중간 / 적정가 / 수 TB ← KV 캐시, 덜 쓰는 데이터
[SSD] 느림 / 쌈 / 수십 TB ← 장기 저장
CXL 3.0부터는 메모리 풀링(Memory Pooling) 도 가능해졌다. 여러 GPU가 CXL 스위치를 통해 하나의 대형 메모리 풀을 공유하는 구조로, 개념적으로는 스케일업 레이어의 역할도 일부 담당한다. NVSwitch보다 지연시간이 길어 학습보다는 추론, 특히 긴 문맥의 에이전트 워크로드에 더 적합하다.
기존 강자
삼성전자는 CXL DRAM 모듈(CMM)을 512GB~1TB 용량으로 양산 중이다. SK하이닉스와 마이크론도 CXL 메모리 모듈 제품 라인업을 갖추고 있다. 인텔은 자사 제온(Xeon) 프로세서에 CXL 지원을 내장해 생태계를 주도하고 있다.
도전하는 스타트업
파네시아(Panmnesia) — CXL 스위치 칩 전문 한국 스타트업이다. CPU·GPU·메모리·가속기를 CXL로 연결해 메모리 용량을 10배 이상 확장하는 기술을 개발한다. 삼성 파운드리를 활용하며, CXL 3.1 스위치 칩 양산을 목표로 하고 있다. 2025년 정부 R&D 자금 3천만 달러 포함 누적 투자금 1천억원 이상을 확보했다.
멤버레이(MemVerge) — 미국 스타트업. 하드웨어가 아닌 소프트웨어로 CXL 메모리 계층을 관리하는 플랫폼을 개발한다. CXL 메모리를 투명하게 다루는 미들웨어 레이어로, 삼성·SK하이닉스·마이크론 등 메모리 제조사들과 협력 중이다.
레이어 3: 스케일업 네트워킹 — 한 랙 안의 GPU를 하나로 묶기
한 랙 안의 수십 개 GPU를 마치 하나의 거대한 연산 장치처럼 동작하게 만드는 것이 스케일업 네트워킹이다. GPU가 빠르더라도 GPU 간 통신이 느리면 일부 GPU가 다른 GPU의 결과를 기다리며 쉬게 된다. 현재 이 구간은 전기 신호 기반이다. 거리가 1미터 내외라 광 신호보다 전기 신호가 더 효율적이기 때문이다. 그러나 랙당 GPU 수가 늘고 모델 크기가 커지면서 전기 신호의 대역폭 한계가 드러나기 시작했다.
기존 강자
엔비디아의 NVSwitch는 이 시장의 사실상 표준이다. 여러 GPU의 메모리와 컴퓨팅 리소스를 단일 논리 공간처럼 추상화하는 기술로, AMD와 시스코 등이 대안을 만들려 했지만 아직 성숙하지 못한 상태다.
전기 신호로 도전하는 스타트업
업스케일 AI(Upscale AI) — 팔로알토 네트웍스(Palo Alto Networks), 이노비움(Innovium), 카비움(Cavium)을 함께 창업한 연쇄 창업가 바룬 카(Barun Kar)와 라지브 케마니(Rajiv Khemani)가 공동 창업했다. 핵심 기술은 ‘AI 워크로드만을 위해 처음부터 설계된’ 스케일업 스위치 칩 스카이해머(SkyHammer)다. 엔비디아의 독점 기술과 달리 UALink, ESUN 같은 개방형 표준을 모두 지원한다. 2025년 9월 타이거 글로벌·프렘지 인베스트 등 주도로 시드 1억 달러를 유치했고, 2026년 1월 시리즈A 2억 달러를 추가 유치해 총 3억 달러로 유니콘에 등극했다.
스케일업을 광으로 대체하려는 시도
스케일업 구간에서도 광으로의 전환을 노리는 스타트업들이 있다. 셀레스티얼 AI(Celestial AI)는 랙 내 GPU 간 연결을 광으로 대체하는 포토닉 패브릭(Photonic Fabric) 기술로 마벨에 55억 달러에 인수됐다. 라이트매터는 더 급진적으로, 여러 칩을 하나의 광학 레이어 위에 통합하는 방식을 개발 중이다(자세한 내용은 아래 광 인터커넥트 섹션 참조).
레이어 4: 스케일아웃 네트워킹 — 랙과 랙을, 데이터센터와 데이터센터를 잇다
여러 랙을 서로 연결하는 스케일아웃 구간은 현대 AI 클러스터에서 수백~수천 개의 랙이 초고속으로 통신해야 한다. 데이터는 스위치 칩(전기) → 광 트랜시버(전기→광 변환) → 광케이블 → 광 트랜시버(광→전기 변환) → 목적지 칩 순서로 이동한다.
인피니밴드에서 이더넷으로 — 2025년의 전환
이 시장은 2025년 극적인 전환점을 맞았다. 2년 전만 해도 AI 백엔드 네트워킹의 80%를 차지하던 인피니밴드(InfiniBand)가 이더넷에 역전됐다. 인피니밴드는 슈퍼컴퓨터용 전용 네트워크로, 엔비디아가 2019년 인수한 멜라녹스(Mellanox)가 사실상 독점했다. 성능은 뛰어나지만 비싸고 전문 인력이 필요한 독점 기술이라는 약점이 있었다.
이더넷은 Ultra Ethernet, ESUN 등 새로운 표준 등장으로 성능 격차를 좁히면서 개방성·경제성 덕분에 주류로 올라섰다. 흥미롭게도 이더넷 시장 내에서도 엔비디아가 Spectrum-X 스위치와 BlueField DPU 조합으로 25.9% 점유율 1위를 차지했다. 아리스타 네트웍스(Arista Networks)는 18.9%로 2위이며, 시스코(Cisco)는 2026년 AI 인프라 매출 목표를 30억 달러로 상향했다. 브로드컴(Broadcom)은 아리스타에 Tomahawk 칩을 공급하며 스케일아웃 시장을 지원한다.
도전하는 스타트업 — 스위치 시스템
기존 업체들이 범용 클라우드 인프라에서 AI로 점진적으로 전환하는 동안, AI만을 위해 실리콘부터 새로 설계하는 스타트업들이 속속 등장하고 있다.
에리두(Eridu) — 인터넷 PPP 프로토콜 설계자이자 라이테라 네트웍스(시에나에 5억 달러 매각)·인피네라 공동창업자(노키아에 23억 달러 인수) 출신 드루 퍼킨스(Drew Perkins) CEO가 이끄는 회사다. GPU와 메모리 대역폭은 해마다 10배씩 성장하는데 스위치는 2~3배 개선에 그치는 불균형을 겨냥한다. 기존 스위치 30개를 1개로 대체하는 고래딕스(high-radix) 설계로 수천 개 GPU를 단일 홉으로 묶고, 자본 지출 최대 50%·네트워킹 전력 최대 70% 절감을 목표로 한다. TSMC와 첨단 패키징 파트너십을 체결했다. 2026년 3월 소크라테스 파트너스·존 도어 등 주도 시리즈A 2억 달러 포함 총 2억 3천만 달러를 유치하며 스텔스를 해제했다.
넥스트홉 AI(NextHop AI) — AI 데이터센터 맞춤형 이더넷 스위치를 JDM(Joint Design Manufacturing) 방식으로 제조한다. 아리스타·시스코처럼 표준화된 카탈로그 제품을 파는 게 아니라, 하이퍼스케일러와 공동 설계해 깊은 수준의 커스터마이징을 제공한다. 2026년 3월 기업가치 42억 달러에 5억 달러 시리즈B를 유치했다.
도전하는 스타트업 — 스위치 칩
스위치 시스템을 만드는 회사가 있다면, 그 시스템 안에 들어가는 칩을 만드는 스타트업도 있다.
리타임(Retym) — AI 데이터센터용 초고속 이더넷 칩(800G/1.6T)을 개발한다. 에리두·넥스트홉이 스위치 완제품을 만든다면, 리타임은 그 스위치 내부의 핵심 칩 레이어를 공략한다. 브로드컴의 Tomahawk 같은 기존 머천트 실리콘을 AI 워크로드에 더 최적화된 칩으로 대체하는 것이 목표다. 2025년 4월 1억 8천만 달러를 유치했다.
광(Optical) 인터커넥트 — 스케일업과 스케일아웃의 경계를 광으로 넘다
랙 간 구간은 이미 광케이블이 표준이다. 핵심 과제는 스위치 칩(전기)과 광케이블 사이의 변환 손실을 줄이는 것, 그리고 더 나아가 아직 전기 신호에 머물러 있는 랙 내 GPU 간(스케일업) 구간까지 광으로 대체하는 것이다. 전통 강자로는 코히런트(Coherent), 루멘텀(Lumentum) 등이 있다.
셀레스티얼 AI(Celestial AI)(스케일업 인터커넥트 — 현재는 마벨에 인수) — ‘포토닉 패브릭(Photonic Fabric)’ 기술로 랙 내 GPU 간 연결을 광으로 대체하는 것이 주 목표였다. OMIB(Optical Multi-Chip Interconnect Bridge) 기술로, 한 다이의 어느 지점에서든 다른 다이의 어느 지점으로 연결이 가능하며 구리 인터커넥트 대비 2배 이상 전력 효율이 높다. 2025년 3월 시리즈C1에서 2억 5천만 달러를 유치했고, 8월 추가로 2억 5,500만 달러를 조달하며 총 투자금 5억 2천만 달러를 넘겼다. 이 기술력을 높게 평가한 마벨(Marvell)이 2025년 12월 55억 달러에 인수하기로 합의했다.
라이트매터(Lightmatter)(스케일업 인터커넥트 — 복수 칩 광학 통합) — MIT 출신이 창업했다. 3D 적층 실리콘 포토닉스 엔진 ‘패시지(Passage)’로 GPU·메모리·ASIC 등 다종 칩을 하나의 광학 레이어 위에 통합한다. 칩 표면 어느 위치에서나 전기-광 변환을 수행해 대역폭 병목을 해소한다. 2025년 3월 공개한 패시지 M1000은 114테라비트/초의 광학 대역폭을 제공한다. 2024년 10월 T. 로우 프라이스 주도, 피델리티·GV(구글 벤처스)·HPE 패스파인더 참여 시리즈D에서 4억 달러를 유치하며 기업가치 44억 달러를 달성했다. 누적 투자금 8억 5천만 달러.
에이어랩스(Ayar Labs)(스케일아웃 — CPO, 스위치 칩 내 광학 통합) — 2015년 MIT·UC버클리·콜로라도대 연구진이 DARPA 프로젝트에서 출발했다. 타깃은 랙 간 스케일아웃 구간이다. 스위치 칩 패키지 안에 광학 I/O 칩렛(TeraPHY)을 통합해, 전기→광 변환에 드는 별도 트랜시버 손실을 없앤다. UCIe 표준을 지원하며 8테라비트/초 대역폭을 제공한다. 엔비디아·AMD·인텔이 모두 주주로 참여해 전략적 가치를 방증한다. 2024년 12월 어드벤트 글로벌·라이트 스트리트 캐피탈 주도, AMD·인텔 캐피탈·엔비디아·3M 벤처스 참여 시리즈D에서 1억 5,500만 달러를 유치하며 유니콘에 등극했다. 누적 투자금 3억 7천만 달러.
레이어 4.5: 워크로드 오케스트레이션 — 소프트웨어가 하드웨어를 지휘한다
하드웨어만으로는 부족하다. GPU·메모리·네트워크 자원을 AI 워크로드의 특성에 맞게 실시간으로 배분하는 소프트웨어 레이어가 새로운 카테고리로 부상하고 있다.
짐렛랩스(Gimlet Labs) — 쿠버네티스 관찰성 툴 픽시(Pixie)를 만들어 뉴렐릭에 매각한 스탠퍼드 부교수 출신 제인 아스거(Zain Asgar) CEO가 이끄는 회사다. 엔비디아·AMD·인텔·세레브라스·디매트릭스 등 다양한 하드웨어를 단일 플랫폼에서 통합 관리하는 ‘멀티실리콘 추론 클라우드(multi-silicon inference cloud)’를 표방한다. AI 에이전트의 다단계 워크로드에서 초기 추론(연산 집약적)·디코딩(메모리 집약적)·도구 호출(네트워크 집약적) 등 단계별 특성에 맞는 칩에 자동으로 작업을 배분해 동일한 비용·전력으로 추론 속도를 3~10배 높인다고 주장한다. 2026년 3월 멘로벤처스(Menlo Ventures) 주도 시리즈A에서 8천만 달러를 유치했다.
스케일옵스(ScaleOps) — 쿠버네티스 클러스터에서 AI 워크로드의 CPU·GPU·메모리 자원을 실시간으로 자동 최적화한다. 별도의 설정 변경 없이 클러스터 내부에서 작동하는 것이 특징이다. 텔아비브 기반으로, 2026년 3월 시리즈C에서 1억 3천만 달러를 유치했다.
레이어 5: 냉각(Cooling) — 열을 잡아야 AI가 산다
엔비디아의 최신 데이터센터용 GPU는 최대 1,000W 이상의 전력을 소비하며, 대부분이 열로 변환된다. 랙당 전력 밀도가 30~100kW를 넘어서면서 기존 공랭식 냉각으로는 한계에 달했다. 데이터센터 냉각은 전체 전력 소비의 7~30%를 차지하며, AI 시대에는 냉각 효율이 전체 시스템 성능과 운영 비용을 좌우한다.
냉각 방식은 크게 세 가지로 나뉜다. 전통적인 공랭식(Air Cooling)은 팬으로 냉각 공기를 순환시키는 방식으로 AI 밀도에서는 한계에 달했다. 직접 액체 냉각(DLC, Direct Liquid Cooling)은 냉각수를 칩 바로 위 콜드플레이트에 흘려 직접 열을 흡수한다. 침지 냉각(Immersion Cooling)은 서버 전체를 절연 액체에 담그는 방식으로 냉각 효율이 가장 높지만 설치·유지보수 비용이 크다.
기존 강자
버티브(Vertiv)는 엔비디아와 공동으로 GB200 NVL72 플랫폼용 7MW 레퍼런스 아키텍처를 개발하며 데이터센터 냉각 시장의 강자로 자리한다. 슈나이더 일렉트릭(Schneider Electric), 이튼(Eaton) 등 전통 설비 기업들도 AI 데이터센터 특화 솔루션을 앞다투어 출시하고 있다.
도전하는 스타트업
프로어 시스템즈(Frore Systems) — 데이터센터용 직접 액체 냉각 솔루션 리퀴드젯(LiquidJet)과 소비자·산업용 고체 상태 능동 공기 냉각 칩 에어젯(AirJet)을 개발한다. 리퀴드젯은 3D 숏루프 제트채널 방식으로 기존 대비 열 전달 효율 75% 향상, GPU 온도 8도 저하를 달성한다. 클라우드에서 엣지까지 하나의 플랫폼으로 커버한다. 2026년 3월 MVP 벤처스 주도, 피델리티·퀄컴 벤처스·메이필드 등 참여 시리즈D에서 1억 4,300만 달러를 유치하며 기업가치 16억 4,000만 달러의 유니콘에 등극했다. 누적 투자금 3억 4천만 달러.
코린티스(Corintis) — 스위스 EPFL 스핀오프로, 냉각재를 칩 내부에 직접 새긴 마이크로 유로(流路)로 흘려보내는 마이크로플루이딕 기술을 개발한다. 마이크로소프트와의 공동 실험에서 기존 콜드플레이트 대비 3배 높은 방열 효율을 입증했고, 인텔 CEO 립부 탄(Lip-Bu Tan)이 이사회에 합류했다. 2025년 9월 블루야드 캐피탈 주도 시리즈A 2,400만 달러를 유치했고, 2025년 12월 어플라이드 디지털 주도로 2,500만 달러를 추가 유치했다. 누적 투자금 5,800만 달러.
레이어 6: 전력(Power) — AI 인프라의 생존 조건
냉각보다 더 근본적인 문제는 전력이다. AI 데이터센터 한 곳에 필요한 전력이 중소 도시 전체 소비량에 맞먹는 수준이다. 전력망은 이 수요를 감당하기 위해 설계되지 않았다. 빅테크 기업들은 전력 확보를 넘어 직접 전력을 생산하거나 공급망을 내재화하는 방향으로 움직이고 있다.
빅테크의 에너지 내재화
구글의 모회사 알파벳은 2025년 12월 데이터센터 에너지 인프라 기업 인터섹트 파워(Intersect Power)를 47억 5,000만 달러에 인수했다. 태양광·천연가스 발전소와 데이터센터를 함께 배치하는 ‘코로케이션(co-location)’ 방식으로 2028년까지 10.8기가와트 프로젝트 가동을 목표로 한다. 마이크로소프트는 펜실베이니아주 스리마일 아일랜드(Three Mile Island) 핵발전소를 재가동해 20년 장기 전력 구매 계약을 맺었다.
전력 생산 기술과 보안
붐 슈퍼소닉(Boom Supersonic) — 초음속 여객기 엔진 기술로 개발한 42메가와트급 천연가스 터빈 ‘슈퍼파워(Superpower)’를 AI 데이터센터 전력원으로 출시했다. 전력망 없이 독립 전원으로 운용 가능하다는 점이 강점이다. AI 데이터센터 기업 크루소(Crusoe)가 29기를 주문하며 첫 번째 고객이 됐다. 2025년 12월 다르사나 캐피털 파트너스(Darsana Capital Partners) 주도, 알티미터·ARK 인베스트·베세머 참여 시리즈B에서 3억 달러를 유치했다.
악시아도(Axiado) — 베이스보드 관리 컨트롤러(BMC), 신뢰 플랫폼 모듈(TPM), 방화벽 등 여러 보안 기능을 단일 칩에 통합하고 AI 기반 실시간 위협 탐지까지 더한 ‘트러스티드 컨트롤 유닛(TCU)’을 개발한다. 동적 열 관리와 전압·주파수 조절 기능으로 전력 효율까지 최적화한다. 2025년 12월 매버릭 실리콘(Maverick Silicon) 주도, 프로스페리티7·EDBI 참여 시리즈C+에서 1억 달러를 유치했다. 누적 투자금 2억 1,600만 달러.
에이전트 시대: AI 인프라 전체를 다시 설계해야 한다
지금까지 다룬 레이어들은 주로 학습과 추론 시대의 인프라다. 그런데 AI는 지금 세 번째 단계, 에이전트(Agentic AI) 시대로 전환 중이다. 에이전트는 질문에 한 번 답하는 게 아니다. 목표를 받고 스스로 계획을 세우고, 도구를 호출하고, 중간 결과를 평가하고, 다음 단계를 결정하는 다단계 루프를 반복한다. 여기서 인프라의 요구사항이 근본적으로 바뀐다.
① 워크로드가 단계마다 다르다 — 이기종 클러스터의 필요성
추론은 매 요청이 비슷하다. 에이전트는 단계마다 완전히 다른 특성을 갖는다.
초기 추론·계획 단계는 연산 집약적(compute-bound)이라 고성능 GPU가 필요하다. 토큰 생성·디코딩은 메모리 집약적(memory-bound)이라 HBM 대역폭과 추론 전용 칩이 유리하다. 도구 호출·API 단계는 네트워크 집약적(network-bound)이라 저지연 네트워크와 DPU가 핵심이다. 중간 결과 저장은 스토리지 집약적이다.
지금 인프라는 이 모든 것을 하나의 GPU로 처리한다. 도구를 호출하는 동안 GPU는 쉬고, 토큰을 생성하는 동안 네트워크는 논다. 엄청난 낭비다. 해법은 이기종 하드웨어 클러스터, 즉 단계마다 최적화된 다른 칩이 작업을 나눠 받는 구조다. 짐렛랩스가 “단계마다 다른 칩에 자동 배분”을 표방하는 이유가 바로 여기에 있다.
② KV 캐시 문제가 폭발적으로 커진다
단순 챗봇은 요청당 수백~수천 토큰을 생성한다. 에이전트는 하나의 태스크를 완료하기 위해 수만~수십만 토큰을 생성한다. KV 캐시가 수십 배로 커진다. GPU 메모리에 모두 올릴 수 없어진다. 두 가지 방향이 논의 중이다. 하나는 터보퀀트처럼 KV 캐시 자체를 압축하는 것이다. 다른 하나는 빠른 외부 스토리지로 KV 캐시를 오프로드(offload)하고 필요할 때만 불러오는 ‘KV 캐시 오프로딩’이다. 이는 GPU DRAM과 SSD 사이에 새로운 지속 메모리(persistent memory) 계층이 필요하다는 것을 의미한다. CXL(Compute Express Link) 기반 메모리 확장이 그 후보 중 하나로 주목받고 있다.
③ 상태를 장기간 유지해야 한다
현재 LLM은 사실상 무상태(stateless)다. 매 요청마다 문맥을 새로 넣어줘야 한다. 에이전트는 며칠, 몇 주에 걸쳐 작업을 이어가야 할 수도 있다. 중간 결과, 작업 이력, 사용자 선호도를 어딘가에 저장하고 빠르게 불러와야 한다. 이건 현재 GPU DRAM이나 HBM으로 해결할 수 없다. 새로운 지속 메모리 계층이 필요하다.
④ 에이전트 간 통신 패턴이 기존 네트워크와 맞지 않는다
학습은 수천 개 GPU 전체가 주기적으로 동기화하는 ‘대용량·균일·예측 가능’ 트래픽이다. 에이전트는 여러 서브에이전트를 동시에 실행하고 결과를 합치는 ‘소량·비정기적·우선순위 다양’ 트래픽이다. 현재 이더넷·InfiniBand는 학습형 트래픽에 최적화되어 있다. 에이전트 트래픽 패턴에 최적화된 새로운 네트워크 패브릭이 필요하다.
⑤ 전력과 냉각의 동적 관리
학습은 GPU 전체가 항상 풀가동이다. 에이전트는 단계마다 부하가 달라진다. 동적으로 전력과 냉각을 조절하는 기술이 더 중요해진다. 악시아도의 TCU가 동적 전력 관리와 보안을 함께 담당하는 것, 프로어 시스템즈가 에너지 효율을 냉각의 핵심 가치로 내세우는 것이 이 흐름과 연결된다.
에이전트 시대가 본격화하면 현재 인프라 스택 전체가 재설계 대상이 된다. 이기종 칩 클러스터, 지속 메모리 계층, 에이전트형 네트워크 패브릭은 아직 초기 단계지만, 이 방향으로 투자가 집중되는 것은 시간문제다.
AI 인프라를 읽는 세 가지 키워드
① 단일 병목에서 다층 병목으로
초기 AI 시대의 병목은 GPU였다. 이제는 다르다. GPU 수급이 풀리면 메모리 대역폭이 발목을 잡고, 네트워크가 해결되면 냉각이 한계를 드러낸다. 전력은 어디서나 바닥을 보인다. AI 인프라 투자는 단일 레이어가 아닌 전체 스택을 함께 업그레이드하는 방향으로 진화하고 있다.
② 엔비디아의 역설: 독점을 이기는 독점
엔비디아는 이 모든 레이어에서 존재감을 드러낸다. GPU뿐 아니라 스케일업 네트워킹(NVSwitch), 스케일아웃 이더넷(Spectrum-X), 플랫폼 보안(MGX)까지 수직 통합을 밀어붙이고 있다. 스타트업들의 공략 포인트는 바로 이 독점 구조의 틈이다. 개방형 표준을 내세운 업스케일 AI, 멀티실리콘을 지향하는 짐렛랩스가 그 예다. 셀레스티얼 AI의 포토닉 패브릭 기술은 마벨에 인수됨으로써 엔비디아에 맞설 새로운 무기가 됐다.
③ 에이전트 임계점 — 인프라가 먼저 바뀌어야 한다
AI 추론 워크로드가 학습을 추월하는 시점이 2027년으로 예상된다. 그런데 에이전트 시대의 인프라 요구는 추론 시대와도 다르다. 이기종 칩 클러스터, KV 캐시 오프로딩, 지속 메모리 계층, 에이전트형 네트워크 패브릭 — 이 네 가지 중 어느 것도 현재 표준 데이터센터 인프라에 존재하지 않는다. AI 모델이 에이전트 능력을 갖추는 속도보다 인프라가 따라가는 속도가 느리다면, 다음 AI 병목은 알고리즘이 아니라 인프라에서 온다. 지금 이 레이어들에 투자하는 스타트업들이 그 병목을 선점하려는 것이다.
답글 남기기
댓글을 달기 위해서는 로그인해야합니다.