안녕하세요. 와우파트너스입니다. 와우파트너스는 지난 2월에 립스(LIPS) 운영사에 선정되었습니다. 립스(LIPS)는 Lifestyle business Incubating Program for Strong Enterprise의 약자로, 로컬(Local) 및 라이프스타일(Lifestyle) 분야 창업자를 지원하는…
AI 모델 하나를 학습시키는 데 원자력발전소 한 기의 전력이 필요한 시대가 왔다. GPT-4 학습에는 약 30메가와트(MW)의 전력이 지속적으로 투입됐고, 오픈AI의 스타게이트(Stargate) 프로젝트는 수 기가와트(GW) 규모의 전력을 필요로 한다. 국제에너지기구(IEA)에 따르면 전 세계 데이터센터 전력 소비량은 2030년 945테라와트시(TWh)로 지금의 두 배에 달할 전망이다. 2026~2030년 사이에만 약 100기가와트의 신규 데이터센터 용량이 추가되며, 이에 필요한 총 투자액은 3조 달러에 육박할 것으로 JLL은 분석한다.
그런데 AI 데이터센터의 병목은 GPU 하나가 아니다. AI 칩이 연산을 처리하고 그 결과가 바깥 세계로 나가기까지, 데이터는 물리적 거리에 따라 전혀 다른 기술 구간을 통과한다. 이 구간들 중 어느 하나라도 막히면 전체 시스템이 제 속도를 내지 못한다. 수십조 원의 투자가 각 구간을 혁신하려는 스타트업들로 쏟아지는 이유다.
GPU가 연산하려면 모델 가중치를 메모리에서 빠르게 읽어와야 한다. 이 구간의 병목을 ‘메모리 월(memory wall)’이라고 한다. 현재 주류 해법은 HBM(고대역폭 메모리)이다. GPU 칩과 메모리 칩을 같은 패키지 안에 나란히 얹고, 수만 개의 미세한 구리 범프로 연결하는 2.5D 패키징 구조다. 거리가 너무 짧아 광(光) 신호보다 전기 신호가 더 효율적이며, 광 인터커넥트 기술이 적용되지 않는다.
② 랙 내 GPU 간, 수십 센티미터~1미터 (스케일업)
한 랙 안의 GPU들이 서로 실시간으로 데이터를 나누는 구간이다. 현재는 전기 신호 기반 전용 고속 인터커넥트가 쓰인다. 거리가 1미터 내외라 아직 전기 신호로 충분하지만, 랙당 GPU 수가 늘고 데이터 양이 커지면서 광 전환이 논의되기 시작했다.
③ 랙과 랙 사이, 수 미터~수십 미터 (스케일아웃)
여러 랙을 서로 연결하는 구간이다. 이 구간은 이미 광케이블이 표준이다. 핵심 과제는 스위치 칩(전기)과 광케이블 사이의 변환 손실을 줄이는 것이다.
④ 데이터센터 간, 수 킬로미터 이상
처음부터 광케이블이 표준이다. 코히런트(Coherent), 루멘텀(Lumentum) 같은 전통 광통신 기업들이 장악하고 있다.
광 인터커넥트는 칩과 메모리 사이를 대체하는 기술이 아니다. 그 구간은 거리가 너무 짧아 광보다 전기가 유리하다. 광의 전장은 GPU와 GPU 사이(②스케일업), 그리고 랙과 랙 사이(③스케일아웃)다. 이 구분을 염두에 두고 지형도를 읽으면 각 스타트업이 어디서 무엇을 노리는지가 명확해진다.
와우테일은 이 프로젝트에서 꾸준히 추적해온 AI 인프라 스타트업 소식을 레이어별로 집대성해 지형도로 정리한다.
레이어 1: AI 칩(반도체) — 학습에서 추론으로, 설계 철학이 바뀐다
AI 인프라의 출발점은 칩이다. 그런데 AI가 ‘학습 시대’에서 ‘추론 시대’로 넘어오면서 칩에 요구하는 것이 근본적으로 달라졌다.
학습은 수백억 개의 파라미터를 수조 개의 토큰으로 반복 갱신하는 작업이다. 며칠~수주에 걸쳐 돌아가기 때문에 지연시간(latency)은 중요하지 않다. 오로지 처리량(throughput) 극대화가 목표다. 반면 추론은 사용자 요청이 들어올 때마다 즉시 응답을 만들어야 한다. 지연시간이 체감에 직결되고, 요청마다 비용이 발생하기 때문에 단위 비용당 토큰 수가 핵심 지표가 된다. 특히 추론은 복잡한 연산보다 메모리에서 모델 가중치를 빠르게 읽어오는 것이 성능을 좌우한다. 기존 GPU가 연산 성능 최대화에 맞게 설계된 반면, 추론 전용 스타트업들은 메모리 대역폭과 에너지 효율에 집중한다.
기존 강자
엔비디아(NVIDIA)는 AI 반도체 시장의 절대 강자로, GPU 시장 점유율 92%를 차지한다. 블랙웰(Blackwell) GB200 시스템은 2개의 B200 GPU와 그레이스(Grace) CPU를 결합해 최대 1.3엑사플롭스의 추론 성능을 제공한다. 2026년 하반기 출시 예정인 루빈(Rubin) 아키텍처는 블랙웰보다 40% 더 에너지 효율적일 것으로 예상된다.
AMD가 빠르게 추격 중이다. 2025년 AI 칩 매출은 56억 달러로 전년 대비 두 배 증가했다. MI300X는 오픈AI, 오라클, 메타가 채택했고, MI350 시리즈가 2026년 상반기 출시를 앞두고 있다. 브로드컴(Broadcom)은 구글, 메타, 바이트댄스와 협력해 맞춤형 AI 칩(ASIC)을 개발하며 2025년 4분기에만 AI 관련 매출 126억 달러를 기록했다.
도전하는 스타트업
맷엑스(MatX) — 구글에서 PaLM 추론 소프트웨어와 TPU v5e 아키텍처를 설계한 라이너 포프(Reiner Pope) CEO가 2022년 말 창업했다. LLM 전용 칩 ‘맷엑스 원(MatX One)’을 개발 중이다. 기존 시스톨릭 어레이를 분리 가능하게 설계해 다양한 행렬 크기에서도 높은 활용도를 유지하며, SRAM과 HBM을 결합해 낮은 지연시간과 긴 문맥 처리를 동시에 구현한다. 2026년 2월 제인 스트리트(Jane Street)·시추에이셔널 어웨어니스 LP 공동 주도 시리즈B에서 5억 달러를 유치했다.
포지트론 AI(Positron AI) — ‘메모리 우선 설계’ 추론 칩을 개발한다. 메모리 대역폭을 먼저 설계하고 연산을 여기에 맞춰 배치해 대역폭 활용률이 93%에 달한다(GPU는 보통 10~30%). 현재 제품 아틀라스(Atlas)는 엔비디아 H100과 동등한 성능을 3분의 1 전력으로 구현한다고 주장한다. 2026년 2월 아레나 프라이빗 웰스·점프 트레이딩 공동 주도, 카타르투자청·ARM 참여 시리즈B에서 2억 3천만 달러를 유치하며 유니콘에 등극했다.
에치드(Etched) — 트랜스포머(Transformer) 아키텍처 전용 칩 ‘소후(Sohu)’를 개발한다. 범용성을 버리고 트랜스포머에만 최적화해 8개 칩 서버 하나가 초당 50만 개 이상의 토큰을 생성한다고 주장한다. H100 GPU 160개에 맞먹는 수준이다. 다만 트랜스포머를 대체하는 아키텍처(맘바·RWKV 등)가 주류가 될 경우 칩이 무용지물이 될 수 있다는 구조적 리스크가 있다. 2026년 1월 5억 달러를 유치하며 기업가치 50억 달러, 누적 투자금 약 10억 달러를 달성했다.
세레브라스(Cerebras) — 웨이퍼 전체를 하나의 칩으로 만드는 ‘웨이퍼 스케일 엔진(WSE)’ 기술로 주목받는다. 칩 간 데이터 이동 지연을 없애 초당 2,000토큰 이상의 처리 속도를 자랑한다. 현재 220억 달러 밸류에이션으로 10억 달러 추가 투자를 논의 중이며 2026년 IPO를 추진하고 있다.
디매트릭스(d-Matrix) — ‘디지털 인메모리 컴퓨팅(DIMC)’ 방식으로 메모리 안에서 직접 연산을 처리한다. 데이터를 저장된 곳에서 바로 계산해 GPU 대비 10배 빠른 성능, 3배 낮은 비용, 3~5배 높은 에너지 효율을 주장한다. 2025년 불하운드캐피탈·트라이아토믹·테마섹 공동 주도 시리즈C에서 기업가치 20억 달러에 2억 7,500만 달러를 유치했다.
텐스토렌트(Tenstorrent) — AMD의 전설적인 칩 설계자 짐 켈러(Jim Keller)가 이끄는 회사로, RISC-V 기반 오픈소스 AI 프로세서 생태계를 구축 중이다. LG전자, 현대자동차 등 한국 기업의 투자도 받았으며 2024년 12월 기준 누적 투자금 11억 달러를 넘어섰다.
언컨벤셔널 AI(Unconventional AI) — 디지털 GPU와 근본적으로 다른 접근을 택한다. 아날로그 신호로 연산하는 뉴로모픽(neuromorphic) 칩을 개발한다. 뇌의 신경망이 디지털 0과 1이 아닌 연속적 신호로 동작하듯, 인간 뇌 수준의 에너지 효율(약 20와트)을 목표로 한다. 기존 디지털 AI 칩 대비 에너지 소비를 100배 이상 줄일 수 있다고 주장한다. 나빈 라오(Navin Rao) CEO는 인텔 데이터센터 사업부를 이끌며 제온(Xeon) 프로세서와 AI 가속기 전략을 총괄한 인물이다. 2025년 12월 시드 라운드에서 4억 7,500만 달러를 유치하며 기업가치 45억 달러를 달성했다.
인차지 AI(Encharge AI) — 아날로그 인메모리 컴퓨팅 방식의 추론 가속기를 개발한다. 디매트릭스(디지털 인메모리)와 원리는 비슷하지만 아날로그 신호로 연산을 수행한다. 디지털 방식 대비 에너지 효율이 극적으로 높다는 것이 핵심 주장이다. 프린스턴대 연구진이 창업했다. 2025년 2월 시리즈B에서 1억 달러를 유치했다.
레이어 2: 메모리 — 연산 속도를 결정하는 대역폭과 용량
칩이 아무리 빠르더라도 메모리에서 데이터를 가져오는 속도가 느리면 칩은 대기 상태에 빠진다. AI 추론에서 성능을 결정하는 가장 큰 변수 중 하나다. 이 레이어는 크게 두 영역으로 나뉜다. 하나는 GPU 패키지 안에 붙어 있는 온칩 메모리(HBM), 다른 하나는 GPU 바깥에서 연결해 메모리를 확장하는 CXL이다.
HBM — GPU에 붙어 있는 고속 메모리
고대역폭 메모리(HBM, High Bandwidth Memory) 시장은 삼성전자, SK하이닉스, 마이크론(Micron)이 주도한다. HBM은 메모리 칩 여러 개를 수직으로 쌓은 뒤 GPU 칩 옆에 나란히 올려놓고 실리콘 인터포저(중간 기판) 위에서 수만 개의 미세한 구리 범프로 연결하는 2.5D 패키징 구조다. 엔비디아 H100은 HBM3를 탑재하며 초당 3.35테라바이트의 대역폭을 제공한다. SK하이닉스는 2026년 HBM4 양산을 앞두고 있다. 다만 HBM은 비싸고 전력을 많이 먹으며 공급이 불안정하다는 약점이 있다.
포지트론 AI는 비싼 HBM 대신 저가 LPDDR5x 일반 메모리로 대체하되, 크레도 세미컨덕터(Credo Semiconductor)와 공동 개발한 ‘위버(Weaver)’ 팬아웃 칩렛으로 고속 연결해 HBM에 근접한 성능을 낸다. 같은 가격에 HBM보다 6배 많은 용량을 확보할 수 있다는 게 핵심 주장이다.
소프트웨어 혁신 — 구글 터보퀀트(TurboQuant)
하드웨어를 바꾸지 않고도 메모리 병목을 줄이는 소프트웨어 접근도 있다. 구글 리서치가 2026년 3월 공개한 터보퀀트(TurboQuant)가 대표적이다. 터보퀀트는 LLM 추론 중 GPU 메모리를 가장 많이 잡아먹는 KV 캐시(추론 시 처리한 토큰의 문맥 정보를 임시 저장하는 공간)를 6배 압축하면서도 모델 정확도 손실이 없다. 재학습이나 하드웨어 교체 없이 기존 모델에 즉시 적용 가능하다. 자세한 내용은 여기를 참고하길.
CXL — HBM의 한계를 넘는 메모리 확장 기술
HBM이 GPU 패키지 안에 붙어 있는 빠른 메모리라면, CXL(Compute Express Link)은 GPU 바깥에서 메모리를 대용량으로 확장하는 기술이다. 인텔이 2019년 주도해 만든 개방형 인터커넥트 표준으로, AMD·ARM·엔비디아·퀄컴·삼성·SK하이닉스·마이크론 등이 컨소시엄에 참여하고 있다.
일반 PCIe 슬롯에 꽂히지만, CXL의 핵심은 메모리 시맨틱(memory semantics) 지원이다. 네트워크 패킷을 주고받는 방식이 아니라, CXL로 연결된 외부 장치의 메모리를 CPU·GPU가 자신의 로컬 메모리처럼 직접 주소 지정해 읽고 쓸 수 있다. GPU 입장에서는 메모리가 갑자기 수 테라바이트로 확장되는 효과다.
속도는 HBM(수십 나노초)보다 느리다(수백 나노초). 하지만 용량은 비교할 수 없이 크다. 에이전트 시대가 오면 KV 캐시가 수백 기가바이트로 불어나는데, GPU 메모리만으로는 감당이 안 된다. CXL이 그 중간 계층을 채운다.
[HBM] 빠름 / 비쌈 / 수십~수백 GB ← 핵심 연산 가중치
[CXL] 중간 / 적정가 / 수 TB ← KV 캐시, 덜 쓰는 데이터
[SSD] 느림 / 쌈 / 수십 TB ← 장기 저장
CXL 3.0부터는 메모리 풀링(Memory Pooling) 도 가능해졌다. 여러 GPU가 CXL 스위치를 통해 하나의 대형 메모리 풀을 공유하는 구조로, 개념적으로는 스케일업 레이어의 역할도 일부 담당한다. NVSwitch보다 지연시간이 길어 학습보다는 추론, 특히 긴 문맥의 에이전트 워크로드에 더 적합하다.
기존 강자
삼성전자는 CXL DRAM 모듈(CMM)을 512GB~1TB 용량으로 양산 중이다. SK하이닉스와 마이크론도 CXL 메모리 모듈 제품 라인업을 갖추고 있다. 인텔은 자사 제온(Xeon) 프로세서에 CXL 지원을 내장해 생태계를 주도하고 있다.
도전하는 스타트업
파네시아(Panmnesia) — CXL 스위치 칩 전문 한국 스타트업이다. CPU·GPU·메모리·가속기를 CXL로 연결해 메모리 용량을 10배 이상 확장하는 기술을 개발한다. 삼성 파운드리를 활용하며, CXL 3.1 스위치 칩 양산을 목표로 하고 있다. 2025년 정부 R&D 자금 3천만 달러 포함 누적 투자금 1천억원 이상을 확보했다.
멤버레이(MemVerge) — 미국 스타트업. 하드웨어가 아닌 소프트웨어로 CXL 메모리 계층을 관리하는 플랫폼을 개발한다. CXL 메모리를 투명하게 다루는 미들웨어 레이어로, 삼성·SK하이닉스·마이크론 등 메모리 제조사들과 협력 중이다.
레이어 3: 스케일업 네트워킹 — 한 랙 안의 GPU를 하나로 묶기
한 랙 안의 수십 개 GPU를 마치 하나의 거대한 연산 장치처럼 동작하게 만드는 것이 스케일업 네트워킹이다. GPU가 빠르더라도 GPU 간 통신이 느리면 일부 GPU가 다른 GPU의 결과를 기다리며 쉬게 된다. 현재 이 구간은 전기 신호 기반이다. 거리가 1미터 내외라 광 신호보다 전기 신호가 더 효율적이기 때문이다. 그러나 랙당 GPU 수가 늘고 모델 크기가 커지면서 전기 신호의 대역폭 한계가 드러나기 시작했다.
기존 강자
엔비디아의 NVSwitch는 이 시장의 사실상 표준이다. 여러 GPU의 메모리와 컴퓨팅 리소스를 단일 논리 공간처럼 추상화하는 기술로, AMD와 시스코 등이 대안을 만들려 했지만 아직 성숙하지 못한 상태다.
전기 신호로 도전하는 스타트업
업스케일 AI(Upscale AI) — 팔로알토 네트웍스(Palo Alto Networks), 이노비움(Innovium), 카비움(Cavium)을 함께 창업한 연쇄 창업가 바룬 카(Barun Kar)와 라지브 케마니(Rajiv Khemani)가 공동 창업했다. 핵심 기술은 ‘AI 워크로드만을 위해 처음부터 설계된’ 스케일업 스위치 칩 스카이해머(SkyHammer)다. 엔비디아의 독점 기술과 달리 UALink, ESUN 같은 개방형 표준을 모두 지원한다. 2025년 9월 타이거 글로벌·프렘지 인베스트 등 주도로 시드 1억 달러를 유치했고, 2026년 1월 시리즈A 2억 달러를 추가 유치해 총 3억 달러로 유니콘에 등극했다.
스케일업을 광으로 대체하려는 시도
스케일업 구간에서도 광으로의 전환을 노리는 스타트업들이 있다. 셀레스티얼 AI(Celestial AI)는 랙 내 GPU 간 연결을 광으로 대체하는 포토닉 패브릭(Photonic Fabric) 기술로 마벨에 55억 달러에 인수됐다. 라이트매터는 더 급진적으로, 여러 칩을 하나의 광학 레이어 위에 통합하는 방식을 개발 중이다(자세한 내용은 아래 광 인터커넥트 섹션 참조).
레이어 4: 스케일아웃 네트워킹 — 랙과 랙을, 데이터센터와 데이터센터를 잇다
여러 랙을 서로 연결하는 스케일아웃 구간은 현대 AI 클러스터에서 수백~수천 개의 랙이 초고속으로 통신해야 한다. 데이터는 스위치 칩(전기) → 광 트랜시버(전기→광 변환) → 광케이블 → 광 트랜시버(광→전기 변환) → 목적지 칩 순서로 이동한다.
인피니밴드에서 이더넷으로 — 2025년의 전환
이 시장은 2025년 극적인 전환점을 맞았다. 2년 전만 해도 AI 백엔드 네트워킹의 80%를 차지하던 인피니밴드(InfiniBand)가 이더넷에 역전됐다. 인피니밴드는 슈퍼컴퓨터용 전용 네트워크로, 엔비디아가 2019년 인수한 멜라녹스(Mellanox)가 사실상 독점했다. 성능은 뛰어나지만 비싸고 전문 인력이 필요한 독점 기술이라는 약점이 있었다.
이더넷은 Ultra Ethernet, ESUN 등 새로운 표준 등장으로 성능 격차를 좁히면서 개방성·경제성 덕분에 주류로 올라섰다. 흥미롭게도 이더넷 시장 내에서도 엔비디아가 Spectrum-X 스위치와 BlueField DPU 조합으로 25.9% 점유율 1위를 차지했다. 아리스타 네트웍스(Arista Networks)는 18.9%로 2위이며, 시스코(Cisco)는 2026년 AI 인프라 매출 목표를 30억 달러로 상향했다. 브로드컴(Broadcom)은 아리스타에 Tomahawk 칩을 공급하며 스케일아웃 시장을 지원한다.
도전하는 스타트업 — 스위치 시스템
기존 업체들이 범용 클라우드 인프라에서 AI로 점진적으로 전환하는 동안, AI만을 위해 실리콘부터 새로 설계하는 스타트업들이 속속 등장하고 있다.
에리두(Eridu) — 인터넷 PPP 프로토콜 설계자이자 라이테라 네트웍스(시에나에 5억 달러 매각)·인피네라 공동창업자(노키아에 23억 달러 인수) 출신 드루 퍼킨스(Drew Perkins) CEO가 이끄는 회사다. GPU와 메모리 대역폭은 해마다 10배씩 성장하는데 스위치는 2~3배 개선에 그치는 불균형을 겨냥한다. 기존 스위치 30개를 1개로 대체하는 고래딕스(high-radix) 설계로 수천 개 GPU를 단일 홉으로 묶고, 자본 지출 최대 50%·네트워킹 전력 최대 70% 절감을 목표로 한다. TSMC와 첨단 패키징 파트너십을 체결했다. 2026년 3월 소크라테스 파트너스·존 도어 등 주도 시리즈A 2억 달러 포함 총 2억 3천만 달러를 유치하며 스텔스를 해제했다.
넥스트홉 AI(NextHop AI) — AI 데이터센터 맞춤형 이더넷 스위치를 JDM(Joint Design Manufacturing) 방식으로 제조한다. 아리스타·시스코처럼 표준화된 카탈로그 제품을 파는 게 아니라, 하이퍼스케일러와 공동 설계해 깊은 수준의 커스터마이징을 제공한다. 2026년 3월 기업가치 42억 달러에 5억 달러 시리즈B를 유치했다.
도전하는 스타트업 — 스위치 칩
스위치 시스템을 만드는 회사가 있다면, 그 시스템 안에 들어가는 칩을 만드는 스타트업도 있다.
리타임(Retym) — AI 데이터센터용 초고속 이더넷 칩(800G/1.6T)을 개발한다. 에리두·넥스트홉이 스위치 완제품을 만든다면, 리타임은 그 스위치 내부의 핵심 칩 레이어를 공략한다. 브로드컴의 Tomahawk 같은 기존 머천트 실리콘을 AI 워크로드에 더 최적화된 칩으로 대체하는 것이 목표다. 2025년 4월 1억 8천만 달러를 유치했다.
광(Optical) 인터커넥트 — 스케일업과 스케일아웃의 경계를 광으로 넘다
랙 간 구간은 이미 광케이블이 표준이다. 핵심 과제는 스위치 칩(전기)과 광케이블 사이의 변환 손실을 줄이는 것, 그리고 더 나아가 아직 전기 신호에 머물러 있는 랙 내 GPU 간(스케일업) 구간까지 광으로 대체하는 것이다. 전통 강자로는 코히런트(Coherent), 루멘텀(Lumentum) 등이 있다.
셀레스티얼 AI(Celestial AI)(스케일업 인터커넥트 — 현재는 마벨에 인수) — ‘포토닉 패브릭(Photonic Fabric)’ 기술로 랙 내 GPU 간 연결을 광으로 대체하는 것이 주 목표였다. OMIB(Optical Multi-Chip Interconnect Bridge) 기술로, 한 다이의 어느 지점에서든 다른 다이의 어느 지점으로 연결이 가능하며 구리 인터커넥트 대비 2배 이상 전력 효율이 높다. 2025년 3월 시리즈C1에서 2억 5천만 달러를 유치했고, 8월 추가로 2억 5,500만 달러를 조달하며 총 투자금 5억 2천만 달러를 넘겼다. 이 기술력을 높게 평가한 마벨(Marvell)이 2025년 12월 55억 달러에 인수하기로 합의했다.
라이트매터(Lightmatter)(스케일업 인터커넥트 — 복수 칩 광학 통합) — MIT 출신이 창업했다. 3D 적층 실리콘 포토닉스 엔진 ‘패시지(Passage)’로 GPU·메모리·ASIC 등 다종 칩을 하나의 광학 레이어 위에 통합한다. 칩 표면 어느 위치에서나 전기-광 변환을 수행해 대역폭 병목을 해소한다. 2025년 3월 공개한 패시지 M1000은 114테라비트/초의 광학 대역폭을 제공한다. 2024년 10월 T. 로우 프라이스 주도, 피델리티·GV(구글 벤처스)·HPE 패스파인더 참여 시리즈D에서 4억 달러를 유치하며 기업가치 44억 달러를 달성했다. 누적 투자금 8억 5천만 달러.
에이어랩스(Ayar Labs)(스케일아웃 — CPO, 스위치 칩 내 광학 통합) — 2015년 MIT·UC버클리·콜로라도대 연구진이 DARPA 프로젝트에서 출발했다. 타깃은 랙 간 스케일아웃 구간이다. 스위치 칩 패키지 안에 광학 I/O 칩렛(TeraPHY)을 통합해, 전기→광 변환에 드는 별도 트랜시버 손실을 없앤다. UCIe 표준을 지원하며 8테라비트/초 대역폭을 제공한다. 엔비디아·AMD·인텔이 모두 주주로 참여해 전략적 가치를 방증한다. 2024년 12월 어드벤트 글로벌·라이트 스트리트 캐피탈 주도, AMD·인텔 캐피탈·엔비디아·3M 벤처스 참여 시리즈D에서 1억 5,500만 달러를 유치하며 유니콘에 등극했다. 누적 투자금 3억 7천만 달러.
레이어 4.5: 워크로드 오케스트레이션 — 소프트웨어가 하드웨어를 지휘한다
하드웨어만으로는 부족하다. GPU·메모리·네트워크 자원을 AI 워크로드의 특성에 맞게 실시간으로 배분하는 소프트웨어 레이어가 새로운 카테고리로 부상하고 있다.
짐렛랩스(Gimlet Labs) — 쿠버네티스 관찰성 툴 픽시(Pixie)를 만들어 뉴렐릭에 매각한 스탠퍼드 부교수 출신 제인 아스거(Zain Asgar) CEO가 이끄는 회사다. 엔비디아·AMD·인텔·세레브라스·디매트릭스 등 다양한 하드웨어를 단일 플랫폼에서 통합 관리하는 ‘멀티실리콘 추론 클라우드(multi-silicon inference cloud)’를 표방한다. AI 에이전트의 다단계 워크로드에서 초기 추론(연산 집약적)·디코딩(메모리 집약적)·도구 호출(네트워크 집약적) 등 단계별 특성에 맞는 칩에 자동으로 작업을 배분해 동일한 비용·전력으로 추론 속도를 3~10배 높인다고 주장한다. 2026년 3월 멘로벤처스(Menlo Ventures) 주도 시리즈A에서 8천만 달러를 유치했다.
스케일옵스(ScaleOps) — 쿠버네티스 클러스터에서 AI 워크로드의 CPU·GPU·메모리 자원을 실시간으로 자동 최적화한다. 별도의 설정 변경 없이 클러스터 내부에서 작동하는 것이 특징이다. 텔아비브 기반으로, 2026년 3월 시리즈C에서 1억 3천만 달러를 유치했다.
레이어 5: 냉각(Cooling) — 열을 잡아야 AI가 산다
엔비디아의 최신 데이터센터용 GPU는 최대 1,000W 이상의 전력을 소비하며, 대부분이 열로 변환된다. 랙당 전력 밀도가 30~100kW를 넘어서면서 기존 공랭식 냉각으로는 한계에 달했다. 데이터센터 냉각은 전체 전력 소비의 7~30%를 차지하며, AI 시대에는 냉각 효율이 전체 시스템 성능과 운영 비용을 좌우한다.
냉각 방식은 크게 세 가지로 나뉜다. 전통적인 공랭식(Air Cooling)은 팬으로 냉각 공기를 순환시키는 방식으로 AI 밀도에서는 한계에 달했다. 직접 액체 냉각(DLC, Direct Liquid Cooling)은 냉각수를 칩 바로 위 콜드플레이트에 흘려 직접 열을 흡수한다. 침지 냉각(Immersion Cooling)은 서버 전체를 절연 액체에 담그는 방식으로 냉각 효율이 가장 높지만 설치·유지보수 비용이 크다.
기존 강자
버티브(Vertiv)는 엔비디아와 공동으로 GB200 NVL72 플랫폼용 7MW 레퍼런스 아키텍처를 개발하며 데이터센터 냉각 시장의 강자로 자리한다. 슈나이더 일렉트릭(Schneider Electric), 이튼(Eaton) 등 전통 설비 기업들도 AI 데이터센터 특화 솔루션을 앞다투어 출시하고 있다.
도전하는 스타트업
프로어 시스템즈(Frore Systems) — 데이터센터용 직접 액체 냉각 솔루션 리퀴드젯(LiquidJet)과 소비자·산업용 고체 상태 능동 공기 냉각 칩 에어젯(AirJet)을 개발한다. 리퀴드젯은 3D 숏루프 제트채널 방식으로 기존 대비 열 전달 효율 75% 향상, GPU 온도 8도 저하를 달성한다. 클라우드에서 엣지까지 하나의 플랫폼으로 커버한다. 2026년 3월 MVP 벤처스 주도, 피델리티·퀄컴 벤처스·메이필드 등 참여 시리즈D에서 1억 4,300만 달러를 유치하며 기업가치 16억 4,000만 달러의 유니콘에 등극했다. 누적 투자금 3억 4천만 달러.
코린티스(Corintis) — 스위스 EPFL 스핀오프로, 냉각재를 칩 내부에 직접 새긴 마이크로 유로(流路)로 흘려보내는 마이크로플루이딕 기술을 개발한다. 마이크로소프트와의 공동 실험에서 기존 콜드플레이트 대비 3배 높은 방열 효율을 입증했고, 인텔 CEO 립부 탄(Lip-Bu Tan)이 이사회에 합류했다. 2025년 9월 블루야드 캐피탈 주도 시리즈A 2,400만 달러를 유치했고, 2025년 12월 어플라이드 디지털 주도로 2,500만 달러를 추가 유치했다. 누적 투자금 5,800만 달러.
레이어 6: 전력(Power) — AI 인프라의 생존 조건
냉각보다 더 근본적인 문제는 전력이다. AI 데이터센터 한 곳에 필요한 전력이 중소 도시 전체 소비량에 맞먹는 수준이다. 전력망은 이 수요를 감당하기 위해 설계되지 않았다. 빅테크 기업들은 전력 확보를 넘어 직접 전력을 생산하거나 공급망을 내재화하는 방향으로 움직이고 있다.
빅테크의 에너지 내재화
구글의 모회사 알파벳은 2025년 12월 데이터센터 에너지 인프라 기업 인터섹트 파워(Intersect Power)를 47억 5,000만 달러에 인수했다. 태양광·천연가스 발전소와 데이터센터를 함께 배치하는 ‘코로케이션(co-location)’ 방식으로 2028년까지 10.8기가와트 프로젝트 가동을 목표로 한다. 마이크로소프트는 펜실베이니아주 스리마일 아일랜드(Three Mile Island) 핵발전소를 재가동해 20년 장기 전력 구매 계약을 맺었다.
전력 생산 기술과 보안
붐 슈퍼소닉(Boom Supersonic) — 초음속 여객기 엔진 기술로 개발한 42메가와트급 천연가스 터빈 ‘슈퍼파워(Superpower)’를 AI 데이터센터 전력원으로 출시했다. 전력망 없이 독립 전원으로 운용 가능하다는 점이 강점이다. AI 데이터센터 기업 크루소(Crusoe)가 29기를 주문하며 첫 번째 고객이 됐다. 2025년 12월 다르사나 캐피털 파트너스(Darsana Capital Partners) 주도, 알티미터·ARK 인베스트·베세머 참여 시리즈B에서 3억 달러를 유치했다.
악시아도(Axiado) — 베이스보드 관리 컨트롤러(BMC), 신뢰 플랫폼 모듈(TPM), 방화벽 등 여러 보안 기능을 단일 칩에 통합하고 AI 기반 실시간 위협 탐지까지 더한 ‘트러스티드 컨트롤 유닛(TCU)’을 개발한다. 동적 열 관리와 전압·주파수 조절 기능으로 전력 효율까지 최적화한다. 2025년 12월 매버릭 실리콘(Maverick Silicon) 주도, 프로스페리티7·EDBI 참여 시리즈C+에서 1억 달러를 유치했다. 누적 투자금 2억 1,600만 달러.
에너지 저장(ESS) — 간헐성을 잡아야 AI도 산다
전력을 생산하는 것만큼 중요한 문제가 있다. 저장이다. 태양광·풍력은 해가 지거나 바람이 멈추면 발전이 끊긴다. AI 데이터센터처럼 24시간 안정적인 전력이 필요한 곳에서 재생에너지만으로는 한계가 있다. 리튬이온 배터리가 단기 저장은 해결하지만, 며칠 단위 간헐성에는 역부족이다. 게다가 2025년 캘리포니아 모스랜딩 발전소에서 리튬이온 배터리 열폭주로 대형 화재가 발생하면서 안전성 우려도 커졌다. 이 공백을 노리는 장기 에너지 저장(Long-Duration Energy Storage, LDES) 스타트업들이 대규모 투자를 끌어모으고 있다.
에너베뉴(EnerVenue) — NASA가 1980년대 우주 임무용으로 개발한 니켈-수소 배터리 기술을 그리드 규모에 맞게 재설계했다. 스탠퍼드대 소재과학 교수 이 추이(Yi Cui)가 2020년 창업했다. 핵심 제품인 4세대 수성 금속 셀(AMC)은 리튬을 전혀 쓰지 않고 수계 전해질을 사용해 화재 위험이 없다. 하루 3회 충방전 기준 3만 사이클·30년 수명을 설계 목표로 내세운다. 2026년 3월 홍콩 억만장자 피터 리의 풀비전캐피탈(Full Vision Capital) 주도로 시리즈B 익스텐션 3억 달러를 조달했다. 중국 장쑤성 창저우에 250MWh 규모 양산 라인을 구축 중이며, 장기 목표는 연간 1GWh 생산이다.
레이어 7: 클라우드 운영자 — 인프라를 실제로 돌리는 플레이어들
칩을 만들고, 네트워크를 깔고, 냉각을 설계하고, 전력을 확보한다. 그런데 이 모든 것을 실제로 운영해 고객에게 컴퓨팅을 파는 건 누구인가. AI 인프라 지형도에서 가장 위에 있는 이 레이어가 ‘클라우드 운영자’다. 크게 하이퍼스케일러와 네오클라우드로 나뉜다.
하이퍼스케일러: 범용이지만 강력한
아마존 웹 서비스(AWS), 마이크로소프트 애저(Microsoft Azure), 구글 클라우드(Google Cloud), 오라클(Oracle) 같은 하이퍼스케일러는 AI 이전부터 글로벌 IT 인프라를 장악해온 기업들이다. 수십 가지 서비스를 원스톱으로 제공하는 게 강점이지만, AI 워크로드 전용으로 최적화된 건 아니다. GPU 가격도 네오클라우드보다 비싸다. 업타임 인스티튜트 조사에 따르면 엔비디아 H100 인스턴스 기준 시간당 평균 가격이 하이퍼스케일러는 98달러인 데 비해 네오클라우드는 34달러 수준으로, 최대 66% 차이가 난다.
흥미로운 역설은 하이퍼스케일러들이 네오클라우드의 고객이기도 하다는 점이다. 마이크로소프트는 람다의 최대 고객이면서 애저로 GPU 서비스를 제공해 경쟁한다. 구글은 플루이드스택에 임대 보증을 제공하면서 자사 TPU 칩 배포 채널로 활용 중이다. 직접 짓기엔 속도가 느리고, 사들이기엔 비용이 크기 때문이다.
네오클라우드: GPU에만 집중하는 신세대 클라우드
네오클라우드는 AI 연산, 정확히는 GPU 컴퓨팅 하나에만 집중하는 전문 클라우드다. 레거시 인프라 없이 최신 GPU만 운용해 가격 경쟁력이 높고, 최신 칩 도입도 빠르다. GPU 공급이 부족한 시기에 AI 기업들이 하이퍼스케일러에서 대기하는 동안 네오클라우드가 그 수요를 받아냈다. 세미애널리시스(SemiAnalysis)의 GPU 클라우드 종합 평가에서 코어위브가 유일한 플래티넘 등급을 받고 애저가 골드, AWS가 실버, GCP가 브론즈에 머문 배경이다.
북미 네오클라우드
코어위브(CoreWeave) — 네오클라우드 시장의 선두주자. 2017년 설립돼 암호화폐 채굴로 시작했지만 ChatGPT 이후 폭발하는 AI 수요를 포착해 사업을 완전히 전환했다. 엔비디아와의 특수 관계가 핵심 경쟁력이다. 엔비디아로부터 최신 칩을 우선 공급받고, 20억 달러 추가 투자를 유치했으며, 루빈(Rubin)·베라(Vera) 등 차세대 아키텍처도 가장 먼저 탑재한다. 오픈AI와 224억 달러, 메타와 142억 달러 규모 장기 계약을 맺었다. 2025년 3월 나스닥에 상장해 15억 달러를 조달했으며, 2030년까지 5기가와트(GW) 규모의 AI 팩토리 구축을 목표로 한다. 2025년 매출은 80억 달러 이상으로 전망된다.
람다(Lambda) — 2012년 쌍둥이 형제 스티븐·마이클 발라반이 설립했다. 미국 전역 15개 데이터센터에서 GPU 클라우드를 운영하며, 마이크로소프트·아마존·애플·텐센트를 고객으로 둔다. 엔비디아와 15억 달러 규모 계약(1만 8000개 GPU 서버를 4년간 역임대)이라는 독특한 거래도 성사시켰다. H100을 시간당 1.89달러에 제공해 구글 클라우드(3.37달러)보다 훨씬 저렴하다. 2025년 11월 TWG 글로벌·USIT 주도 시리즈E에서 15억 달러를 유치해 누적 23억 달러를 달성했다. 100만 개 이상의 엔비디아 GPU와 3GW 액체냉각 데이터센터 구축이 목표다.
크루소(Crusoe) — ‘에너지를 지능으로 활성화한다’는 슬로건처럼 수직 통합이 핵심이다. 전력 확보부터 데이터센터 설계·건설, 클라우드 플랫폼까지 직접 운영한다. 오픈AI 스타게이트(Stargate)의 텍사스 애빌린 1.2GW 캠퍼스를 건설한 파트너로, 착공 1년 만에 1단계를 완공했다. 와이오밍주 1.8GW 캠퍼스도 개발 중이다. 비트코인 채굴 사업은 NYDIG에 매각하고 AI 인프라에만 집중하고 있다. 2025년 10월 발로 에쿼티·무바달라 캐피탈 공동 주도 시리즈E에서 13억 7500만 달러를 유치해 기업가치 100억 달러를 달성했다. 누적 투자금 39억 달러.
텐서웨이브(TensorWave) — 네오클라우드 시장의 AMD 진영 대표 주자. 엔비디아 GPU 일색인 경쟁사들과 달리, 처음부터 AMD MI300X·MI325X에만 집중하는 전략을 택했다. AMD의 MI300X는 GPU 하나에 192GB VRAM을 제공해 405B 파라미터 모델을 단일 8GPU 노드에서 파인튜닝할 수 있다. 2023년 라스베이거스에서 창업해 애리조나주 투손에 세계 최대 규모의 액체냉각 AMD GPU 클러스터(8192개 MI325X)를 구축 중이다. 연 매출 목표를 2024년 500만 달러에서 2025년 1억 달러로 20배 끌어올렸다. 2025년 5월 마그네타(Magnetar)·AMD 벤처스 공동 주도 시리즈A에서 1억 달러를 유치해 누적 1억 4300만 달러를 달성했다.
플루이드스택(Fluidstack) — 2017년 옥스퍼드에서 게리 우(Gary Wu) 등이 창업했다. 원래 분산형 GPU 마켓플레이스로 시작했지만, 앤트로픽(Anthropic)과 맺은 500억 달러 규모 미국 AI 데이터센터 구축 계약을 계기로 사업 방향이 완전히 바뀌었다. 뉴욕과 텍사스에 데이터센터를 건설 중이며, 런던에 있던 본사를 뉴욕으로 이전했다. 구글은 TPU 배포 채널 확대를 위해 플루이드스택 리스 의무를 보증하고 약 1억 달러 지분 투자를 논의 중이다. 메타·풀사이드·블랙포레스트랩스도 고객으로 확보했다. 2025년 2월 시리즈A 2억 달러 유치에 이어 2026년 1월 4억 5000만 달러를 추가 조달해 기업가치 75억 달러를 달성했으며, 현재 제인 스트리트 주도로 180억 달러 밸류에이션의 10억 달러 라운드를 협의 중이다.
유럽 네오클라우드
엔스케일(Nscale) — 영국 기반 유럽 최대 AI 클라우드 인프라 업체로 꼽힌다. GPU 클러스터 설계부터 운영까지 직접 맡는 수직 통합 모델로, 유럽 기업과 정부 고객을 집중 공략한다. 유럽의 데이터 주권(data sovereignty) 규제 수요를 파고들어 현지 AI 인프라 구축 파트너로 자리를 잡았다. 아이슬란드·노르웨이 등 재생에너지 기반 운영으로 탄소 발자국도 낮춘다. 투자유치 소식은 여기를 참고.
아태 네오클라우드
퍼머스(Firmus) — 싱가포르 기반, 아태 AI 인프라 대표 주자. 호주 전역에 엔비디아·CDC 데이터센터스와 함께 45억 달러 규모 AI 팩토리 네트워크(프로젝트 사우스게이트)를 구축 중이다. 1단계 거점은 수력발전 기반 청정 전력이 풍부한 태즈메이니아 론서스턴으로, 90MW 규모 캠퍼스가 2026년 완공 예정이다. 2028년까지 전국 네트워크 총 용량 1.6GW를 목표로 한다. 코아튜 주도 5억 500만 달러 투자 유치로 기업가치 55억 달러를 달성했으며, 6개월 누적 조달액은 13억 5000만 달러에 달한다.
하이퍼스케일러 vs 네오클라우드: 적인가, 동반자인가
네오클라우드 시장의 흥미로운 역학은 하이퍼스케일러와의 관계가 경쟁과 협력을 동시에 품고 있다는 점이다. 코어위브·람다·플루이드스택 모두 하이퍼스케일러를 고객으로 둔다. GPU 공급이 부족하고 AI 수요가 폭발하는 지금, 하이퍼스케일러들은 네오클라우드를 통해 용량을 빠르게 확보하는 게 직접 짓는 것보다 유리하다고 판단한다. 반대로 네오클라우드는 하이퍼스케일러 고객의 물량으로 수익을 확보하면서, 동시에 하이퍼스케일러가 충족하지 못하는 AI 전용 수요를 파고들어 새로운 고객을 끌어들인다. 이 공생 구조가 언제까지 유지될지는 모른다. GPU 공급이 풀리고 하이퍼스케일러들이 직접 투자를 늘리면, 네오클라우드의 가격 우위와 차별화가 더 중요해진다.
에이전트 시대: AI 인프라 전체를 다시 설계해야 한다
지금까지 다룬 레이어들은 주로 학습과 추론 시대의 인프라다. 그런데 AI는 지금 세 번째 단계, 에이전트(Agentic AI) 시대로 전환 중이다. 에이전트는 질문에 한 번 답하는 게 아니다. 목표를 받고 스스로 계획을 세우고, 도구를 호출하고, 중간 결과를 평가하고, 다음 단계를 결정하는 다단계 루프를 반복한다. 여기서 인프라의 요구사항이 근본적으로 바뀐다.
① 워크로드가 단계마다 다르다 — 이기종 클러스터의 필요성
추론은 매 요청이 비슷하다. 에이전트는 단계마다 완전히 다른 특성을 갖는다.
초기 추론·계획 단계는 연산 집약적(compute-bound)이라 고성능 GPU가 필요하다. 토큰 생성·디코딩은 메모리 집약적(memory-bound)이라 HBM 대역폭과 추론 전용 칩이 유리하다. 도구 호출·API 단계는 네트워크 집약적(network-bound)이라 저지연 네트워크와 DPU가 핵심이다. 중간 결과 저장은 스토리지 집약적이다.
지금 인프라는 이 모든 것을 하나의 GPU로 처리한다. 도구를 호출하는 동안 GPU는 쉬고, 토큰을 생성하는 동안 네트워크는 논다. 엄청난 낭비다. 해법은 이기종 하드웨어 클러스터, 즉 단계마다 최적화된 다른 칩이 작업을 나눠 받는 구조다. 짐렛랩스가 “단계마다 다른 칩에 자동 배분”을 표방하는 이유가 바로 여기에 있다.
② KV 캐시 문제가 폭발적으로 커진다
단순 챗봇은 요청당 수백~수천 토큰을 생성한다. 에이전트는 하나의 태스크를 완료하기 위해 수만~수십만 토큰을 생성한다. KV 캐시가 수십 배로 커진다. GPU 메모리에 모두 올릴 수 없어진다. 두 가지 방향이 논의 중이다. 하나는 터보퀀트처럼 KV 캐시 자체를 압축하는 것이다. 다른 하나는 빠른 외부 스토리지로 KV 캐시를 오프로드(offload)하고 필요할 때만 불러오는 ‘KV 캐시 오프로딩’이다. 이는 GPU DRAM과 SSD 사이에 새로운 지속 메모리(persistent memory) 계층이 필요하다는 것을 의미한다. CXL(Compute Express Link) 기반 메모리 확장이 그 후보 중 하나로 주목받고 있다.
③ 상태를 장기간 유지해야 한다
현재 LLM은 사실상 무상태(stateless)다. 매 요청마다 문맥을 새로 넣어줘야 한다. 에이전트는 며칠, 몇 주에 걸쳐 작업을 이어가야 할 수도 있다. 중간 결과, 작업 이력, 사용자 선호도를 어딘가에 저장하고 빠르게 불러와야 한다. 이건 현재 GPU DRAM이나 HBM으로 해결할 수 없다. 새로운 지속 메모리 계층이 필요하다.
④ 에이전트 간 통신 패턴이 기존 네트워크와 맞지 않는다
학습은 수천 개 GPU 전체가 주기적으로 동기화하는 ‘대용량·균일·예측 가능’ 트래픽이다. 에이전트는 여러 서브에이전트를 동시에 실행하고 결과를 합치는 ‘소량·비정기적·우선순위 다양’ 트래픽이다. 현재 이더넷·InfiniBand는 학습형 트래픽에 최적화되어 있다. 에이전트 트래픽 패턴에 최적화된 새로운 네트워크 패브릭이 필요하다.
⑤ 전력과 냉각의 동적 관리
학습은 GPU 전체가 항상 풀가동이다. 에이전트는 단계마다 부하가 달라진다. 동적으로 전력과 냉각을 조절하는 기술이 더 중요해진다. 악시아도의 TCU가 동적 전력 관리와 보안을 함께 담당하는 것, 프로어 시스템즈가 에너지 효율을 냉각의 핵심 가치로 내세우는 것이 이 흐름과 연결된다.
에이전트 시대가 본격화하면 현재 인프라 스택 전체가 재설계 대상이 된다. 이기종 칩 클러스터, 지속 메모리 계층, 에이전트형 네트워크 패브릭은 아직 초기 단계지만, 이 방향으로 투자가 집중되는 것은 시간문제다.
AI 인프라를 읽는 세 가지 키워드
① 단일 병목에서 다층 병목으로
초기 AI 시대의 병목은 GPU였다. 이제는 다르다. GPU 수급이 풀리면 메모리 대역폭이 발목을 잡고, 네트워크가 해결되면 냉각이 한계를 드러낸다. 전력은 어디서나 바닥을 보인다. AI 인프라 투자는 단일 레이어가 아닌 전체 스택을 함께 업그레이드하는 방향으로 진화하고 있다.
② 엔비디아의 역설: 독점을 이기는 독점
엔비디아는 이 모든 레이어에서 존재감을 드러낸다. GPU뿐 아니라 스케일업 네트워킹(NVSwitch), 스케일아웃 이더넷(Spectrum-X), 플랫폼 보안(MGX)까지 수직 통합을 밀어붙이고 있다. 스타트업들의 공략 포인트는 바로 이 독점 구조의 틈이다. 개방형 표준을 내세운 업스케일 AI, 멀티실리콘을 지향하는 짐렛랩스가 그 예다. 셀레스티얼 AI의 포토닉 패브릭 기술은 마벨에 인수됨으로써 엔비디아에 맞설 새로운 무기가 됐다.
③ 에이전트 임계점 — 인프라가 먼저 바뀌어야 한다
AI 추론 워크로드가 학습을 추월하는 시점이 2027년으로 예상된다. 그런데 에이전트 시대의 인프라 요구는 추론 시대와도 다르다. 이기종 칩 클러스터, KV 캐시 오프로딩, 지속 메모리 계층, 에이전트형 네트워크 패브릭 — 이 네 가지 중 어느 것도 현재 표준 데이터센터 인프라에 존재하지 않는다. AI 모델이 에이전트 능력을 갖추는 속도보다 인프라가 따라가는 속도가 느리다면, 다음 AI 병목은 알고리즘이 아니라 인프라에서 온다. 지금 이 레이어들에 투자하는 스타트업들이 그 병목을 선점하려는 것이다.
답글 남기기
댓글을 달기 위해서는 로그인해야합니다.