GPU 최적화 ‘루미널’, 530만 달러 투자 유치.. “AI 추론 속도 10배 높여”


AI 모델 실행 속도를 높이는 GPU 컴파일러 최적화 기술을 개발하는 루미널(Luminal)이 시드 라운드에서 530만 달러(약 74억원)를 유치했다. 펠리시스 벤처스(Felicis Ventures)가 라운드를 주도했고, 와이콤비네이터(Y Combinator) 창업자 폴 그레이엄(Paul Graham), 버셀(Vercel) CEO 기예르모 라우치(Guillermo Rauch), 벤 포터필드(Ben Porterfield)가 엔젤 투자자로 참여했다.

Luminal cofounders - 와우테일

루미널은 GPU 하드웨어와 개발자가 작성한 코드 사이 컴파일러 레이어를 최적화한다. 덕분에 기존 GPU 인프라에서 훨씬 더 많은 성능을 끌어낼 수 있다. GPU 공급 부족으로 가격이 치솟는 지금, 새 칩을 사는 대신 이미 보유한 하드웨어 활용도를 극대화하겠다는 전략이다.

창업자 조 피오티(Joe Fioti)는 인텔에서 칩 설계를 담당했던 엔지니어다. 3년 전 인텔에서 일하며 그는 한 가지를 깨달았다. 아무리 뛰어난 칩을 만들어도 개발자가 쓰기 어려우면 소용없다는 것이다. 그는 인터뷰에서 세상에서 가장 좋은 하드웨어를 만들어도 개발자가 쓰기 어려우면 결국 외면받는다고 설명했다.

피오티는 애플 출신 제이크 스티븐스(Jake Stevens), 아마존 출신 매튜 건턴(Matthew Gunton)과 함께 루미널을 공동 창업했다. 회사는 와이콤비네이터 2025년 여름 배치를 졸업한 직후 이번 투자를 받았다.

루미널의 비즈니스 모델은 코어위브(Coreweave)람다(Lambda) 같은 GPU 클라우드 업체와 비슷하다. 컴퓨팅 자원을 판매한다는 점에서 말이다. 하지만 단순히 GPU를 빌려주는 게 아니다. 컴파일러 수준의 최적화로 같은 하드웨어에서 훨씬 더 높은 성능을 뽑아낸다.

지금 업계 표준 컴파일러는 엔비디아의 쿠다(CUDA)다. 쿠다는 엔비디아 성공의 숨은 주역이지만 많은 부분이 오픈소스로 공개돼 있다. 루미널은 GPU 부족 현상이 계속되는 지금, 쿠다 외에 소프트웨어 스택의 나머지 부분을 최적화하는 데 큰 가치가 있다고 본다.

피오티는 “6개월 동안 특정 하드웨어에서 모델 아키텍처를 손으로 튜닝하면 당연히 어떤 컴파일러 성능도 이긴다”면서도 “우리 가정은 그 외 범용 케이스가 여전히 경제적으로 충분히 가치 있다는 것”이라고 설명했다.

AI 모델이 커지면서 병목은 원시 연산 능력(FLOPS)에서 메모리 대역폭과 데이터 이동으로 옮겨가고 있다. 컴파일러 기반 시스템으로 데이터 전송을 줄이고 지역성을 높이면 이런 제약을 완화할 수 있다. 결국 새 GPU를 사는 자본 지출을 미룰 수 있다는 얘기다. 투자자들이 차세대 칩보다 기존 실리콘의 처리량을 배로 늘리는 소프트웨어에 주목하는 이유다.

루미널은 베이스텐(Baseten), 투게더AI(Together AI) 같은 추론 최적화 업체와 경쟁한다. 베이스텐은 최근 시리즈D에서 1억5000만 달러를 유치해 기업가치 21억5000만 달러를 기록했고, 투게더AI는 올해 시리즈B에서 3억500만 달러를 받아 기업가치 33억 달러에 달했다. 이들 기업은 오래전부터 최적화에 특화해왔다. 최근엔 텐서메시(Tensormesh) (450만 달러 투자유치), 클래리파이(Clarifai) 같은 소규모 업체도 특정 기술에 집중하며 시장에 뛰어들고 있다.

하지만 루미널과 경쟁사들 모두 자체 모델 패밀리에 맞춰 최적화하는 대형 AI 랩의 최적화팀과도 맞서야 한다. 외부 고객을 위해 일하는 루미널은 어떤 모델이든 유연하게 대응해야 한다. 그래도 피오티는 시장이 충분히 빠르게 커지고 있어 걱정하지 않는다고 말했다.

루미널은 코드베이스의 핵심을 오픈소스로 공개하며 커뮤니티와 함께 성장한다. 회사는 “모두를 위한 빛의 속도 추론”이라는 미션을 이루려면 커뮤니티와 함께 컴파일러 핵심을 오픈소스로 만드는 게 최선이라고 본다. 개발자들이 직접 자신의 하드웨어에서 빌드하고 실행할 수 있도록 하겠다는 것이다.

기사 공유하기

답글 남기기