AI 모델 평가 플랫폼 ‘엘엠아레나’, 17억 달러 가치에 1.5억 투자유치


UC 버클리 연구실에서 시작된 AI 모델 평가 플랫폼 엘엠아레나(LMArena)가 시리즈 A 라운드에서 1억 5,000만 달러를 유치했다. 기업가치는 17억 달러로 평가받았다. 지난 5월 1억 달러 시드 투자를 받은 지 불과 7개월 만에 밸류에이션이 3배로 뛰었다.

LMArena series a - 와우테일

펠리시스(Felicis)와 UC 인베스트먼츠(UC Investments)가 이번 라운드를 주도했다. 앤드리슨 호로위츠(Andreessen Horowitz), 더 하우스 펀드(The House Fund), LDVP, 클라이너 퍼킨스(Kleiner Perkins), 라이트스피드 벤처 파트너스(Lightspeed Venture Partners), 로드 벤처스(Laude Ventures) 등이 참여했다.

엘엠아레나는 2023년 UC 버클리 박사과정 학생이던 아나스타시오스 앤젤로폴로스(Anastasios Angelopoulos)와 웨이린 창(Wei-Lin Chiang)이 ‘챗봇 아레나(Chatbot Arena)’라는 이름으로 시작한 프로젝트다. 데이터브릭스(Databricks)와 애니스케일(Anyscale)을 창업한 아이온 스토이카(Ion Stoica) 교수가 두 사람의 지도교수였고, 현재 엘엠아레나의 공동 창업자 겸 고문으로 활동하고 있다.

앤젤로폴로스는 신뢰할 수 있는 AI 시스템 연구에 집중해왔고 구글 딥마인드에서 학생 연구원으로 일했다. 현재 엘엠아레나의 CEO를 맡고 있다. 창은 분산 시스템과 딥러닝 프레임워크를 연구했으며 구글 리서치, 아마존, 마이크로소프트에서 연구 경험을 쌓았다. CTO로 합류했다.

사용자 투표로 AI 모델 평가한다

엘엠아레나의 차별점은 정적인 벤치마크 대신 실제 사용자 피드백으로 AI 모델을 평가한다는 데 있다. 작동 방식은 간단하다. 사용자가 프롬프트를 입력하면 두 개의 익명 AI 모델이 답변을 생성한다. 사용자는 어느 쪽이 더 나은지 선택한다. 이렇게 모인 투표 데이터를 집계해 리더보드를 만든다.

현재 구글의 제미니 3 프로(Gemini 3 Pro)가 1위에 올라 있다. 클로드(Claude), GPT, 그록(Grok) 등 다양한 모델이 평가 대상이다. 텍스트 생성뿐 아니라 웹 개발, 비전, 이미지 생성 등 여러 분야에서 모델을 비교할 수 있다.

지난 5월 시드 투자 이후 성장세가 가파르다. 사용자들이 참여한 투표는 5,000만 건을 넘어섰고, 400개 이상의 모델이 평가를 받았다. 월간 활성 사용자는 500만 명, 150개국에서 매달 6,000만 건의 대화가 오간다. 특히 사용자 중 25%가 소프트웨어 전문가라는 점이 눈에 띈다. 실제로 AI 제품을 만드는 기술자들이 이 플랫폼을 적극 활용하고 있다는 의미다.

출시 4개월 만에 ARR $30M 돌파

지난 9월 엘엠아레나는 AI 평가 서비스를 정식 출시했다. 기업이나 AI 기업이 자사 모델을 커뮤니티에서 평가받을 수 있는 유료 서비스다. 출시 4개월도 안 돼 12월 기준 연간 반복 매출(ARR)이 3,000만 달러를 넘어섰다.

오픈AI(OpenAI), 구글(Google), xAI 같은 AI 기업들이 고객이다. 이들은 자사 모델이 실제 환경에서 얼마나 잘 작동하는지 확인하기 위해 엘엠아레나를 쓴다. 소프트웨어 엔지니어링, 법률, 의료, 과학 연구 등 여러 산업 분야에서 모델 성능을 측정하는 용도로 활용된다.

앤젤로폴로스 CEO는 “AI를 책임감 있게 배포하려면 그것이 인간에게 실제로 어떤 가치를 주는지 알아야 한다”며 “엘엠아레나는 수천만 명의 피드백을 활용해 AI 산업의 기준점이 되고 있다”고 말했다.

정적 벤치마크의 한계를 넘어서

AI 기업들 사이에서 모델 경쟁이 치열해지면서 신뢰할 수 있는 평가 방법에 대한 수요가 늘고 있다. 기존의 정적 벤치마크는 문제가 많다. 학습 데이터에 시험 문제가 섞여들어가는 ‘데이터 오염’ 문제가 있고, 실제 사용 환경을 제대로 반영하지 못한다.

엘엠아레나는 크라우드소싱한 프롬프트를 계속 업데이트하면서 이런 문제를 피해간다. 사용자들은 웹 검색이나 코드 생성 같은 실제 작업을 수행하면서 모델을 테스트한다. 두 모델의 답변을 직접 비교하고 더 나은 쪽을 선택한다. 실험실이 아니라 실전에서 모델을 검증하는 셈이다.

펠리시스의 피터 덩(Peter Deng) 제너럴 파트너는 “AI의 진보는 실험실 벤치마크만으로는 측정할 수 없다”며 “엘엠아레나는 가장 신뢰할 수 있는 실제 성능 지표를 만들었고, 모든 AI 연구소와 기업에 필수 인프라가 됐다”고 평가했다.

UC 인베스트먼츠의 자그딥 싱 바처(Jagdeep Singh Bachher) 최고투자책임자도 “성능 측정 방법이 신뢰할 만하지 않으면 AI를 안전하게 확장할 수 없다”며 “엘엠아레나는 연구자, 개발자, 기업 모두에게 명확한 기준을 제공한다”고 말했다.

데이터 레이블링 기업들과는 다른 길

AI 평가 시장에는 이미 스케일 AI(Scale AI), 레이블박스(Labelbox) 같은 데이터 레이블링 기업들이 자리 잡고 있다. 스케일 AI는 지난해 메타로부터 143억 달러 투자를 받으며 기업가치 290억 달러로 평가받았다. 하지만 이후 오픈AI와 구글이 중립성 우려로 스케일 AI와의 관계를 재검토하는 일이 벌어졌다. 레이블박스는 2018년 설립돼 1억 8,900만 달러를 투자받았고, 구글 클라우드의 LLM 평가 파트너로 활동 중이다.

엘엠아레나는 이들과 결이 다르다. 데이터 레이블링이 아니라 실시간 사용자 평가에 집중한다. 정적 데이터셋을 만드는 대신 끊임없이 새로운 평가 데이터를 수집한다. 기업이 자사 제품에 맞는 맞춤형 평가를 할 수 있게 돕는다. 개발자들이 쓰는 CI/CD 파이프라인처럼, AI 모델 개발 과정에 자연스럽게 녹아드는 평가 인프라를 지향한다.

중립성 논란에 정면 대응

엘엠아레나는 중립적이고 투명한 평가를 핵심 가치로 내세운다. 지난 4월에는 코히어(Cohere) 연구진이 엘엠아레나의 방법론을 비판하는 논문을 냈다. 일부 모델에 특정 기업이 비공개로 접근할 수 있어 불공정하다는 주장이었다. 엘엠아레나는 즉각 반박 자료를 내놓으며 테스트 프로그램의 투명성과 샘플링 방식을 상세히 설명했다.

회사는 어떤 모델 제공사에도 편향되지 않을 것이며, 커뮤니티 선호도를 충실히 반영하겠다고 강조한다. “중립성을 유지하고 커뮤니티 신뢰를 얻는 것은 비즈니스 성공에 필수적일 뿐 아니라, 우리가 이 회사를 시작한 개인적 동기이기도 하다”는 게 창업팀의 설명이다.

이번 투자금은 플랫폼 운영, 기술팀 확대, 연구 역량 강화에 쓰일 예정이다. 엘엠아레나는 평가 영역도 넓히고 있다. 코딩, 법률, 의료 같은 전문 분야는 물론 이미지·비디오 생성 같은 크리에이티브 작업까지 평가 범위를 확장 중이다.

기사 공유하기

답글 남기기