프런티어 AI 랩이 돈을 쏟아붓는 곳 — AI 데이터 라벨링 시장 지형도 2026


챗GPT, 제미나이, 클로드. 생성형 AI가 세상을 바꾸는 동안, 그 뒤에서 AI를 훈련시키는 ‘보이지 않는 손’이 있다. 방대한 데이터를 수집·분류하고 사람의 판단으로 모델을 개선하는 AI 데이터 플랫폼 산업이다. 오픈AI, 앤트로픽 같은 프런티어 AI 랩들은 핵심 학습은 자체적으로 진행하지만, 포스트트레이닝 단계 — 데이터 생성, 평가, 강화학습 인간 피드백(RLHF, Reinforcement Learning from Human Feedback: 사람이 AI의 답변을 평가·선별해 모델이 더 나은 응답을 학습하도록 유도하는 기법) — 는 전문 스타트업들에 점점 더 의존하는 구조다. 2025년 한 해 이 시장에 쏟아진 투자만 수십억 달러에 이를 정도로, AI 학습 데이터는 이제 반도체·클라우드와 함께 AI 인프라의 핵심 레이어로 자리 잡았다.

AI data platform landscape cover - 와우테일

시장 판도를 흔든 스케일 AI의 변신

이 시장을 처음 개척한 선도주자는 스케일 AI(Scale AI)다. 2016년 알렉산더 왕이 22세에 창업해 AI용 데이터 라벨링 시장을 정의했고, 오픈AI·마이크로소프트·미 국방부 등을 주요 고객으로 확보하며 성장했다. 2025년 6월 메타가 290억 달러 기업가치를 인정하며 143억 달러를 투자하고 창업자 알렉산더 왕을 자사 AI 연구소로 영입하면서 시장 판도가 급변했다.

스케일 AI의 핵심 고객이던 오픈AI와 구글이 “중립적 데이터 파트너가 필요하다”며 거리를 두기 시작했고, 그 빈자리를 노리는 경쟁자들이 일제히 치고 올라왔다. AI 모델 훈련에 연간 100억 달러 이상이 투입되는 이 시장은 단순 라벨링을 넘어 RLHF, 평가, 도메인 전문 데이터 공급으로 무게중심이 이동하는 중이다.

스케일 AI 빈자리를 채운 최강자: 머코

스케일 AI가 메타 품에 안기면서 가장 빠르게 그 자리를 치고 올라온 곳이 머코(Mercor)다. 2023년 고등학교 동창 세 명이 22세에 창업해 2년 만에 100억 달러 데카콘으로 성장한 초특급 스타트업이다. CEO 브렌든 푸디(Brendan Foody), CTO 아다르쉬 히레마스(Adarsh Hiremath), 이사회 의장 수리야 미드하(Surya Midha) 세 창업자는 하버드와 조지타운을 중퇴하고 피터 틸 펠로십을 받으며 창업에 뛰어들었다. 초기에는 소프트웨어 엔지니어 채용 중개 서비스였지만, 스케일 AI로부터 1,200명의 전문 코더 공급 요청을 받으면서 RLHF 데이터 공급 사업으로 무게중심을 옮겼다.

현재 의사·변호사·엔지니어·금융전문가 등 30만 명 이상의 도메인 전문가 네트워크를 운영하며, 오픈AI·앤트로픽·메타·구글 딥마인드를 포함한 빅테크 6개사에 RLHF 훈련 데이터를 공급하고 있다. 전문가 평균 시급은 85달러이며, 하루 평균 150만 달러를 작업자들에게 지급한다. 연매출은 2024년 말 7,500만 달러에서 2025년 말 5억 달러 run rate까지 급성장했다. 2025년 10월 기업가치 100억 달러로 3억 5,000만 달러 시리즈C를 조달했으며, 벤치마크, 펠리시스, 피터 틸, 잭 도시, DST 글로벌이 투자자로 참여했다. 세 창업자는 22세 역대 최연소 자수성가 억만장자가 됐다.

매출 1위의 조용한 강자: 서지 AI

화제성은 머코에 밀리지만 실제 매출은 시장 1위다. 서지 AI(Surge AI)는 전 구글·메타 엔지니어 출신 에드윈 첸(Edwin Chen)이 2020년 창업해 단 한 푼의 외부 투자 없이 키운 회사다. 벤처 투자를 의도적으로 거부하며 5년간 부트스트랩으로 운영한 결과, 2024년 연매출이 10억 달러를 넘겼고 2025년에는 14억 달러 수준까지 성장했다. 같은 기간 스케일 AI 연매출(8억 7,000만 달러)을 뛰어넘는 수치다.

직원 121명으로 1인당 약 990만 달러의 매출을 올리는 극단적 효율을 자랑하며, 구글·오픈AI·앤트로픽이 모두 고객사다. 수학·법률·코딩 등 도메인 전문가 네트워크를 기반으로 한 고품질 RLHF 서비스가 차별점이다. 2025년 7월 블룸버그 보도에 따르면 기업가치 250억 달러로 10억 달러 규모 첫 외부 투자 유치를 추진 중이나, 라운드 완료는 아직 공식 확인되지 않았다.

엔터프라이즈 플랫폼: 라벨박스·앤코드·스노클 AI

플랫폼 형태로 기업 고객에게 데이터 인프라를 제공하는 쪽에서는 세 회사가 두각을 나타낸다.

2018년 창업한 라벨박스(Labelbox)는 소프트뱅크 비전펀드2, a16z, 데이터브릭스 벤처스, 클라이너 퍼킨스 등이 참여해 누적 1억 8,900만 달러를 유치했다. 2022년 소프트뱅크 비전펀드2 주도의 1억 1,000만 달러 시리즈D가 가장 최근 라운드다. 컴퓨터 비전, LLM, RLHF 평가 등 다양한 워크플로를 지원하며 제네텍, 워너브라더스 등이 고객이다.

2021년 영국에서 창업한 앤코드(Encord)는 2026년 2월 웰링턴 매니지먼트(Wellington Management) 주도로 6,000만 달러 시리즈C를 유치하며 총 누적 1억 1,000만 달러, 기업가치 5억 5,000만 달러를 달성했다. Y콤비네이터 출신으로 자율주행·로봇·드론 등 피지컬 AI에 특화한 전략이 돋보인다. 이미지·비디오·오디오·3D 포인트클라우드·DICOM까지 멀티모달 데이터를 통합 처리하는 엔드투엔드 플랫폼으로, 지난 1년간 플랫폼 내 데이터가 1페타바이트에서 5페타바이트로 급증했다. 토요타 자회사 워번(Woven by Toyota), 집라인(Zipline), 스카이디오(Skydio)가 주요 고객이다.

스탠퍼드 AI 연구실에서 출발한 스노클 AI(Snorkel AI)는 2025년 6월 시리즈D에서 1억 달러를 유치하며 기업가치 13억 달러의 유니콘에 올랐다. 데이터 레이블링의 비용과 시간을 획기적으로 줄이는 약한 지도학습(weak supervision) 기법을 상용화한 것이 핵심 강점으로, 기업이 AI 학습용 데이터를 체계적으로 구축하도록 지원한다.

전문가 인력 마켓플레이스: 튜링·마이크로원

튜링(Turing)은 스탠퍼드 AI 석사 출신 조나단 시다스(Jonathan Siddharth)와 비제이 크리슈난(Vijay Krishnan)이 2018년 공동창업한 AI 인력 플랫폼이다. 두 사람은 이전에 AI 기반 콘텐츠 추천 엔진 로버(Rover)를 함께 창업해 매각한 연쇄창업자다. 원격 개발자 매칭으로 시작해 지금은 오픈AI·앤트로픽 등 프런티어 AI 랩에 코딩·추론·에이전틱 워크플로 훈련 데이터를 공급하는 핵심 파트너로 자리 잡았다. 150개국 200만 명 이상의 엔지니어 네트워크를 보유하고 연매출 3억 달러에 흑자도 달성했다. 2025년 3월 말레이시아 국부펀드 카자나 나시오날(Khazanah Nasional) 주도로 1억 1,100만 달러 시리즈E를 유치했으며 기업가치는 22억 달러가 됐다.

마이크로원(Micro1)은 2025년 9월 기업가치 5억 달러에 3,500만 달러 시리즈A를 유치했다. 스케일 AI 대항마를 표방하며 전문가 인재 네트워크를 기반으로 AI 데이터 라벨링과 포스트트레이닝 서비스를 제공한다.

포스트트레이닝 전문사: 데칸AI·애프터쿼리

포스트트레이닝 — 기반 모델을 실제 현장에서 제대로 작동하게 만드는 단계 — 의 중요성이 커지면서 이 영역에 특화한 스타트업들이 빠르게 부상하고 있다. 코딩 능력 향상, 에이전트 연동, 안전성 평가 등 고숙련 작업을 전문으로 하며, 단순 라벨링과는 차별화된다.

데칸AI(Deccan AI)는 2024년 10월 설립된 인도 기반 포스트트레이닝 전문사다. 구글 딥마인드(Google DeepMind)와 스노우플레이크(Snowflake)를 고객으로 확보하고, 창업 1년 만에 매출 10배 성장을 달성했다. 하이데라바드에 운영 거점을 두고 석·박사급 비중이 10%에 달하는 고숙련 기여자 네트워크(월 활동 5,000~1만 명)가 강점이다. 2026년 3월 A91 파트너스 주도로 2500만 달러 시리즈A를 유치했다.

애프터쿼리(AfterQuery)는 의사·변호사·금융 분석가·소프트웨어 엔지니어 등 각 분야 전문가 10만 명의 추론 패턴을 AI 훈련 데이터로 변환하는 응용 연구 기관이다. 창업 14개월 만에 세계 주요 AI 랩 전체를 고객으로 확보하고 ARR 1억 달러를 돌파했다. 도메인별 고품질 데이터셋과 강화학습(RL) 환경 구축이 핵심 서비스로, 합성 데이터나 크라우드소싱으로는 만들 수 없는 암묵지(tacit knowledge) 포착이 차별점이다. 2026년 4월 알토스 벤처스(Altos Ventures) 주도로 3000만 달러 시리즈A를 조달했다. 기업가치는 3억 달러다.

특화 데이터 전문사: 데이비드 AI·비심플 AI·데이터커브·와이어스톡

AI 모델이 음성과 코딩, 이미지·영상 등으로 확장되면서 그에 맞는 특화 데이터 수요도 급증하고 있다.

오디오 데이터는 특히 공급 부족이 심각하다. 메타 AI 논문에 따르면 차세대 음성 모델 훈련에는 수백만 시간의 채널 분리형 대화 데이터가 필요한데, 공개된 데이터셋 전체를 합쳐도 고작 3,000시간에 불과하다. 데이비드 AI(David AI)는 스케일 AI 출신 창업자들이 2024년 설립한 오디오 데이터셋 전문 기업으로, 창립 1년 만에 연매출 1,000만 달러를 돌파했다. 2025년 10월 5,000만 달러 시리즈B를 유치했다. 기존 최대 데이터셋의 10배 규모 코퍼스를 보유하고 있으며 빅테크 7개사 중 다수가 고객이다.

메타 라마 팀 출신 창업자들이 설립한 비심플 AI(Besimple AI)는 2025년 12월 300만 달러 시드를 유치했다. Y콤비네이터 출신으로, 60초 만에 맞춤형 어노테이션 인터페이스를 자동 생성하고 오디오 평가·안전 데이터에 특화했다.

코딩 데이터에 특화된 데이터커브(Datacurve)는 2025년 10월 1,500만 달러를 유치했다. 저임금 노동자 대신 실력 있는 소프트웨어 엔지니어들이 자발적으로 참여하는 ‘게임화된 현상금 플랫폼’ 모델이 특징이다.

크리에이티브 멀티모달 데이터를 전문으로 하는 와이어스톡(Wirestock)은 원래 사진작가들의 스톡 사진 유통 플랫폼이었다가 2023년 AI 데이터 공급사로 전환했다. 70만 명의 아티스트·디자이너 네트워크를 통해 이미지·영상·3D·게임 콘텐츠 등 멀티모달 데이터셋을 구성해 6대 파운데이션 모델 메이커에 공급 중이다. ARR 4000만 달러를 기록하며, 2026년 5월 나바 벤처스(Nava Ventures) 주도로 2300만 달러 시리즈A를 유치했다.

데이터 소싱·운영 자동화: 프로테제·인비저블 테크놀로지스·클라우드팩토리

데이터를 직접 구축하는 대신 데이터 확보 자체를 돕는 쪽도 빠르게 성장하고 있다.

프로테제(Protege)는 AI 개발사와 데이터 제공자를 연결하는 소싱·라이선싱 플랫폼이다. 2026년 1월 a16z 주도로 3,000만 달러를 추가 유치하며 총 누적 6,500만 달러를 달성했다. 의료 기록·영상·오디오·비디오 등 30만 시간 이상의 콘텐츠와 수십억 건의 임상 기록에 대한 접근권을 보유하고 있으며, 구글·메타를 포함한 빅테크 7개사 중 다수가 고객이다. 데이터가 사용될 때마다 원데이터 제공자에게 수익을 분배하는 구조가 독특하다.

인비저블 테크놀로지스(Invisible Technologies)는 2025년 9월 20억 달러 기업가치에 1억 달러를 유치했다. AI와 사람이 함께 복잡한 비즈니스 프로세스를 처리하는 하이브리드 운영 모델로, 데이터 생성과 검증에도 폭넓게 활용된다. 2010년 창업한 클라우드팩토리(CloudFactory)는 FTV 캐피털·프랙시스로부터 총 7,810만 달러를 유치했으며 3,800여 명 직원으로 이미지·비디오·텍스트·오디오 멀티모달 어노테이션 아웃소싱을 제공하는 올드 플레이어다.

시장 전망: 규모 아닌 품질의 싸움

2025~2026년 이 시장의 주요 기업들을 기업가치 기준으로 줄 세우면, 서지 AI(250억 달러 추진), 머코(100억 달러), 튜링(22억 달러), 인비저블 테크놀로지스(20억 달러), 앤코드(5억 5,000만 달러), 스노클 AI(13억 달러), 마이크로원(5억 달러), 애프터쿼리(3억 달러) 순이다.

클라우드 빅3(AWS 세이지메이커 그라운드 트루스, 구글 버텍스 AI, 마이크로소프트 애저)도 RLHF 워크플로를 자사 플랫폼에 통합하며 직접 경쟁에 가세하는 모양새다.

시장 참여자들이 공통적으로 강조하는 것은 ‘품질’이다. “포스트트레이닝의 오류 허용치는 제로에 가깝다. 작은 실수 하나가 실제 배포 환경의 모델 성능을 크게 떨어뜨릴 수 있다”는 데칸 AI 레디의 말처럼, AI가 음성·로봇·멀티모달로 확장될수록 훈련 데이터의 정밀도 요구는 더 높아진다. 이전에 이 시장을 지배했던 어펜(Appen)이 주요 고객 이탈로 2020년 기업가치 45억 달러에서 지금은 1억 3,000만 달러 수준으로 쪼그라든 것은 업계에 좋은 경고다. 단순 규모보다 도메인 전문성, 평가 인프라, 데이터 거버넌스를 갖춘 곳들이 살아남을 것이라는 전망에 투자자들도 베팅하고 있다.

기사 공유하기

답글 남기기