‘게임하듯 코딩 데이터 만든다’…데이터커브, 1500만 달러 투자 유치


대형 언어모델(LLM)을 훈련시키려면 엄청난 양의 데이터가 필요하다. 하지만 단순히 양만 많다고 되는 게 아니다. 특히 코딩이나 소프트웨어 개발 같은 전문 영역에서는 데이터의 품질이 모델 성능을 좌우한다. 문제는 이런 고품질 데이터를 어떻게 확보하느냐다.

datacurve cofounders - 와우테일

와이콤비네이터 출신 스타트업 데이터커브(Datacurve)는 이 문제에 대한 답을 ‘게임화된 현상금 플랫폼’에서 찾았다. 일반적인 데이터 라벨링 업체들이 저임금 노동자를 대량 고용하는 방식과 달리, 데이터커브는 실력 있는 소프트웨어 엔지니어들이 자발적으로 참여하고 싶어하는 플랫폼을 만들었다. 10일 이 회사는 케미스트리(Chemistry)의 마크 골드버그가 주도하고 딥마인드(DeepMind), 버셀(Vercel), 앤스로픽(Anthropic), 오픈AI(OpenAI) 직원들이 참여한 1500만 달러 규모의 시리즈A 투자 유치를 발표했다.

데이터커브의 플랫폼은 ‘Shipd’라는 이름으로 운영된다. 여기서 데이터 프로젝트는 ‘퀘스트(Quest)’로 전환되고, 1만4000명이 넘는 엔지니어 풀에서 선발된 최고 실력자들이 현상금을 걸고 경쟁한다. 공동창업자 세레나 게는 “우리는 이것을 데이터 라벨링 작업이 아닌 소비자 제품으로 취급한다”며 “경쟁의 심리와 인간의 기본적인 동기를 활용해 다양하고 복잡한 데이터를 생성하는 매력적인 경험을 만들었다”고 설명했다.

실제로 데이터커브는 지금까지 100만 달러 이상의 현상금을 기여자들에게 지급했다. 하지만 게는 가장 큰 동기가 금전적 보상만은 아니라고 강조한다. 숙련된 엔지니어들에게 데이터 작업 보수는 본업 연봉에 비하면 턱없이 낮다. 대신 이들은 평소에도 즐기는 코딩 문제를 풀면서 보상을 받을 수 있다는 점에 매력을 느낀다. 이미 아마존(Amazon), AMD 같은 대기업 출신 엔지니어와 최고 수준의 경쟁 프로그래머들이 플랫폼에 참여하고 있다.

데이터커브가 제공하는 데이터 유형은 다양하다. 리트코드(Leetcode) 스타일의 알고리즘 문제부터 실제 프로덕션 환경에서 발생하는 버그 시나리오까지 포괄한다. 특히 주목할 점은 맞춤형 통합개발환경(IDE)을 통해 소프트웨어 개발자의 모든 작업 과정을 추적한다는 것이다. 코드 실행부터 편집 루프, 파일 탐색, 실행 흔적, 언어적·문자적 사고 과정까지 전부 기록해 AI 에이전트 훈련에 활용한다.

이런 접근은 최근 AI 업계의 흐름과 맞아떨어진다. 초기 AI 모델들이 단순한 데이터셋으로 훈련됐다면, 지금은 복잡한 강화학습 환경이 필요하다. 특정하고 전략적인 데이터 수집 없이는 최신 AI 모델을 제대로 훈련시킬 수 없다. 환경이 정교해질수록 양과 질 모두에서 데이터 요구사항이 높아지는데, 바로 여기에 데이터커브의 기회가 있다.

현재 데이터커브는 소프트웨어 엔지니어링에 집중하고 있지만, 게는 이 모델이 금융, 마케팅, 의료 등 다른 분야로도 확장 가능하다고 본다. “우리가 구축하는 것은 각 도메인에서 고도로 유능한 전문가들을 유치하고 유지하는 사후 훈련 데이터 수집 인프라”라는 게 그의 설명이다.

데이터커브의 등장 배경에는 업계 지각변동도 한몫했다. AI 훈련 데이터 시장을 주도해온 스케일AI(Scale AI)의 창업자 알렉산드르 왕이 지난 6월 메타(Meta)에 합류하면서 시장에 공백이 생겼다. 메타는 143억 달러를 투자해 스케일AI의 49% 지분을 인수했고, 왕은 메타의 최고AI책임자로 ‘초지능’ 프로젝트를 이끌고 있다. 업계는 이를 데이터커브 같은 신생 기업들의 기회로 보고 있다.

이번 시리즈A는 전 코인베이스(Coinbase) 최고기술책임자 발라지 스리니바산이 투자한 270만 달러 규모의 시드 라운드에 이은 것으로, 데이터커브의 누적 투자액은 1770만 달러에 달한다. 주요 AI 기업 직원들이 개인 자격으로 투자에 참여했다는 점도 업계의 관심을 보여준다.

AI 모델이 점점 더 정교해지고 전문화되면서, 적절한 전문성을 갖춘 인력이 적절한 데이터를 생성할 수 있는 기업이 큰 경쟁 우위를 점할 것으로 보인다. 데이터커브가 소프트웨어 엔지니어링을 넘어 차세대 AI 훈련을 위한 인프라로 성장할 수 있을지 주목된다.

기사 공유하기

답글 남기기