AI 데이터 라벨링 플랫폼 ‘비심플 AI’, 300만 달러 투자 유치


메타에서 라마 모델용 어노테이션 플랫폼을 구축했던 엔지니어 출신 창업자들이 비심플 AI(Besimple AI)를 설립하고 300만 달러 시드 투자를 유치했다. Y콤비네이터(Y Combinator), 서지포인트 캐피털(Surgepoint Capital), 포터필드 벤처스(Porterfield Ventures), 아미노 캐피털(Amino Capital), 위라이트 캐피털(WELIGHT Capital), 멀티모달 벤처스(Multimodal Ventures), 스크립트 캐피털(Script Capital)과 다수의 엔젤 투자자가 참여했다.

besimple AI founders - 와우테일

비심플 AI는 AI 모델 훈련에 가장 큰 병목으로 지목되는 고품질 데이터 확보 문제를 정면으로 다룬다. 공동창업자 이종(Yi Zhong) 빌 왕(Bill Wang)은 메타 라마 팀에서 어노테이션 플랫폼을 직접 구축한 경험을 살려 이번 창업에 나섰다. 이종은 메타, 마이크로소프트, 드롭박스에서 대규모 AI 시스템 배포를 이끌었고, 왕은 메타에서 7개 제품을 출시했으며 3억 명 이상의 사용자를 위한 연결성 개선 프로젝트를 관리한 이력이 있다.

회사는 오디오 데이터에서 출발한다. 다양한 언어와 방언, 억양을 포괄하는 독자적인 대화형 데이터를 직접 수집하고, 전문 오디오 어노테이터와 자체 플랫폼을 활용해 자동 음성 인식용 데이터로 가공한다. 사람 수준의 전사와 화자 분리 기능을 갖춘 데이터는 오디오 모델의 성능 향상에 직접적으로 기여하며, 현재 수백만 시간 규모의 대화형 데이터를 보유하고 있다.

비심플 AI가 내세우는 가장 큰 강점은 속도다. 데이터를 플랫폼에 붙여넣거나 스트리밍하면 60초 안에 맞춤형 어노테이션 인터페이스가 자동으로 만들어진다. 텍스트, 채팅, 오디오, 비디오, LLM 추적 등 다양한 데이터 형식을 지원하고, 기존 가이드라인을 가져오거나 비즈니스 목표에 맞는 새 가이드라인을 자동 생성할 수도 있다. AI 판단과 사람 검토를 결합한 워크플로우로 지속적인 피드백 루프를 구축하는 것도 가능하다.

데이터 어노테이션 시장은 최근 큰 변화를 겪고 있다. 업계를 주도하던 스케일 AI(Scale AI)에 메타가 150억 달러를 투자하고 CEO 알렉산더 왕을 초대형 AI 연구소로 영입하면서, 오픈AI와 구글 같은 주요 고객사들이 중립적인 파트너를 찾기 시작했다. 이들이 스케일 AI 이용 중단을 선언하면서 경쟁사들로 관심이 쏠리는 상황이다.

슈퍼어노테이트(SuperAnnotate)는 G2에서 1위 데이터 라벨링 도구로 꼽히며, 2024년 11월 소시움 벤처스가 주도한 3,600만 달러 시리즈B 투자를 유치했다. 엔비디아, 데이터브릭스 벤처스 등이 참여했고, 멀티모달 AI 데이터셋 생성과 관리에 특화된 플랫폼을 제공한다. 라벨박스(Labelbox)는 2022년 소프트뱅크 비전펀드2가 주도한 1억 1,000만 달러 시리즈D를 포함해 총 1억 8,900만 달러를 유치했으며, 제네텍, 워너브라더스 같은 글로벌 기업을 고객으로 확보했다. 앤코드(Encord)는 의료와 비디오 어노테이션에 강점을 보이며 시더스-시나이, 스탠포드 의대 등을 고객으로 두고 있다. 어펜(Appen)은 100만 명이 넘는 글로벌 크라우드 네트워크를 보유하고 있으며, 2019년 데이터 어노테이션 플랫폼 피규어에잇을 최대 3억 달러에 인수하며 자동화 역량을 강화했다.

비심플 AI는 범용 어노테이션보다 평가와 안전 데이터에 집중한다는 점에서 차별화된다. 도메인 전문가와 주제 전문가를 직접 모집해 모델 출력을 사실성, 안전성, 선호도, 정책 준수 등 높은 기준으로 판단하도록 하고, 이러한 판단이 일관성 있고 투명하며 오프라인 평가와 실시간 모니터링 모두에 활용될 수 있도록 인터페이스와 가이드라인을 설계한다. AI 등급 평가 기업 에덱시아(Edexia)가 비심플 AI를 활용해 수백 건의 의사결정을 어노테이션하고 평가를 개선하고 있다.

besimple AI logo - 와우테일

회사는 Y콤비네이터 X25 배치 소속으로, 고객 지원과 검색, 교육 분야의 주요 AI 기업들을 위한 평가 및 훈련 파이프라인을 구축 중이다. 오디오가 생성형 AI의 가장 자연스러운 인터페이스라는 점에 주목하고 있으며, 차세대 대화형 모델 훈련에 필요한 대규모 데이터를 제공한다는 장기 비전을 갖고 있다. 이번 투자를 발판 삼아 팀 확장에 나설 계획이다.

기사 공유하기

답글 남기기