스탠다드 인텔리전스, 7500만 달러 유치… “AI 에이전트, 텍스트가 아닌 영상으로 가르친다”


오늘날 AI 에이전트가 컴퓨터를 다루는 방식에는 근본적인 한계가 있다. 클로드 컴퓨터 유즈, 오픈AI 오퍼레이터 같은 기존 서비스는 화면을 스크린샷으로 찍어 언어 모델에 넘기고, 언어 모델이 “다음에 뭘 클릭해야 하나”를 텍스트 추론으로 판단한 뒤 API 명령으로 변환해 실행하는 방식이다. 스크린샷은 순간 사진이라 작업의 연속성을 파악하기 어렵고, 원래 텍스트를 처리하도록 설계된 언어 모델이 화면을 다루는 건 능력 밖의 일이다. 속도도 느리다.

standard intelligence logo - 와우테일

샌프란시스코 기반 AI 연구 스타트업 스탠다드 인텔리전스(Standard Intelligence)는 이 문제를 근본부터 다르게 접근한다. 스크린샷도, 텍스트 추론도 없이, 사람이 컴퓨터를 사용하는 영상 그 자체를 학습 데이터로 삼는다. 이 회사가 세쿼이아 캐피털(Sequoia Capital)과 스파크 캐피털(Spark Capital)이 공동 주도한 7500만 달러 시리즈A 투자 유치를 발표했다. 딜룸 기준 기업가치는 약 5억 달러로 추산된다.

세쿼이아의 소냐 황(Sonya Huang), 미코와이 애쉬윌(Mikowai Ashwill)과 스파크의 야스민 라자비(Yasmin Razavi)가 파트너로 합류했다. 앤드레이 카파시(Andrej Karpathy), 스탠리 드러켄밀러(Stanley Druckenmiller), 밀란 코박(Milan Kovac) 등이 엔젤·어드바이저로 이름을 올렸다.

열아홉에 만나 학교를 그만둔 두 창업자

스탠다드 인텔리전스를 세운 사람은 갈렌 미드(Galen Mead, 21세)와 데반시 판데이(Devansh Pandey, 20세)다. 두 사람은 2022년 AI 얼라인먼트와 AGI에 관심 있는 고등학생을 선발하는 아틀라스 펠로십(Atlas Fellowship)에서 십대 시절 처음 만났다. 판데이는 펠로십의 첫 번째 직원으로 합류해 인프라와 입학 전형을 직접 운영했고, 이후 옥스퍼드에서 잠시 수학했다. 미드는 토론토대학교에 적을 뒀다가 역시 자퇴했다. 세쿼이아는 두 사람을 “나이에 비해 드물 정도로 진지하고, AGI에 안전하게 도달하는 일에 유난히 양심적”이라고 표현했다.

현재 팀은 두 공동창업자를 포함해 6명이 전부다.

테슬라가 자율주행을 가르친 방법으로 컴퓨터 사용을 가르친다

스탠다드 인텔리전스의 접근 방식은 테슬라의 완전 자율주행(FSD)에 비유할 수 있다. 테슬라는 수백만 명의 운전 영상을 그대로 학습시켜 자율주행을 가르쳤다. 스탠다드 인텔리전스는 똑같은 방식으로 컴퓨터 사용을 가르친다.

모델이 보는 건 화면의 픽셀 흐름이다. 모델이 예측하는 건 “다음 마우스 위치, 클릭 여부, 키스트로크”다. 스크린샷을 찍어 텍스트로 변환하고 언어 모델이 판단하는 기존 방식과 달리, 화면을 보면서 곧바로 행동으로 연결한다. 대형 언어 모델이 인터넷 텍스트를 대규모로 학습해 언어 패턴을 체득한 것처럼, 컴퓨터 사용 영상을 대규모로 학습하면 모델이 사람이 디지털 도구를 다루는 방식을 원리부터 익힐 수 있다는 논리다.

첫 번째 모델인 FDM-1은 지난 2월 공개됐다. 훈련 데이터는 자체 구축한 1100만 시간 분량의 컴퓨터 사용 영상 데이터셋으로, 기존에 공개된 최대 데이터셋보다 55만 배 크다. 특히 수작업 레이블링 없이 영상만 보고 어떤 행동이 그 화면을 만들어냈는지를 자동으로 역추론하는 기법을 적용해 이 규모가 가능했다.

기술적 성취도 눈에 띈다. 자체 개발한 비디오 인코더는 경쟁사 대비 약 50배 토큰 효율이 높다. 덕분에 100만 토큰 컨텍스트 창 안에 30FPS 영상 2시간 분량을 통째로 처리할 수 있다. 기존 컴퓨터 유즈 에이전트들이 짧은 화면 캡처 몇 장에 의존하는 것과 달리, FDM-1은 2시간짜리 연속 업무 흐름 전체를 한 번에 파악하고 처리한다는 뜻이다. 스토리지 인프라도 독특하다. 30페타바이트 규모 클러스터를 샌프란시스코에 직접 구축하는 데 든 비용이 50만 달러 미만이었는데, 하이퍼스케일러를 빌렸을 때보다 약 20배 저렴하다.

FDM-1의 시연 영상들은 이미 공개돼 있다. 블렌더(Blender)에서 금속 기어 부품을 CAD로 설계하고, 소프트웨어의 상태 공간을 탐색해 버그를 자동으로 찾아내고, 웹 인터페이스를 통해 샌프란시스코 시내를 실제로 주행하는 토요타 RAV4를 조종하는 모습을 담고 있다. 자동차 주행은 1시간 이하의 파인튜닝만으로 가능했다.

회사는 FDM-1의 결과가 컴퓨터 유즈 개발을 “데이터 제약 체제에서 컴퓨팅 제약 체제”로 전환했다고 본다. 이전에는 양질의 훈련 데이터 확보 자체가 병목이었지만, 이제는 컴퓨팅 파워만 늘리면 성능을 높일 수 있는 구조가 됐다는 뜻이다. 이번 7500만 달러 조달은 바로 그 컴퓨팅 확장에 투입된다. 코딩 언어 모델이 코딩에서 초인적 성능에 도달한 것처럼, 일반 컴퓨터 작업에서도 같은 궤적을 따라가겠다는 게 회사의 목표다.

장기 비전은 더 멀리 향한다. 스탠다드 인텔리전스는 회사 이름에 ‘Public Benefit Corporation’을 붙일 만큼 얼라인된 AGI 개발을 명시적 사명으로 내걸고 있다. 현재의 얼라인먼트 기술이 인간 수준의 학습 능력을 가진 모델을 안전하게 다루기에는 불충분하다는 판단 아래, 통제된 환경에서 이 문제의 소규모 버전을 연구하는 작업도 병행한다.

“스크린샷 방식”과 “영상 방식”이 맞붙는다

컴퓨터 유즈 에이전트 시장의 현재 주류는 빅테크다. 앤트로픽의 클로드 컴퓨터 유즈, 오픈AI의 오퍼레이터, 구글의 프로젝트 마리너가 모두 스크린샷 기반 LLM 방식을 취하고 있다. 스탠다드 인텔리전스가 “낡은 패러다임”이라고 부르는 상대들이다.

스타트업 진영에서는 영역이 일부 겹치는 회사들이 있다. 피지컬 인텔리전스는 로봇 팔을 위한 파운데이션 모델을 만드는데, 실제 세계 영상으로 행동을 학습시킨다는 점에서 접근 방식이 유사하다. 알파벳 주도로 6억 달러를 유치했다. 코그니션의 데빈(Devin)은 AI 소프트웨어 엔지니어로, LLM 기반이지만 컴퓨터를 장시간 자율 조작하는 영역에서 경쟁이 불가피하다. 시리즈C 4억 달러를 조달해 기업가치 100억 달러를 넘겼다. 자율주행 월드 모델을 개발하는 웨이브는 영상 사전훈련으로 물리 세계를 학습한다는 점에서 기술적 DNA가 닮았다. 마이크로소프트·엔비디아 주도로 12억 달러를 조달했다.

스탠다드 인텔리전스의 포지셔닝은 이들 모두와 다르다. 단순한 업무 자동화 도구나 코딩 에이전트가 아니라, 컴퓨터 사용 자체를 위한 파운데이션 모델을 새로 만들겠다는 것이다. 영상 사전훈련이 텍스트 기반 접근을 대체할 차세대 패러다임이 될지, 6명짜리 팀이 빅테크와 맞붙는 이 승부가 앞으로 주목된다.에이전틱 AI 분야 전반의 동향은 여기를, 영상 사전훈련 기반 월드모델 경쟁 구도는 여기를 참고하시길.

기사 공유하기

답글 남기기