AI 에이전트 쏟아지는데, 누가 감시하나…브레인트러스트 8,000만 달러 유치


AI가 실험실을 벗어나 기업 핵심 인프라로 자리 잡으면서, 엔지니어링 팀 사이에 전혀 새로운 종류의 불안이 퍼지고 있다. 모델이 왜 엉뚱한 답을 뱉는지, 어느 단계에서 오류가 터지는지, 다음 업데이트에서 무엇이 망가질지 — 아무도 자신 있게 말하지 못하는 상황이다. AI 에이전트 하나가 수백 메가바이트에 달하는 추론 흔적을 남기는 지금, 기존 소프트웨어 모니터링 도구로는 이 복잡성을 도저히 따라잡을 수 없다.

braintrust logo - 와우테일

브레인트러스트(Braintrust)는 바로 이 문제를 해결하기 위해 탄생한 회사다. AI 모델과 에이전트가 실제 프로덕션 환경에서 어떻게 작동하는지 측정하고, 평가하고, 개선할 수 있도록 돕는 관측(observability) 플랫폼이다. 노션(Notion), 리플릿(Replit), 클라우드플레어(Cloudflare), 램프(Ramp), 드롭박스(Dropbox) 같은 기업들이 브레인트러스트를 활용해 자사 AI 제품의 품질을 관리하고 있다.

브레인트러스트는 아이코닉(ICONIQ)이 주도한 시리즈B 라운드에서 8,000만 달러를 유치했다고 발표했다. 기업가치는 8억 달러로 평가받았다. 기존 투자사인 안드레센 호로위츠(Andreessen Horowitz), 그레이록(Greylock), 엘라드 길(Elad Gil), 베이스케이스 캐피털(basecase capital)도 이번 라운드에 다시 합류했다. 이번 투자를 계기로 아이코닉의 제너럴 파트너 매트 제이콥슨(Matt Jacobson)이 이사회에 합류한다.

피그마 AI팀을 이끈 창업자, 직접 겪은 고통을 사업으로

브레인트러스트를 창업한 앙쿠르 고얄(Ankur Goyal)은 싱글스토어(SingleStore, 구 MemSQL)에서 엔지니어링 부사장을 지낸 뒤 AI 문서 처리 스타트업 임피라(Impira)를 세워 피그마(Figma)에 매각했다. 이후 피그마에서 ML 플랫폼을 총괄하며 AI 평가 도구를 내부에서 직접 만들어야 하는 고통을 반복해서 겪었다. 두 회사를 거치며 같은 문제에 부딪히고 나서야 확신이 섰다. 이건 자신만의 고충이 아니라 업계 전체가 안고 있는 숙제라는 것을.

그 확신이 브레인트러스트의 출발점이었다. 고얄은 동료들과 꾸준히 이야기를 나누며 팀들이 AI 평가와 모니터링에서 정확히 무엇을 필요로 하는지 파악했고, 이 고객 중심 철학은 지금도 회사 운영의 핵심으로 남아 있다. 그는 “AI를 실제로 운용하는 고객들과 매일 대화한다”고 말한다.

에이전트 시대, 모니터링은 더 이상 선택이 아니다

AI가 실험용 프로젝트에 머물던 시절에는 기존 소프트웨어 모니터링 도구로도 충분했다. 하지만 지금은 다르다. 2026년 현재 AI 에이전트는 엔지니어링 워크플로우 깊숙이 박혀 있고, 비개발자들도 바이브 코딩(vibe coding)으로 앱을 뚝딱 만들어낸다. 대기업과 스타트업 모두 AI 기능을 제품에 직접 녹여 넣고, 그 AI가 반드시 제대로 작동해야 한다는 압박을 받는다.

문제는 복잡성이다. 현대 AI 에이전트가 남기는 추론 흔적은 수십 단계에 걸쳐 툴 호출과 중간 추론 과정을 담으며, 상호작용 하나에 수백 메가바이트짜리 데이터를 쌓아 올린다. 브레인트러스트는 이 규모를 감당하기 위해 자체 데이터베이스 기술인 브레인스토어(Brainstore)를 직접 개발했을 정도다.

플랫폼이 제공하는 핵심 기능은 크게 네 가지다. 먼저 AI 모델이나 에이전트의 추론 과정 전체를 자동으로 기록하는 추적 도구가 있다. 프롬프트, 툴 호출, 맥락 정보, 응답 속도, 비용까지 빠짐없이 포착한다. LLM-as-a-Judge 방식으로 출력물의 정확성과 관련성을 자동 평가하는 기능, 실제 프로덕션 데이터를 토대로 프롬프트 변경 사항을 배포 전에 검증하는 플레이그라운드도 갖추고 있다. 여기에 더해 수백만 건의 추적 데이터를 분석해 더 나은 프롬프트를 제안하고 환각(hallucination) 패턴을 찾아내는 AI 어시스턴트도 포함된다.

아이코닉의 제이콥슨은 “세대를 이끄는 기업들의 공통점은 고객에 대한 깊고 진정한 집착”이라며 “브레인트러스트 팀이 바로 그 마인드셋을 처음부터 제품에 녹여 왔다”고 투자 배경을 밝혔다. 아이코닉은 과거 세일즈포스(Salesforce), 스노우플레이크(Snowflake), 데이터독(Datadog), 앤스로픽(Anthropic) 등에 초기 투자한 이력이 있다.

‘AI 관측’과 ‘AI 해석 가능성’, 비슷하지만 다른 시장

AI 모니터링 분야는 크게 두 갈래로 나뉜다. 하나는 브레인트러스트가 속한 AI 관측 가능성(observability) 시장이고, 다른 하나는 최근 급부상 중인 AI 해석 가능성(interpretability) 시장이다.

관측 가능성은 “AI가 무엇을 했는가”에 주목한다. 이미 배포된 모델이 어떤 입력을 받아 어떤 출력을 냈는지, 응답 속도는 얼마나 걸렸는지, 비용은 얼마나 발생했는지를 추적하고 기록한다. 브레인트러스트처럼 로그와 트레이스를 쌓아 이상 패턴을 감지하는 것이 핵심이다.

해석 가능성은 한 단계 더 들어간다. “AI가 왜 그런 결정을 내렸는가”를 파악하는 것이다. 단순히 결과를 기록하는 데 그치지 않고, 수십억 개의 파라미터로 이뤄진 모델 내부를 역설계해 특정 뉴런이나 개념 단위가 어떤 역할을 하는지 밝혀낸다. 금융 대출 심사, 의료 진단, 법률 판단처럼 AI의 판단 근거를 반드시 설명해야 하는 고위험 영역에서 특히 중요해지는 기술이다.

두 시장은 보완 관계에 있으면서도 서로 다른 문제를 공략한다. 관측 가능성이 “항공기 블랙박스”라면, 해석 가능성은 “엔진 설계 도면”에 가깝다.

AI 해석 가능성 스타트업들도 주목받는다

해석 가능성 분야에서 가장 많은 주목을 받는 곳은 굿파이어(Goodfire)다. 오픈AI와 구글 딥마인드의 해석 가능성 연구팀 출신들이 2024년 설립한 이 회사는 B캐피털(B Capital) 주도로 1억 5,000만 달러 시리즈B를 유치하며 기업가치 12억 5,000만 달러의 유니콘으로 올라섰다. 굿파이어의 접근 방식은 ‘기계적 해석 가능성(mechanistic interpretability)’이다. 모델 내부의 수만 개 뉴런 활성화 패턴을 분석해 특정 개념과 연결된 피처(feature)를 찾아낸 뒤 이를 활성화하거나 억제해 모델의 행동을 정밀하게 조정한다. 이 기술로 환각 현상을 50% 줄이는 성과도 거뒀다. 앤트로픽도 굿파이어의 시리즈A에 참여하며 해석 가능성 연구에 힘을 실어줬다.

또 다른 주목할 회사는 가이드랩스(Guide Labs)다. MIT에서 AI 해석 가능성 연구로 박사 학위를 받은 줄리어스 아데바요(Julius Adebayo)가 창업한 이 스타트업은 2025년 말 이니셜라이즈드 캐피털(Initialized Capital) 주도로 930만 달러 시드 투자를 유치했다. 굿파이어가 기존 모델의 내부를 사후 분석하는 방식에 주력한다면, 가이드랩스는 아예 처음부터 해석 가능성을 내장한 모델 아키텍처를 새롭게 설계한다는 점에서 차별화된다. 최근에는 80억 파라미터 규모의 해석 가능한 LLM ‘스터링-8B(Steerling-8B)’를 오픈소스로 공개하며 기술력을 입증했다.

빠르게 달아오르는 AI 관측 시장

관측 가능성 시장은 2033년까지 연평균 22.5% 성장해 107억 달러 규모로 커질 것으로 전망된다. 시장이 커지는 속도만큼 경쟁도 치열해지고 있다.

가장 강력한 맞수는 아라이즈 AI(Arize AI)다. 2020년 설립된 아라이즈는 2025년 2월 시리즈C로 7,000만 달러를 유치해 누적 투자액 1억 3,100만 달러를 쌓았다. 오픈소스 피닉스(Phoenix) 트레이서를 앞세워 개발자 커뮤니티에서 탄탄한 입지를 다졌고, 트립어드바이저(Tripadvisor), 우버(Uber) 등 대형 고객사를 두고 있다.

구글 AI, 애플 시리(Siri), 구글 브레인(Google Brain) 출신이 창업한 갈릴레오(Galileo)도 빠르게 치고 올라오고 있다. 갈릴레오는 2024년 10월 시리즈B로 4,500만 달러를 유치해 누적 투자액 6,800만 달러를 기록했다. 자체 소형 언어 모델 루나-2(Luna-2)를 이용해 GPT-4 기반 평가 대비 97% 비용 절감이 가능하다고 내세우며 엔터프라이즈 시장을 파고들고 있다.

2026년 1월에는 데이터베이스 업체 클릭하우스(ClickHouse)가 기업가치 150억 달러에 4억 달러 시리즈D를 마무리하면서 오픈소스 AI 관측 플랫폼 랭퓨즈(Langfuse) 인수했다. 개발자들 사이에서 셀프호스팅의 자유로움으로 인기를 끌었던 랭퓨즈가 대형 데이터 인프라 업체를 등에 업게 됐다. 이 외에도 헬리코네(Helicone), 랭스미스(LangSmith), 피들러(Fiddler) 등 다양한 플레이어들이 각자의 틈새를 찾아 자리를 잡아가고 있다.

브레인트러스트는 이번 투자금으로 엔지니어링과 영업·마케팅 팀을 키우고, 새로운 오피스를 열며 신제품 개발을 가속화할 계획이다. 신제품의 구체적인 내용은 2026년 2월 열린 연례 사용자 콘퍼런스 트레이스(Trace)에서 처음 공개됐다.

기사 공유하기

답글 남기기