AI 블랙박스 여는 ‘굿파이어’, 1억5천만 달러 투자로 유니콘 등극


AI 모델의 내부 작동 원리를 이해하고 설계하는 기술을 개발하는 굿파이어(Goodfire)가 시리즈B 라운드에서 1억 5천만 달러를 조달했다. B캐피탈(B Capital)이 주도한 이번 투자로 굿파이어의 기업가치는 12억 5천만 달러에 달하며, 창립 1년 반 만에 유니콘 기업 반열에 올랐다.

goodfire logo - 와우테일

이번 라운드에는 기존 투자자인 주니퍼 벤처스(Juniper Ventures), 멘로 벤처스(Menlo Ventures), 라이트스피드 벤처 파트너스(Lightspeed Venture Partners), 사우스 파크 커먼스(South Park Commons), 윙 벤처 캐피털(Wing Venture Capital)과 함께 신규 투자자인 DFJ 그로스(DFJ Growth), 세일즈포스 벤처스(Salesforce Ventures), 에릭 슈미트(Eric Schmidt) 전 구글 CEO 등이 참여했다.

샌프란시스코에 본사를 둔 굿파이어(Goodfire)는 2024년 설립된 AI 해석가능성(interpretability) 연구 스타트업이다. 에릭 호(Eric Ho) CEO를 비롯해 오픈AI(OpenAI)와 구글 딥마인드(Google DeepMind)의 해석가능성 연구팀 출신들이 창립했다. 핵심 팀원으로는 오픈AI 해석가능성 팀에서 핵심 기여자였던 닉 카마라타(Nick Cammarata), 구글 딥마인드 해석가능성 팀을 창설한 공동창업자 톰 맥그래스(Tom McGrath), 캘리포니아 대학교 샌디에이고(UC San Diego) 교수 레온 베르겐(Leon Bergen) 등이 있다.

굿파이어가 해결하려는 ‘AI 해석가능성’ 문제는 쉽게 말해 AI의 블랙박스를 여는 작업이다. 챗GPT 같은 대형 언어 모델(LLM)은 수천억 개의 매개변수와 수만 개의 인공 뉴런이 복잡하게 얽혀 작동한다. 개발자들은 모델에 데이터를 학습시키고 결과를 확인할 수는 있지만, 모델 내부에서 정확히 어떤 일이 일어나는지는 알 수 없다. 특정 답변이 왜 나왔는지 추적하기 어렵다는 뜻이다.

굿파이어는 이 블랙박스 내부를 들여다보고, 각 구성요소가 어떤 역할을 하는지 파악한 뒤, 원하는 대로 조정하는 기술을 개발한다. 예를 들어 AI 모델이 환각(hallucination) 현상을 일으키는 원인을 모델 내부에서 찾아내 그 부분만 정밀하게 수정하는 식이다.

B캐피털(B Capital)의 얀-데이비드 ‘얀다’ 에를리히(Yan-David Erlich) 일반 파트너는 “웨이츠 앤 바이아시스(Weights & Biases)에서 일하면서 수천 개의 머신러닝 팀이 똑같은 근본적인 문제로 고민하는 것을 봤다. 그들은 실험을 추적하고 모델을 모니터링할 수는 있었지만, 왜 모델이 그렇게 행동하는지 진정으로 이해할 수 없었다”고 투자 배경을 밝혔다.

굿파이어의 핵심 기술은 ‘기계적 해석가능성(mechanistic interpretability)’이라 불린다. 이는 신경망을 역설계해 각 구성요소의 기능을 밝혀내는 과학이다. 구체적으로 AI 모델 내부의 수만 개 뉴런 활성화 패턴을 분석해 특정 개념이나 행동과 연결된 ‘피처(feature)’를 찾아낸다. 마치 뇌에서 특정 기억이나 감정을 담당하는 신경세포 그룹을 찾는 것과 비슷하다. 이렇게 찾아낸 피처를 활성화하거나 억제하면 모델의 행동을 정밀하게 조정할 수 있다.

AI 해석가능성은 최근 급성장하는 분야다. 마이크로소프트(Microsoft), IBM, 구글(Google) 같은 빅테크 기업들이 자체 해석가능성 도구를 개발하고 있으며, 스타트업들도 속속 등장하고 있다. 대표적으로 피들러(Fiddler AI)는 2018년 설립돼 총 6,560만 달러를 조달했으며, AI 모델 모니터링과 설명가능성 플랫폼을 제공한다. 페이스북(Facebook) 출신 크리슈나 가데(Krishna Gade) CEO가 설립한 피들러는 기업들이 이미 배포한 AI 모델을 감시하고 편향을 감지하는 데 초점을 맞춘다.

반면 굿파이어는 모델 개발 단계부터 내부 작동 원리를 이해하고 설계할 수 있게 하는 ‘연구 중심’ 접근을 취한다는 점에서 차별화된다. 굿파이어는 자신을 ‘네오랩(neolab)’이라고 부르는데, 이는 오픈AI나 구글 딥마인드 같은 ‘스케일링 랩(scaling lab)’들이 단순히 모델을 크게 만드는 데 집중하는 것과 달리, 모델의 근본적인 작동 원리를 이해하는 데 주력한다는 의미다.

굿파이어는 ‘모델 설계 환경(model design environment)’이라는 플랫폼을 개발하고 있다. 이 플랫폼은 최첨단 해석가능성 기술을 활용해 사용자가 모델 내부에 접근하고, 변경하고 싶은 행동을 담당하는 부분을 식별한 뒤, 해당 하위 단위를 구체적으로 학습시키거나 개입할 수 있게 한다. 굿파이어는 이미 이 기술을 활용해 대형 언어 모델의 환각을 50% 감소시키는 성과를 거뒀다. 이는 광범위한 재학습이 아닌 모델 내부의 특정 구성요소에 정밀하게 개입한 결과다.

해석가능성은 단순히 모델을 이해하는 것을 넘어 AI로부터 새로운 과학적 지식을 추출하는 도구로도 활용된다. 굿파이어는 최근 프리마 멘테(Prima Mente)가 구축한 후성유전학 모델에 해석가능성 기술을 적용해 새로운 알츠하이머 바이오마커를 발견했다. 이는 파운데이션 모델을 역설계해 자연과학 분야에서 얻은 최초의 주요 발견으로 평가받는다.

굿파이어는 아크 인스티튜트(Arc Institute)와 메이요 클리닉(Mayo Clinic) 등 주요 기관들과 파트너십을 맺고 디지털 생물학 분야에 해석가능성 기술을 적용하고 있다. 아크 인스티튜트의 패트릭 슈(Patrick Hsu) 공동창업자는 “굿파이어와의 협력은 우리 DNA 파운데이션 모델인 Evo 2로부터 더 깊은 통찰을 얻는 데 결정적이었다”고 말했다.

YouTube 동영상

앤트로픽(Anthropic)은 2025년 4월 굿파이어의 5천만 달러 시리즈A 라운드에 참여했다. 앤트로픽 CEO 다리오 아모데이(Dario Amodei)는 “AI 능력이 발전할수록 이러한 시스템을 이해하는 우리의 능력도 보조를 맞춰야 한다”며 “기계적 해석가능성은 블랙박스 신경망을 이해하고 조정 가능한 시스템으로 전환하는 최선의 방법 중 하나”라고 밝혔다. 앤트로픽 자체도 회사 설립 이후 해석가능성 연구에 대규모 투자를 진행하고 있으며, 2027년까지 “해석가능성이 대부분의 모델 문제를 안정적으로 감지할 수 있도록” 하는 것을 목표로 하고 있다.

이번 투자금은 최첨단 연구 진전, 플랫폼의 차세대 버전 구축, AI 에이전트와 생명과학 분야의 상업적·연구 파트너십 확대에 사용될 예정이다. 에릭 호 CEO는 “모든 엔지니어링 분야는 근본적인 과학에 의해 발전해왔다. 증기기관이 열역학보다 먼저 나왔듯이 AI도 지금 그런 변곡점에 있다”며 해석가능성 연구의 중요성을 강조했다.

기사 공유하기

답글 남기기