AI의 ‘블랙박스’를 열다…가이드랩스, 모든 추론 과정 추적 가능한 LLM 공개


AI 모델은 왜 그런 답을 내놓는 걸까. xAI가 그록(Grok)의 편향된 정치 성향을 바로잡기 위해 씨름을 반복하고, 챗GPT가 과도한 칭찬 문제로 비판받고, 각종 AI 모델이 사실과 다른 내용을 생성하는 ‘환각(hallucination)’ 현상을 일으키는 것도 결국 같은 문제에서 비롯된다. 수십억 개의 파라미터로 얽혀 있는 신경망의 내부를 들여다보기가 너무 어렵다는 것이다.

guidelabs logo - 와우테일

샌프란시스코의 AI 스타트업 가이드 랩스(Guide Labs)가 이 문제에 정면으로 도전하고 나섰다. 가이드 랩스는 2월 23일 80억 파라미터 규모의 대형 언어 모델(LLM) ‘스털링-8B(Steerling-8B)’를 오픈소스로 공개했다. 이 모델의 핵심은 단순하지만 강력하다. 모델이 생성한 모든 토큰(token)을 학습 데이터의 출처까지 추적할 수 있다는 것이다.

AI를 처음부터 다시 설계하다

기존의 AI 해석 가능성 연구는 이미 완성된 모델을 뜯어보는 방식, 즉 사후 분석에 의존해왔다. 마치 완성된 뇌를 신경과학적으로 분석하듯 모델의 동작을 역으로 추적하려는 시도다. 문제는 이 방법이 부분적이고 불안정하다는 점이다. 특정 개념이 모델 내부에 어떻게 인코딩되어 있는지 정확히 파악하기 어렵고, 설령 찾아낸다 해도 이를 안정적으로 제어하기가 힘들다.

가이드 랩스는 접근 방식 자체를 뒤집었다. 모델을 처음 설계할 때부터 해석 가능성을 구조 안에 심어넣은 것이다. 구체적으로는 ‘개념 레이어(concept layer)’를 모델 아키텍처에 직접 삽입해, 학습 데이터를 인간이 이해할 수 있는 범주로 분류하고 추적 가능하게 만든다. 덕분에 모델이 특정 사실을 언급할 때 어떤 학습 자료를 참고했는지, 유머나 성별 같은 복잡한 개념을 어떻게 이해하고 있는지까지 파악할 수 있다.

CEO 줄리어스 아데바요(Julius Adebayo)는 기존 방식의 한계를 이렇게 설명했다. “성별이라는 개념이 1조 가지 방식으로 인코딩될 수 있고, 그중 10억 가지 방식으로 실제로 인코딩되어 있다면, 그 10억 가지를 모두 찾아내 안정적으로 켜고 끌 수 있어야 한다. 현재 모델로도 가능하긴 하지만, 매우 불안정하다.”

그의 말처럼 기존 모델에서 특정 개념을 제어하는 작업은 불안정하고 불완전하다. 가이드 랩스는 “우리는 모델에 신경과학을 적용하는 게 아니라, 처음부터 신경과학이 필요 없도록 모델을 엔지니어링한다”고 설명한다.

MIT 박사 논문에서 스타트업으로

아데바요가 이 연구를 시작한 것은 MIT 박사 과정 시절로 거슬러 올라간다. 그는 2018년 딥러닝 모델을 해석하는 기존 방법론들이 신뢰할 수 없다는 사실을 논문으로 발표했고, 이 연구는 이후 AI 해석 가능성 분야에서 널리 인용되는 성과가 됐다. 구글 브레인, 메타, 바이오테크 기업 프레시언트 디자인(Prescient Design)을 거친 그는 2023년 가이드 랩스를 공동 창업했다.

공동 창업자는 마찬가지로 MIT 출신 머신러닝 연구자인 풀턴 왕(Fulton Wang)이며, 수석 과학자(Chief Science Officer)를 맡은 아야 압델살람 이스마일(Aya Abdelsalam Ismail)도 팀을 이끌고 있다.

가이드 랩스는 와이콤비네이터(Y Combinator) 출신으로, 지난 2025년 12월 이니셜라이즈드 캐피털(Initialized Capital)이 주도하고 텍토닉 벤처스(Tectonic Ventures), 롬바드스트리트 벤처스(Lombardstreet Ventures), E14 펀드(E14 Fund), 파이오니어 펀드(Pioneer Fund) 등이 참여한 시드 라운드에서 900만 달러를 조달했다.

성능 손실 없이 투명성 확보

해석 가능성을 높이면 모델 성능이 떨어질 수밖에 없다는 것이 그간의 통념이었다. 기존 모델이 방대한 데이터를 압축해 학습하는 과정에서 생겨나는 ‘창발적(emergent)’ 능력, 즉 학습하지 않은 새로운 상황에 일반화하는 능력이 손상될 수 있다는 우려 때문이다.

그러나 가이드 랩스는 이 가정이 틀렸음을 증명했다고 주장한다. 스털링-8B는 기존 동급 모델 대비 90% 수준의 성능을 유지하면서도 학습 데이터를 더 적게 사용한다. 또한 모델이 학습 과정에서 스스로 발견한 ‘양자컴퓨팅’ 같은 개념들도 팀이 추적하고 있으며, 창발적 일반화 능력도 여전히 작동한다는 입장이다.

아데바요는 “해석 가능한 모델 학습이 더 이상 과학의 영역이 아니라 엔지니어링의 문제가 됐다는 것을 이 모델이 증명한다”고 말했다. “과학적 원리는 이미 정립했고, 이를 확장할 수 있다. 프론티어 수준의 모델과 동등한 성능을 내지 못할 이유가 없다.”

왜 해석 가능성이 중요한가

이 기술이 실용화되면 다양한 산업에서 활용될 수 있다. 소비자 향 LLM에서는 저작권 보호 콘텐츠의 무단 사용을 차단하거나, 폭력·약물 관련 출력을 정밀하게 제어할 수 있다. 규제 산업에서는 특히 중요하다. 금융권에서 대출 심사에 AI를 활용할 때, 재정 기록은 반영하되 인종은 배제해야 하는 규정을 충족시키려면 모델의 내부 동작을 정확히 이해하고 제어할 수 있어야 한다.

과학 분야에서도 마찬가지다. 알파폴드(AlphaFold)로 대표되는 단백질 구조 예측은 딥러닝의 눈부신 성과지만, 연구자들은 모델이 왜 특정 구조 조합을 도출했는지를 알아야 후속 연구를 이어갈 수 있다. 아데바요는 “현재 모델 학습 방식은 굉장히 원시적이며, 해석 가능성의 대중화는 장기적으로 인류에게 이로운 일”이라고 강조했다. “초지능 수준의 모델이 당신 대신 결정을 내릴 때, 그 과정이 불투명하면 안 된다.”

가이드 랩스의 다음 목표는 더 큰 규모의 모델을 학습시키고 API 및 에이전틱(agentic) 접근 서비스를 제공하는 것이다. 스털링-8B 코드는 이미 GitHub에 공개되어 있다.

AI 해석가능성 시장, 경쟁 본격화

AI 블랙박스를 여는 기술에 투자자들의 관심이 집중되면서 해석가능성 분야의 경쟁도 뜨거워지고 있다. 가이드 랩스와 같은 방향을 보는 대표 경쟁자는 샌프란시스코의 굿파이어(Goodfire)다. 굿파이어는 지난 2월 시리즈B 라운드에서 1억 5천만 달러를 조달하며 창립 1년 반 만에 유니콘 기업으로 올라섰다. 기업가치는 12억 5천만 달러에 달한다. 오픈AI(OpenAI)와 구글 딥마인드(Google DeepMind) 해석가능성 팀 출신들이 세운 굿파이어는 ‘기계적 해석가능성(mechanistic interpretability)’ 기술로 이미 완성된 모델의 내부를 역설계해 문제 원인을 찾아내고 제어하는 방식을 쓴다.

두 회사의 접근 방식은 뚜렷하게 갈린다. 굿파이어가 기존 모델을 뜯어보는 ‘사후 분석’ 방식이라면, 가이드 랩스는 처음부터 해석 가능하도록 아키텍처 자체를 새로 설계하는 ‘선제적 구조화’ 전략을 택한다. 굿파이어가 막대한 투자금을 등에 업고 시장을 선점하고 있는 반면, 가이드 랩스는 기술적 차별성으로 승부한다는 구도다. 아데바요는 기존 사후 분석 방식에 대해 “부분적이고 불안정하다”고 직접 비판하며, 모델을 처음부터 다르게 만드는 것이 유일한 근본 해법이라는 입장을 고수하고 있다.

기사 공유하기

답글 남기기