씽킹머신즈랩, 말하는 도중 끼어드는 AI 공개… GPT 리얼타임보다 3배 빠른 응답


오픈AI 전 CTO 미라 무라티(Mira Murati)가 이끄는 씽킹머신즈랩(Thinking Machines Lab)이 5월 11일 새로운 AI 모델 연구를 공개했다. 음성·영상·텍스트를 실시간으로 동시에 처리하는 ‘인터랙션 모델(Interaction Models)’이다. 사람이 대화하는 방식 그대로 AI가 반응한다는 개념으로, 기존 턴제(turn-based) 방식의 한계를 정면으로 겨냥했다.

씽킹머신즈랩 인터랙션 모델

턴제 AI의 한계를 깨다

지금까지 대부분의 AI 모델은 턴제 방식으로 작동했다. 사용자가 말을 끝낼 때까지 기다렸다가 응답하고, 응답이 끝날 때까지 새로운 입력을 받지 않는다. 씽킹머신즈랩은 이를 “인간-AI 협업의 대역폭 병목”이라고 규정했다. 사람이 동료와 일하는 방식—말하고, 듣고, 끼어들고, 시각적 단서에 반응하는 것—을 AI 인터페이스가 담아내지 못하고 있다는 문제의식이다.

이번에 공개한 인터랙션 모델은 이 구조 자체를 바꾼다. 200밀리초 단위의 ‘마이크로턴(micro-turn)’ 설계로, 입력과 출력 스트림을 동시에 처리한다. 사용자가 말하는 도중에도 모델이 반응하고, 모델이 말하는 동안에도 사용자 입력을 계속 수신한다. 별도의 음성 감지 컴포넌트 없이 모델 자체가 대화의 흐름을 파악한다.

YouTube 동영상

TML-Interaction-Small의 성능

공개된 모델명은 TML-Interaction-Small로, 2760억 파라미터 규모의 MoE(Mixture of Experts) 구조에 활성 파라미터는 120억 개다.

씽킹머신즈랩은 GPT 리얼타임 2.0, 제미나이 3.1 플래시 라이브와 비교 벤치마크를 함께 공개했다. 인터랙션 품질을 측정하는 FD-bench v1.5에서 TML-Interaction-Small은 77.8점을 기록했다. GPT 리얼타임 2.0 최고 사양(xhigh)의 47.8점, 제미나이 3.1 플래시 라이브 최고 사양(high)의 45.5점을 크게 앞선다. 턴 전환 응답 속도(FD-bench v1)에서도 0.40초로, GPT 리얼타임 2.0 최소 사양 1.18초보다 3배 가까이 빠르다.

시각적 단서에 능동적으로 반응하는 능력도 차별화 포인트다. 씽킹머신즈랩은 이를 측정하기 위해 자체 벤치마크를 만들었다. 사용자가 지정한 시간에 정확히 발화하는 능력을 측정하는 TimeSpeak에서 64.7%를 기록했고, 언어 전환 등 음성 단서에 즉각 반응하는 CueSpeak에서는 81.7%를 달성했다. 같은 테스트에서 GPT 리얼타임 2.0은 각각 4.3%, 2.9%에 그쳤다. 영상 속 행동 횟수를 실시간으로 세는 RepCount-A(오차 1회 허용)도 35.4% 대 1.3%로 격차가 뚜렷했다.

모델은 인터랙션 모델과 백그라운드 모델 두 개로 구성된다. 인터랙션 모델이 실시간 대화를 유지하면서, 복잡한 추론이나 웹 검색이 필요한 작업은 백그라운드 모델에 위임한다. 결과가 나오는 대로 대화에 자연스럽게 녹여 낸다.

씽킹머신즈랩은 어떤 회사인가

씽킹머신즈랩은 무라티가 2025년 2월 오픈AI를 떠난 직후 창업한 AI 스타트업이다. 알바니아 출신으로 다트머스 칼리지를 졸업한 무라티는 테슬라를 거쳐 2018년 오픈AI에 합류, 챗GPT, DALL-E, 코덱스, 소라 등의 개발을 이끌었다. 2023년 11월 샘 올트먼 CEO 해임 사태 당시 사흘간 임시 CEO를 맡기도 했다.

창업 6개월 만인 2025년 7월, 안드레센 호로위츠(Andreessen Horowitz) 주도에 엔비디아, AMD, 서비스나우(ServiceNow), 시스코(CISCO), 제인스트리트(Jane Street) 등이 참여한 20억 달러 시드 라운드를 마감했다. 기업 가치 120억 달러로, 실리콘밸리 역사상 최대 규모 시드 투자 중 하나로 기록됐다. 공동창업자로는 오픈AI 공동창업자이자 강화학습 선구자 존 슐먼(John Schulman), 전 연구 부사장 배럿 조프(Barret Zoph), 릴리언 웡(Lilian Weng) 등 오픈AI 핵심 인력이 대거 합류했다. 2026년 초 조프와 루크 메츠(Luke Metz)가 오픈AI로 복귀하는 이탈이 있었고, 현재 CTO는 파이토치(PyTorch)를 만든 수미스 친탈라(Soumith Chintala)가 맡고 있다.

올해 3월에는 엔비디아로부터 전략적 투자를 유치하고 차세대 AI 칩 베라 루빈(Vera Rubin) 시스템 최소 1기가와트 공급 계약을 체결했다. 엔비디아는 씽킹머신즈랩의 시드 라운드에도 참여한 바 있어, 이번 추가 투자는 단순 공급 계약을 넘어선 전략적 동맹 성격을 띤다. 첫 번째 제품 ‘팅커(Tinker)’는 2025년 10월 출시됐으며, 대형 언어 모델을 기업이나 연구자가 특정 목적에 맞게 파인튜닝할 수 있는 API다.

경쟁사 현황

실시간 음성·멀티모달 AI 인터페이스 시장에는 여러 플레이어가 경쟁 중이다.

오픈AI의 GPT 리얼타임 API는 이 카테고리에서 가장 널리 쓰이는 제품으로, 이번 벤치마크에서 인터랙션 품질의 직접 비교 대상이 됐다. 구글의 제미나이 3.1 플래시 라이브도 같은 시장을 공략하는 실시간 멀티모달 모델이다. 두 제품 모두 이번 TML 벤치마크에서 인터랙션 품질 항목에서 뒤처졌다. 세서미AI(Sesame AI)는 감정형 실시간 음성 AI로 a16z와 세쿼이아(Sequoia)로부터 2억5000만 달러를 유치했고, 딥그램(Deepgram)은 STT 기반 실시간 음성 AI 인프라로 1억3000만 달러를 조달했다. 프랑스의 모시(Moshi), 퀄컴(Qualcomm)의 네모트론 보이스챗(Nemotron VoiceChat) 등도 풀듀플렉스 음성 모델로 같은 방향을 탐색하고 있다. 다만 씽킹머신즈랩은 이들과 달리 음성만이 아니라 음성·영상·텍스트를 아우르는 멀티모달 실시간 처리를 처음부터 모델 구조에 내재화했다는 점에서 접근법이 다르다.

씽킹머신즈랩은 연내 더 큰 규모의 모델을 출시할 계획이라고 밝혔다. 현재 TML-Interaction-Small은 서빙 속도 제약으로 소형 모델부터 시작했지만, 상위 모델 프리트레이닝은 이미 완료된 상태다. 인터랙션 모델과 백그라운드 에이전트의 협업 구조를 고도화하는 것도 이후 과제로 제시했다. 리미티드 리서치 프리뷰를 통해 피드백을 수집하고, 올 하반기 폭넓은 공개를 예고했다.

실시간 AI 음성·모델 분야에 대한 자세한 내용은 생성AI 서비스 지형도를 참고하시길.

기사 공유하기

답글 남기기