마이크로소프트, 음성·이미지·전사 자체 AI 모델 3종 공개…오픈AI 의존 탈피 본격화


마이크로소프트(Microsoft)와 오픈AI(OpenAI)는 AI 업계 역사상 가장 성공적인 파트너십 중 하나로 손꼽힌다. 마이크로소프트는 2019년부터 오픈AI에 투자를 시작해 총 138억 달러를 쏟아부었고, 2025년 10월 오픈AI의 공익법인(PBC) 전환이 완료되면서 지분 가치는 1,350억 달러(약 197조 원)에 달하는 것으로 평가됐다. 챗GPT(ChatGPT)의 폭발적인 성장 덕분에 마이크로소프트의 클라우드 플랫폼 애저(Azure)도 빠르게 성장했다. 오픈AI의 API는 애저 전용으로 운용되고, 오픈AI는 애저 서비스를 2,500억 달러어치 추가 구매하는 계약도 맺었다.

Microsoft AI Models - 와우테일

그러나 오픈AI가 소프트뱅크(SoftBank), 아마존(Amazon) 등 마이크로소프트 외 파트너들과 광범위한 관계를 구축하면서 두 회사 사이엔 미묘한 긴장감이 생겨났다. 마이크로소프트는 2025년 연간 보고서에서 오픈AI를 공식 경쟁사 목록에 올렸다. 마이크로소프트 주가는 올해 들어서만 약 17% 하락하며 2008년 금융위기 이후 최악의 분기를 기록했고, 투자자들은 막대한 AI 투자 비용에 상응하는 가시적인 성과를 요구하기 시작했다.

이 흐름 속에서 마이크로소프트는 지난해 10월 오픈AI와 파트너십을 재협상했다. 핵심 변화는 마이크로소프트가 독자적으로 프론티어 AI 모델을 개발할 수 있는 권한을 갖게 된 것이다. 이전 2019년 계약 하에서는 인공일반지능(AGI) 개발을 독립적으로 추진하는 것이 계약상 제한됐다.

재협상 직후 마이크로소프트는 딥마인드(DeepMind) 공동 창업자이자 인플렉션 AI(Inflection AI) 전 CEO 무스타파 술레이만(Mustafa Suleyman)이 이끄는 ‘마이크로소프트 슈퍼인텔리전스 팀’을 출범시켰다. 2026년 3월에는 코파일럿(Copilot) 조직을 전면 개편해 소비자·기업용 AI를 통합 관리하는 체제를 갖추고, 술레이만은 자체 모델 개발에 전념하는 구조로 바꿨다.

그 첫 번째 결과물이 2일(현지시간) 공개된 MAI 모델 3종이다. 술레이만은 슈퍼인텔리전스 팀이 출범한 지 불과 6개월 만에 내놓은 성과라고 강조했다. 음성-텍스트 변환 모델 MAI-트랜스크라이브-1(MAI-Transcribe-1), 음성 생성 모델 MAI-보이스-1(MAI-Voice-1), 이미지 생성 모델 MAI-이미지-2(MAI-Image-2)로 구성되며, 마이크로소프트 파운드리(Microsoft Foundry)를 통해 즉시 이용 가능하다.

MAI-트랜스크라이브-1은 가장 많이 사용되는 25개 언어를 대상으로 음성을 텍스트로 변환하는 모델이다. 업계 표준 벤치마크인 플러어스(FLEURS) 기준 25개 언어 전체에서 오픈AI의 위스퍼-라지-v3(Whisper-large-v3)를 앞섰고, 25개 언어 중 11개에서 1위를 기록했다. 배치 전사 속도는 기존 애저 패스트(Azure Fast) 서비스 대비 2.5배 빠르고, 경쟁사 최신 모델의 절반 수준의 GPU만 쓴다고 마이크로소프트는 밝혔다. 이미 코파일럿의 보이스 모드와 마이크로소프트 팀즈(Teams) 통화 전사에 테스트 중이다. 요금은 시간당 0.36달러부터 시작한다.

MAI-보이스-1은 자연스럽고 감정 표현이 풍부한 음성을 생성하는 모델이다. 긴 콘텐츠에서도 화자의 목소리를 일관되게 유지하며, 개발자가 단 몇 초 분량의 오디오 샘플만으로 커스텀 목소리를 만들 수 있다. 60초 분량의 오디오를 1초 만에 생성하며, 코파일럿 오디오 익스프레션스(Copilot Audio Expressions)와 코파일럿 팟캐스트에 이미 적용됐다. 요금은 100만 자(character)당 22달러다.

MAI-이미지-2는 앞서 3월에 별도 발표된 뒤 이번에 정식 상용화됐다. 아레나닷에이아이(Arena.ai) 리더보드 상위 3위 모델 패밀리로, 파운드리와 코파일럿에서 기존보다 최소 2배 빠른 이미지 생성 속도를 보인다. 빙(Bing)과 파워포인트(PowerPoint)에도 순차 적용 중이다. 세계 최대 마케팅·커뮤니케이션 그룹 WPP가 대규모 도입을 선언한 첫 기업 파트너로, WPP의 글로벌 최고 크리에이티브 책임자 롭 라일리(Rob Reilly)는 실제 캠페인에 쓸 수 있는 수준의 이미지를 생성한다고 평했다. 요금은 텍스트 입력 기준 100만 토큰당 5달러, 이미지 출력 기준 100만 토큰당 33달러다.

술레이만은 오픈AI와의 파트너십은 계속 유지한다면서도, 앞으로 프론티어 대형언어모델(LLM)까지 개발해 ‘완전한 AI 자급자족’을 이루는 것이 목표라고 밝혔다. 마이크로소프트는 세 모델 모두 안전성 테스트와 레드팀 검증을 거쳤으며, 파운드리를 통해 가드레일과 거버넌스, 엔터프라이즈급 통제 기능을 함께 제공한다고 강조했다.

기사 공유하기

답글 남기기