오픈AI, API에 실시간 음성 번역·전사 기능 추가… “대화하면서 일하는 AI”


AI 음성 시장의 주도권 경쟁이 가열되는 가운데, 오픈AI(OpenAI)API에 세 가지 새로운 음성 인텔리전스 기능을 추가했다. 고객 서비스 자동화부터 교육, 크리에이터 플랫폼까지 다양한 분야에서 개발자들이 더 정교한 음성 기반 앱을 만들 수 있도록 하기 위한 포석이다.

OpenAI voice AI - 와우테일

이번에 공개된 세 가지 모델은 각각 다른 역할을 맡는다. 우선 ‘GPT-리얼타임-2(GPT-Realtime-2)’는 기존 GPT-리얼타임-1.5의 후속 음성 모델로, GPT-5급 추론 능력을 탑재해 보다 복잡한 사용자 요청도 처리할 수 있도록 설계됐다. 단순한 말 주고받기를 넘어 실질적인 작업을 대화 중에 처리하는 것을 목표로 한다.

‘GPT-리얼타임-트랜스레이트(GPT-Realtime-Translate)’는 이름 그대로 실시간 통역 기능을 담당한다. 70개 이상의 입력 언어를 이해하고 13개 출력 언어로 실시간 변환하며, 사용자의 대화 속도에 맞춰 “따라가는” 방식으로 작동한다. 마지막으로 ‘GPT-리얼타임-위스퍼(GPT-Realtime-Whisper)’는 음성을 텍스트로 변환하는 라이브 전사 기능으로, 대화가 진행되는 동시에 캡처된다.

오픈AI는 이번 기능들이 기존 음성 AI의 한계를 넘어선다고 강조했다. “단순 질의응답에서 벗어나, 대화가 펼쳐지는 동안 듣고, 추론하고, 번역하고, 전사하고, 행동을 취할 수 있는 음성 인터페이스로 진화한 것”이라는 설명이다.

활용처는 고객 서비스에만 그치지 않는다. 오픈AI는 교육, 미디어, 이벤트, 크리에이터 플랫폼 등 다양한 분야에 적용할 수 있다고 밝혔다. 다만 악용 가능성에 대해서도 선제적으로 대응했다. 스팸, 사기, 유해 콘텐츠 생성에 활용되는 것을 막기 위해 가이드라인 위반이 감지되면 대화가 중단되는 안전장치를 내장했다.

세 가지 모델은 모두 오픈AI의 리얼타임 API(Realtime API)를 통해 제공된다. 가격 체계는 모델마다 다르다. GPT-리얼타임-2는 토큰 소비량 기준으로 청구되고, 트랜스레이트와 위스퍼는 분 단위로 과금된다.

음성 AI 인프라 시장에서는 딥그램(Deepgram)이 1억3000만 달러를 유치하며 STT·실시간 대화 인프라를 강화하고 있고, 일레븐랩스(ElevenLabs)는 시리즈D 5억 달러로 기업가치 110억 달러를 인정받았다. 오픈AI의 이번 API 기능 추가는 이들 전문 음성 AI 스타트업과의 직접 경쟁을 의미하기도 한다. 음성·오디오 AI 시장 전체 지형은 생성AI 지형도를 참고하면 된다.주요 AI 기업들의 투자 관계망에 대한 자세한 내용은여기를 참고하시길.

기사 공유하기

답글 남기기