구글, I/O 2025에서 차세대 미디어 생성 AI 모델 공개


구글이 ‘I/O 2025’ 행사에서 미디어 생성 분야의 획기적인 진전을 이룬 차세대 AI 모델들을 공개했다. 이번 행사에서 선보인 모델들은 놀라울 정도로 생생한 이미지, 동영상, 음악을 생성하는 기술로, 아티스트들의 창작 활동을 지원하고 일반 사용자들도 쉽게 자신을 표현할 수 있는 강력한 도구가 될 것으로 기대를 모으고 있다.

Google IO 2025 Media AI - 와우테일

소리까지 담아내는 ‘비오 3’, 영상 생성의 새 시대를 열다

구글이 선보인 최신 동영상 생성 모델 ‘비오 3(Veo 3)‘는 기존 비오 2를 크게 개선한 모델이다. 가장 주목할 만한 특징은 처음으로 소리까지 포함된 동영상 생성 기능이다. 도시 거리를 배경으로 한 영상에서는 자동차 소음이 자연스럽게 들리고, 정원 장면에서는 새들의 지저귐이 배경을 채운다. 심지어 영상 속 캐릭터들 간의 대화도 마치 실제처럼 구현된다.

YouTube 동영상

비오 3는 사용자가 입력한 텍스트나 이미지를 바탕으로 실제 물리 법칙을 반영하고 정확한 립싱크까지 구현하는 탁월한 성능을 보여준다. 특히 이야기가 담긴 프롬프트를 입력하면 모델이 이를 이해하고 생생한 영상으로 표현해내는 능력이 뛰어나다. 현재 비오 3는 제미나이 앱, 플로우, 그리고 버텍스 AI의 기업 고객들에게 제공되고 있다.

YouTube 동영상

‘비오 2’, 영화 제작자들을 위한 기능으로 업그레이드

비오 3의 출시와 더불어, 구글은 기존 모델인 비오 2에도 크리에이터와 영화 제작자들의 의견을 반영한 새로운 기능들을 추가했다. 이번에 공개된 기능들은 영상 제작 과정을 더욱 세밀하게 제어할 수 있도록 도와준다.

먼저 새롭게 도입된 레퍼런스 비디오 기능은 사용자가 원하는 캐릭터, 장면, 사물, 스타일 이미지를 모델에 제공함으로써 창작물의 일관성을 크게 향상시킨다. 또한 카메라 제어 기능을 통해 회전, 달리, 줌과 같은 세밀한 카메라 움직임을 설정할 수 있어 전문적인 영상 연출이 가능해졌다.

아웃페인팅 기능은 영상의 프레임을 자유롭게 확장하여 다양한 화면 비율에 맞게 장면을 자연스럽게 조정할 수 있게 해주며, 오브젝트 추가 및 제거 기능은 영상 내 객체의 크기, 상호작용, 그림자 등을 고려해 사실적인 장면 편집을 가능하게 한다.

현재 레퍼런스 비디오와 카메라 제어 기능은 플로우 플랫폼에서 사용 가능하며, 이러한 혁신적인 기능들은 앞으로 몇 주 내에 버텍스 AI API를 통해서도 제공될 예정이다.

영화급 스토리텔링을 가능하게 하는 ‘AI 영화 제작 도구 플로우’

구글 I/O 2025에서 가장 많은 관심을 모은 제품 중 하나는 ‘AI 영화 제작 도구 플로우(Flow)‘다. 이 도구는 구글 딥마인드의 최첨단 모델인 비오, 이마젠, 제미나이를 하나로 통합하여 영화와 같은 고품질 영상, 장면, 스토리를 제작할 수 있게 해준다.

플로우의 가장 큰 장점은 사용자 친화적인 인터페이스다. 원하는 장면을 자연어로 설명하기만 하면, 플로우가 이야기의 핵심 요소인 캐스팅, 장소, 오브젝트, 스타일 등을 체계적으로 관리하고 이를 바탕으로 완성도 높은 장면을 만들어낸다. 이는 전문 영화 제작자뿐만 아니라 일반 사용자들도 쉽게 고품질 영상을 만들 수 있게 해주는 혁신적인 발전이다.

현재 플로우는 미국 내 구글 AI 프로 및 울트라 요금제 구독자들에게 우선적으로 제공되고 있으며, 향후 글로벌 시장으로 서비스를 확대할 계획이라고 구글 측은 밝혔다.

YouTube 동영상

섬세한 디테일과 전문적인 타이포그래피 구현하는 ‘이마젠 4’

이미지 생성 기술에서도 구글은 괄목할 만한 발전을 이뤘다. 새롭게 공개된 ‘이마젠 4(Imagen 4)’는 속도와 정밀도를 모두 갖춘 최신 이미지 생성 모델로, 특히 섬세한 디테일 표현에서 뛰어난 성능을 보여준다.

google i0 2025 imagen4 - 와우테일

물방울의 반사광, 동물 털의 질감, 미세한 주름까지 놀라울 정도로 정교하게 표현하는 이마젠 4는 사실적인 스타일부터 추상적인 예술 작품까지 다양한 시각적 표현이 가능하다. 또한 다양한 화면 비율과 최대 2K 해상도를 지원해 전문적인 출판물이나 프레젠테이션에 바로 활용할 수 있는 고품질 이미지를 생성한다.

특히 주목할 만한 점은 이전 모델 대비 크게 향상된 타이포그래피 기능이다. 이를 통해 텍스트가 포함된 인사말 카드, 포스터, 만화 등을 제작할 때 글자가 자연스럽고 정확하게 표현된다. 현재 이마젠 4는 제미나이 앱, 위스크, 버텍스 AI, 그리고 워크스페이스의 슬라이드, 비즈, 문서 등 다양한 플랫폼에서 사용할 수 있으며, 곧 기존 모델보다 최대 10배 빠른 고속 버전도 출시될 예정이다.

음악 창작의 새 지평을 여는 ‘리리아 2’

구글은 음악 생성 분야에서도 혁신을 이어가고 있다. 지난 4월 접근성이 확대된 ‘리리아 2(Lyria 2)‘를 기반으로 한 ‘뮤직 AI 샌드박스’는 음악 창작자들에게 새로운 영감과 가능성을 제공하고 있다.

음악 업계 전문가들의 피드백을 바탕으로 개발된 리리아 2는 뮤지션, 프로듀서, 작곡가들이 독창적인 음악 아이디어를 탐색하고 발전시킬 수 있는 강력한 도구다. 현재 유튜브 쇼츠 크리에이터와 버텍스 AI 기업 고객들이 이 기술을 활용하고 있으며, 음악 제작 영역에서 AI의 활용 가능성을 크게 확장하고 있다.

또한 구글은 실시간 대화형 음악 생성 모델인 ‘리리아 리얼타임’을 API와 AI 스튜디오를 통해 제공함으로써, 사용자들이 실시간으로 음악을 생성하고 제어하며 연주할 수 있는 경험을 제공하고 있다. 이는 라이브 퍼포먼스나 즉흥 작곡 분야에서 새로운 가능성을 열어줄 것으로 기대된다.

AI 콘텐츠의 책임 있는 사용을 위한 ‘신스ID’

구글은 생성형 AI 기술의 발전과 함께 이를 책임감 있게 활용하기 위한 노력도 지속하고 있다. 2023년에 출시된 ‘신스ID(SynthID)’는 현재까지 100억 개 이상의 이미지, 영상, 오디오 파일 및 텍스트에 워터마크를 삽입해 해당 콘텐츠가 AI로 생성되었음을 명확히 식별할 수 있도록 했다. 이는 디지털 시대에 점점 더 심각해지는 허위 정보와 출처 오인 문제를 완화하는 데 크게 기여하고 있다.

이번 I/O 2025에서 공개된 비오 3, 이마젠 4, 리리아 2가 생성하는 모든 콘텐츠에도 신스ID 워터마크가 적용되어 투명성과 신뢰성을 유지할 계획이다. 또한 구글은 AI 생성 콘텐츠를 신속하고 정확하게 식별할 수 있는 ‘신스ID 디텍터’를 새롭게 출시했다. 이 도구를 통해 사용자들은 특정 콘텐츠가 AI에 의해 생성되었는지 여부를 손쉽게 확인할 수 있게 되었다.

구글은 이러한 생성형 AI 모델들이 인간의 창의력을 제한하는 것이 아니라 확장하는 도구가 되길 바란다고 밝혔다. 새로운 AI 모델들이 아티스트와 크리에이터들의 창작 과정을 더욱 효율적이고 풍요롭게 만들어, 그들의 아이디어를 이전보다 더 쉽고 빠르게 현실화할 수 있도록 돕는 것이 궁극적인 목표라고 강조했다.

기사 공유하기

답글 남기기