오픈AI, 물리법칙 따르는 AI 영상 생성 ‘소라2’ 공개…틱톡형 소셜앱도 출시


오픈AI(OpenAI)가 차세대 영상·오디오 생성 모델 소라2(Sora 2)공개했다. 9월 30일 라이브스트림에서 발표한 소라2는 기존 모델보다 물리적 정확성이 크게 향상됐고, 영상과 음성을 동시에 생성할 수 있다. 오픈AI는 이와 함께 AI 영상을 만들고 공유하는 iOS 소셜앱 ‘소라(Sora)’도 내놨다.

YouTube 동영상

오픈AI는 2024년 2월 선보인 초기 소라 모델을 “영상 생성의 GPT-1 순간”이었다고 평가하면서, 소라2로 “GPT-3.5 수준의 도약”을 이뤘다고 자평했다. 실제로 소라2는 기존 모델들이 구현하기 어려웠던 복잡한 동작을 현실감 있게 만들어낸다. 올림픽 체조 동작, 패들보드에서 백플립하기, 고양이를 안고 트리플 악셀 점프하기 같은 고난도 장면을 물리 법칙에 맞춰 생성한다.

가장 눈에 띄는 개선점은 물리 법칙 이해도다. 기존 영상 생성 AI들은 텍스트 명령을 충실히 따르려다 보니 현실을 왜곡하곤 했다. 농구 선수가 슛을 놓치면 공이 순간이동해서 골대에 들어가는 식이었다. 하지만 소라2는 다르다. 슛을 놓치면 공이 백보드에 맞고 튕겨 나온다. 오픈AI 측은 “모델이 실수할 때도 엉뚱한 오류가 아니라, 실제 사람이 할 법한 합리적인 실수처럼 보인다”고 설명했다.

소라2의 또 다른 혁신은 영상과 완벽하게 맞아떨어지는 오디오를 생성한다는 점이다. 음성 대화는 물론 배경음과 효과음까지 만들어내며, 입 모양과 소리의 싱크도 자연스럽다. 여기에 ‘카메오(Cameo)’ 기능까지 더해졌다. 사용자가 한 번만 영상과 음성을 녹화해 본인 인증을 마치면, AI가 만든 어떤 장면에든 자신의 모습을 집어넣을 수 있다. 이 기능은 사람뿐 아니라 반려동물이나 물건에도 쓸 수 있다.

소라 앱은 현재 미국과 캐나다에서 iOS 버전으로만 나왔으며, 초대받은 사람만 쓸 수 있다. 안드로이드 버전은 조만간 나올 예정이다. 앱에서는 틱톡이나 인스타그램 릴스처럼 짧은 영상을 올리고 보는 피드 기능을 제공한다. 오픈AI는 추천 알고리즘에 사용자의 소라 활동 내역, 위치(IP 주소 기반), 좋아요 누른 게시물, 챗GPT(ChatGPT) 대화 기록 등을 활용한다고 밝혔다. 다만 설정에서 이를 끌 수도 있다.

친구들끼리 영상을 공유하고 리믹스하는 기능도 있다. 개인정보 보호를 위해 다른 사람이 내 모습을 쓰려면 내 허락이 필요하고, 나중에 언제든 허락을 취소할 수 있다. 누군가 내 모습이 담긴 영상을 만들면 나도 그 영상의 ‘공동 소유자’가 돼서, 영상을 삭제하거나 더 이상 수정하지 못하게 막을 수 있다.

오픈AI는 과도한 스크롤, 중독성, 사회적 고립 같은 소셜미디어의 부작용을 예방하기 위한 안전장치를 마련했다고 밝혔다. 소라로 만든 모든 영상에는 워터마크가 찍히고, AI로 만들었다는 메타데이터가 붙는다. 청소년 계정에는 부모가 무한 스크롤을 제한하거나, 추천 알고리즘을 끄거나, 다이렉트 메시지를 관리할 수 있는 보호자 통제 기능이 제공된다.

당분간은 무료로 쓸 수 있다. 오픈AI는 “사람들이 자유롭게 기능을 탐색할 수 있도록” 무료로 제공하되, 나중에 이용자가 몰려 서버가 바쁠 때 추가 영상 생성에 요금을 받는 방안만 검토 중이라고 했다. 챗GPT 프로(ChatGPT Pro) 구독자는 초대 없이도 더 높은 품질의 ‘소라2 프로(Sora 2 Pro)’ 모델을 바로 쓸 수 있다.

소라2는 구글의 비오(Veo), 메타의 바이브(Vibes) 같은 경쟁 제품들이 버티고 있는 AI 영상 생성 시장에 뛰어들었다. 오픈AI는 앞으로 소라2를 API 형태로도 내놓아 다른 개발자들이 자기네 영상 편집 프로그램에 이 기술을 접목할 수 있게 할 계획이다. AI 영상 생성 기술이 창작자들의 새로운 표현 도구로 자리잡을 수 있을지, 소라2의 행보가 주목된다.

기사 공유하기

답글 남기기