AI All

트웰브랩스, 초거대 AI 영상언어 생성 ‘페가수스’ 공개.. “영상 콘텐츠 활용 새로운 장 열 것”

2023-11-09 2 min read

트웰브랩스, 초거대 AI 영상언어 생성 ‘페가수스’ 공개.. “영상 콘텐츠 활용 새로운 장 열 것”

Reading Time: 2 minutes

트웰브랩스(Twelve Labs)’가 초거대 AI 영상언어 생성 모델 ‘Pegasus-1’(이하, 페가수스)를 9일 정식 공개했다. 트웰브랩스는 주어진 영상으로부터 텍스트 등을 추출해내고 영상에 대한 질의 응답도 하는 등의 ‘영상이해 초거대 AI’를 개발하는 스타트업이다.

트웰브랩스는 멀티모달 신경망 기술을 바탕으로 글로벌 영상 AI 시장에서 독보적인 입지를 구축하고 있다. 기술력을 인정받아 글로벌 시장조사 기업 CB 인사이트로부터 ‘세계 100대 AI 기업’ 및 ‘세계 50대 생성 AI 스타트업’에 선정되었으며, 지난달 엔비디아, 인텔, 삼성넥스트, 한국투자파트너스 등으로부터 천만 달러(한화 약 140억 원) 규모의 전략적 투자를 유치한 바 있다.  엔비디아가 한국 스타트업에 투자한 것은 트웰브랩스가 최초다.

이번에 공개한 페가수스 모델은 트웰브랩스가 자체 개발한 800억 파라미터 규모의 초거대 영상언어 생성 모델 (Video Language Foundation Model)이다. 긴 영상을 사람처럼 정확하고 정교하게 텍스트로 요약하거나 ChatGPT와 대화하는 것처럼 영상에 관한 자유로운 질의응답이 가능하다. 트웰브랩스는 자체적으로 구축한 3억 개 이상, 세계 최대 규모의 영상-텍스트 페어로 구성된 데이터셋 중 약 10% 규모인 3,500만 개 분량을 이번 페가수스 모델 개발을 위해 사용했다고 밝혔다. 

트웰브랩스에 따르면 페가수스 모델은 현재까지 공개된 최고 성능의 영상언어모델 대비 최대 61%의 성능 우위를 보이며, 개발자용 API 형태로 상용화되어 언제든지 도입이 가능하다. 나아가 최근 오픈AI가 발표한 GPT4-V에서 볼 수 있었던 Text-To-Text 혹은 Image-To-Text를 넘어 긴 영상에 대한 요약, 영상 내 주제별 챕터 및 하이라이트 기능, 질의응답 기능 등 Video-To-Text를 가능하게 했다는 점에서 차별성을 보인다고 트웰브랩스는 덧붙였다.

트웰브랩스는 영상 콘텐츠의 이해와 활용에 있어 페가수스가 새로운 장을 열 것으로 기대하고 있다. 페가수스는 현재 트웰브랩스 홈페이지 내 대기자 명단 등록을 통해 순차적으로 사용 가능하며, 내년 1분기부터는 일반에 공개될 예정이다.

트웰브랩스는 스포츠, 미디어, 엔터테인먼트, 교육, 물리보안 등 다양한 산업의 글로벌 기업과 협업 관계를 구축하고 있다. 최근에는 세종시, 과학기술정보통신부, 한국인터넷진흥원과 함께 차세대 지능형 영상 관제 실증 사업을 진행하는 등 핵심 활용 사례들을 중심으로 국내로도 빠르게 사업 영역을 넓혀나가고 있다.

트웰브랩스 이재성 대표는 “2021년부터 인간과 유사한 수준의 영상이해 기술 구현을 위해 꾸준히 노력해왔다”며 “페가수스 모델이 물리보안 영상들에 대한 자동 리포트 생성, 스포츠 영상 하이라이트 생성 등 다양한 산업계에서 오랫동안 해결하지 못했던 문제들의 솔루션이 되길 바란다”고 밝혔다.

[영상 인공지능(AI) 스타트업 소식 전체보기]


투자자와 창업팀의 간극을 메울 수 있는 컨텐츠에 관심이 많은 초기 스타트업 투자자이자 와우테일(wowtale) 기자입니다. Linkedin Facebook투자실적
Leave a comment

댓글 남기기