업스테이지, 中 모델 도용 의혹에 전면 공개 검증으로 맞대응


업스테이지가 중국 AI 모델 도용 의혹에 대해 강력히 반박하며 전면 공개 검증에 나섰다. 독자 AI 파운데이션 모델 프로젝트에 참여 중인 업스테이지의 ‘솔라 오픈 100B’를 둘러싼 프롬 스크래치(From Scratch) 논란이 업계를 뜨겁게 달구고 있다.

Upstage Solar %EA%B2%80%EC%A6%9D - 와우테일

논란은 1일 고석현 사이오닉AI 대표가 소셜미디어를 통해 업스테이지의 솔라 오픈 100B가 중국 지푸AI(ZhipuAI)의 ‘GLM-4.5-에어’ 모델에서 파생된 것으로 추정된다는 깃허브 분석 리포트를 공개하면서 시작됐다. 고 대표는 “국민 세금이 투입된 프로젝트에서 중국 모델을 복사해 미세 조정한 결과물로 추정되는 모델이 제출된 것은 상당히 큰 유감”이라고 지적했다.

고 대표가 제기한 의혹의 핵심은 두 모델의 레이어놈(LayerNorm) 파라미터 코사인 유사도가 평균 0.989(약 98.9%)에 달한다는 점이었다. 같은 모델 내 다른 레이어를 비교하면 0.37 수준인 반면, 두 모델의 같은 레이어 위치를 비교하면 거의 동일한 수치가 나타난다는 것이다. 또한 솔라 오픈의 구동 코드 일부에서 GLM 모델 전용 설정이 발견됐다는 점도 의혹으로 제기됐다.

김성훈 업스테이지 대표는 의혹 제기 2시간 만에 즉각 반박에 나섰다. 김 대표는 2일 서울 강남 오피스에서 업계 및 정부 관계자 70여 명을 대상으로 현장 설명회를 열고, 모델 학습 로그와 체크포인트 등 개발 관련 주요 데이터를 전면 공개했다. 현장은 유튜브 생중계를 통해 약 2천여 명이 동시 시청했다.

YouTube 동영상

업스테이지는 레이어놈 유사성을 근거로 타 모델의 가중치를 재사용했다는 주장이 통계적 착시에 불과하다고 설명했다. 해당 구간은 모델 전체의 약 0.0004%에 불과한 미세 영역으로, 오히려 솔라 오픈의 99.9996%가 타 모델과 완전히 상이함을 보여주는 역설적 지표라는 것이다.

또한 레이어놈 유사성 판단에 사용된 코사인 유사도 역시 적절한 비교 기준이 아니라고 강조했다. 코사인 유사도는 벡터의 방향만 비교하는 단순 지표로, 통상 언어모델들의 레이어놈은 비슷한 구조와 특성을 공유하기 때문에 독립적인 모델 간 유사도가 높은 값으로 나오는 것이 오히려 자연스러운 현상이라는 설명이다.

업스테이지는 더 정확한 비교를 위해 정규화를 통한 모델 특성을 반영하는 ‘피어슨 상관계수’로 재분석한 결과, 솔라 오픈과 타 모델 간 패턴이 전혀 일치하지 않는다고 증명했다. 이는 솔라 오픈이 타 모델의 가중치를 재사용하지 않은 독립적 모델임을 뒷받침하는 명확한 통계적 근거다.

솔라 오픈이 타 모델의 토크나이저를 그대로 사용했다는 주장 역시 사실과 다르다는 입장이다. 해당 모델의 어휘수는 약 15만 개인 반면, 솔라 오픈은 19만 6천 개이며, 실제 공통 어휘는 약 8만 개(41%)에 불과하다. 동일 계열 토크나이저라면 일반적으로 70% 이상 어휘가 중복되므로, 이는 솔라 오픈이 독자적으로 구축한 별개의 토크나이저임을 입증하는 정량적 근거라고 설명했다.

특정 모델과 구조·코드가 유사하다는 지적에 대해서도 기술적 현실과 전혀 맞지 않는 주장이라고 반박했다. 업스테이지를 포함한 주요 오픈소스 LLM 개발사들은 학습용 코드를 외부에 공개하지 않는다. 공개된 모델 카드나 구조 설명을 참고해 연구 방향의 아이디어를 얻는 것은 가능하지만, 접근 자체가 불가능한 학습 코드를 재사용해 모델을 개발한다는 주장은 기술적으로 성립할 수 없다는 것이 업계의 공통된 인식이다.

또한 특정 모델의 소스코드를 가져와 라이선스를 조작했다는 의혹도 사실과 다르다고 강조했다. 업스테이지는 더 많은 개발자들이 솔라 오픈을 쉽게 써볼 수 있도록 인퍼런스 코드를 공개했으며, 이 과정에서 서빙 호환성을 높이기 위해 허깅페이스의 공개 오픈소스 코드베이스 일부를 활용했다. 이는 누구나 사용할 수 있는 ‘아파치 2.0(Apache 2.0)’ 라이선스에 따라 통상적으로 사용되는 것으로, 해당 라이선스 출처를 정확히 표기하기 위해 문구를 업데이트한 것이라고 설명했다.

프롬 스크래치 여부를 입증하기 위해 실제 솔라 오픈 학습에 사용된 체크포인트(Checkpoint)와 실험 로그(WandB)를 현장에서 공개했다. 9월 초 학습 시작 단계부터 500~5000스텝마다 기록된 학습 로그에는 로스(Loss) 값이 떨어지고 성능이 올라가는 과정이 담겨 있어 프롬 스크래치를 입증하는 수단이 될 수 있다는 판단이다.

김 대표는 “의견을 주고받는 건강한 토론은 환영하나 이와 같은 허위 사실을 단정적으로 전달하는 행위는 AI 3강을 향해 최선을 다하고 있는 업스테이지와 정부 노력의 의미를 심각하게 훼손하는 것”이라며 “앞으로도 업스테이지는 투명한 기술 공개를 바탕으로 글로벌 최고 수준의 기술력을 증명하고 국내 AI 생태계 확장에 힘쓰겠다”고 밝혔다.

새해 벽두부터 세금이 지원되는 AI 파운데이션 모델의 도용 문제는 업계에 비상한 관심을 일으켰다. 국내 최초 오픈소스 LLM 개발을 총괄한 경험이 있는 Kevin Ko가 깃허브에 두 모델이 다르다는 의견을 표명하는 등 다양한 의견이 나오고 있는 상황이다. 

처음 의혹을 제기했던 고석현 대표는 링크드인에 올린 추가 글을 통해 “다만 레딧 등 여러 매체를 통해 이번 이슈가 제기된 이후, 몇 시간전에 공개된 solar의 모델카드에서 라이선스가 학습 코드 및 설정 파일의 경우 별도의 라이선스가 추가된 것을 확인할 수 있으며 일부 코드에서 ZhipuAI 저작권을 명시하고 있습니다. 저희 내부 분석 및 다른 분들의 분석 글도 종합해보면, 이번 solar 모델이 GLM 모델의 학습코드 대부분을 그대로 가져와서 사용한 것은 사실로 판단됩니다. 물론, AI 연구 과정에서 이러한 접근 자체는 드문 일은 아니라 할 수 있습니다. 그러나 이런 경우라면, 처음부터 출처를 투명하게 공개하는 것이 보통입니다. 만약 그랬다면 불필요한 오해의 소지가 없지 않았을까 하는 아쉬움이 남는다”고 밝혔다. 

새해 벽두부터 큰 논란이 있었지만 의혹을 제기한 측과 반박한 측 모두 건강한 토론을 강조하고 있다는 점은 고무적이다. 미국과 중국이 AI 분야에서 크게 앞서 가는 가운데, 한국이 AI 3강을 선언하고 열심히 쫓아가는 상황에서 나온 이번 논란이 국내 AI 산업 발전의 촉매제가 되길 기대한다. 

와우테일은 이번 논란의 진행상황을 주시하며 후속 보도를 이어갈 예정이다.

기사 공유하기

답글 남기기