엔비디아(NVIDIA) 연구진이 26억 개의 파라미터를 기반으로 한 오픈소스 월드 모델 'SANA-WM'을 새롭게 선보였다. 이 모델은 최대 1분 길이의 720p 고해상도 영상을 생성할 수 있는 성능을 갖췄으며, 단순한 영상 생성을 넘어 물리적 환경의 역학을 이해하고 예측하는 데 중점을 두고 있다. 최근 영상 생성 AI 시장은 오픈AI의 소라(Sora)나 런웨이(Runway) 등 대형 기업들이 주도하고 있다. 이번 SANA-WM은 상대적으로 가벼운 파라미터 규모로도 고품질의 시뮬레이션 결과를 도출할 수 있다는 점에서 연구적 가치가 높다. 특히 오픈소스로 공개되어 학계와 개발자들이 물리 기반의 영상 생성 기술을 직접 실험하고 개선할 수 있는 토대를 마련했다는 점이 주목된다. 이번 모델의 등장은 영상 생성 AI가 단순한 시각적 모방을 넘어 물리적 법칙을 학습하는 방향으로 진화하고 있음을 보여준다. 향후 로봇 공학이나 자율주행 시뮬레이션 등 물리적 상호작용이 중요한 분야에서 SANA-WM과 같은 월드 모델이 실질적인 데이터 생성 도구로 활용될 가능성이 크다. 다만, 생성된 영상의 일관성과 물리적 정확도를 실제 산업 현장에서 어느 수준까지 보장할 수 있을지가 향후 과제가 될 전망이다. 출처: https://nvlabs.github.io/Sana/WM/