엔비디아 연구진, 1분 분량 720p 영상 생성 가능한 오픈소스 월드 모델 'SANA-WM' 공개
엔비디아(NVIDIA) 연구진이 26억 개의 파라미터를 기반으로 한 오픈소스 월드 모델 'SANA-WM'을 새롭게 선보였다. 이 모델은 최대 1분 길이의 720p 고해상도 영상을 생성할 수 있는 성능을 갖췄으며, 단순한 영상 생성을 넘어 물리적 환경의 역학을 이해하고 예측하는 데 중점을 두고 있다.
최근 영상 생성 AI 시장은 오픈AI의 소라(Sora)나 런웨이(Runway) 등 대형 기업들이 주도하고 있다. 이번 SANA-WM은 상대적으로 가벼운 파라미터 규모로도 고품질의 시뮬레이션 결과를 도출할 수 있다는 점에서 연구적 가치가 높다. 특히 오픈소스로 공개되어 학계와 개발자들이 물리 기반의 영상 생성 기술을 직접 실험하고 개선할 수 있는 토대를 마련했다는 점이 주목된다.
이번 모델의 등장은 영상 생성 AI가 단순한 시각적 모방을 넘어 물리적 법칙을 학습하는 방향으로 진화하고 있음을 보여준다. 향후 로봇 공학이나 자율주행 시뮬레이션 등 물리적 상호작용이 중요한 분야에서 SANA-WM과 같은 월드 모델이 실질적인 데이터 생성 도구로 활용될 가능성이 크다. 다만, 생성된 영상의 일관성과 물리적 정확도를 실제 산업 현장에서 어느 수준까지 보장할 수 있을지가 향후 과제가 될 전망이다.
출처: https://nvlabs.github.io/Sana/WM/
이 이슈의 흐름
- 런웨이, 제품 사진으로 광고 영상 자동 제작하는 '런웨이 에이전트' 공개 X/Twitter · 05/16
- 영상 생성 AI의 고질적 문제 해결, 객체 일관성 평가 벤치마크 'EntityBench' 공개 ArXiv · 05/15
- 엔비디아, AI 기반 에너지 전환 강조… 디지털 트윈으로 지속 가능한 미래 설계 X/Twitter · 05/16
- 유튜브, AI 딥페이크 탐지 도구 전면 확대… 성인 이용자 누구나 본인 사칭 영상 추적 The Verge · 05/16
- 엔비디아, Earth-2·PhysicsNeMo로 기상 예측 혁신… 우박 경보 시간 대폭 연장 X/Twitter · 05/16