영상 생성 AI의 기술적 난제로 꼽히는 다중 샷(Multi-shot) 간의 일관성을 정밀하게 평가할 수 있는 새로운 벤치마크 'EntityBench'가 등장했다. 이번에 공개된 벤치마크는 총 140개의 에피소드와 2,491개의 샷으로 구성되어 있으며, 영상 내 등장하는 인물과 객체, 그리고 배경 장소가 장면 전환 이후에도 동일하게 유지되는지를 객관적으로 측정한다. 연구진은 이와 함께 영상 생성 과정에서 이전 장면의 정보를 효과적으로 유지하는 메모리 증강 생성 시스템 'EntityMem'을 도입해 모델의 성능 개선 가능성을 제시했다. 그동안 영상 생성 모델은 단일 샷 내에서의 화질이나 움직임 구현에는 큰 진전을 보였으나, 여러 샷이 이어지는 긴 영상에서는 인물의 외형이 변하거나 객체가 사라지는 등 일관성 유지에 한계를 보여왔다. 기존 평가 방식은 주로 시각적 품질에 치중해 있어, 서사적 연결성과 개체 유지력을 검증하는 데는 부족함이 있었다. 이번 EntityBench는 생성 AI가 단순한 이미지 나열을 넘어, 논리적이고 연속적인 영상 콘텐츠를 제작하는 단계로 나아가기 위한 필수적인 검증 도구로 평가받는다. 이번 연구는 향후 영화 제작이나 광고 등 고도의 일관성이 요구되는 영상 산업 분야에서 생성 AI의 실무 적용 범위를 넓히는 데 기여할 전망이다. 특히 EntityMem과 같은 메모리 기반 접근 방식은 모델이 장기적인 맥락을 기억하게 함으로써, 생성 AI가 단순한 기술적 실험을 넘어 실제 콘텐츠 제작 도구로서의 신뢰성을 확보하는 데 중요한 이정표가 될 것으로 보인다. 향후 관련 모델들의 성능 경쟁은 단순 화질 개선을 넘어, 얼마나 정교하게 개체의 정체성을 보존하느냐에 집중될 것으로 예상된다. 출처: https://arxiv.org/abs/2605.15199v1