AWS 세이지메이커, 컨테이너 캐싱으로 AI 추론 확장 속도 2배 높인다
아마존웹서비스(AWS)가 2024년 AWS re:Invent에서 생성형 AI 모델의 추론 확장성을 극대화하는 컨테이너 캐싱 기능을 공개했다. 기존에는 세이지메이커(SageMaker)가 추론 엔드포인트를 확장할 때마다 아마존 ECR에서 컨테이너 이미지를 새로 가져와야 했으며, 이 과정에서 수 분의 시간이 소요되는 병목 현상이 발생했다. 이번에 도입된 컨테이너 캐싱은 새로운 인스턴스가 시작되는 시나리오에서도 이미지 다운로드 지연 시간을 제거하여 종단 간 지연 시간을 최대 2배까지 단축한다. 실제로 Llama3.1 70B 모델을 대상으로 테스트한 결과, 기존 379초가 걸리던 종단 간 확장 시간이 166초로 56% 줄어드는 성과를 보였다.
이 기술은 세이지메이커 추론 엔드포인트의 가속기 인스턴스 유형에서 지원되며, 사용자 지정 이미지를 포함한 모든 컨테이너 이미지와 호환된다. 과거에는 인스턴스 기반 캐싱 솔루션만으로는 새로운 인스턴스 생성 시 발생하는 지연을 완전히 해결하기 어려웠으나, 이번 업데이트를 통해 확장 이벤트 발생 시 즉각적인 대응이 가능해졌다. 이는 생성형 AI 모델의 크기와 복잡성이 증가함에 따라 필수적인 인프라 최적화 단계로 평가받는다.
국내 시장에서도 네이버, 카카오, SK텔레콤 등 대규모 언어 모델을 운영하는 기업들의 관심이 높다. 국내 클라우드 시장은 생성형 AI 도입 수요가 급증하며 성숙기에 진입했으며, 트래픽 변동에 유연하게 대응하는 기술이 기업 경쟁력의 핵심으로 떠올랐다. 특히 AI 기반 클라우드 관리 솔루션을 도입 중인 국내 기업들은 이번 세이지메이커의 기능 개선을 통해 서비스 출시 시간을 단축하고 운영 비용을 절감할 수 있을 것으로 보인다. 정부의 AI 기본법 논의와 개인정보보호위원회의 가이드라인 준수 등 규제 환경 속에서, 효율적인 인프라 관리는 국내 AI 기업들이 해외 시장으로 진출하는 데 필요한 기술적 토대가 될 전망이다.
결국 이번 기술 도입은 국내 AI 서비스의 시장 경쟁력을 강화하는 기폭제가 될 것으로 보인다. 트래픽 급증 시 사용자 경험 저하를 방지해야 하는 국내 플랫폼 기업들에게 세이지메이커의 확장 속도 개선은 실질적인 운영 효율을 높이는 선택지가 될 것이다. 향후 국내 클라우드 관리 서비스 시장에서 이러한 고도화된 인프라 최적화 기술을 누가 가장 빠르게 도입하고 자사 서비스에 녹여내느냐가 시장 점유율을 결정짓는 중요한 변수가 될 것으로 예상된다.
한국 시장에 주는 의미
AWS SageMaker AI의 컨테이너 캐싱 도입은 국내 AI 기업들이 생성형 AI 모델을 더욱 효율적으로 배포하고 운영할 수 있도록 지원하여, 서비스 확장성과 비용 효율성을 높이는 데 기여할 것이다. 국내 클라우드 시장은 생성형 AI 도입 수요 증가로 성숙기에 진입하고 있으며, 특히 AI 기반 클라우드 관리 솔루션의 도입이 증가하는 추세이다. 이러한 기술은 국내 기업들이 AI 서비스의 시장 출시 시간을 단축하고, 트래픽 변동에 유연하게 대응하여 경쟁력을 강화하는 데 중요한 역할을 할 것으로 예상된다.
이 이슈의 흐름
생성형 AI 모델은 대규모 언어 모델(LLM) 및 파운데이션 모델(FM)의 등장으로 인해 그 크기와 복잡성이 증가하면서, 효율적인 추론 및 확장에 대한 새로운 도전 과제를 제시했다. 기존에는 트래픽 급증 시 새로운 인스턴스에 컨테이너 이미지를 다운로드하는 과정에서 상당한 지연이 발생하여, 사용자 경험 저하 및 비용 증가로 이어졌다. AWS는 이러한 문제를 해결하기 위해 수년간 SageMaker AI의 확장 단계를 최적화해왔으며, 서브-분 단위 CloudWatch 지표를 통한 확장 감지 속도 6배 향상 및 기존 인스턴스 기반 캐싱 솔루션 도입 등의 노력을 기울였다. 이번 컨테이너 캐싱 도입은 새로운 인스턴스 시작 시 발생하는 컨테이너 이미지 다운로드 병목 현상을 제거함으로써, 생성형 AI 모델의 종단 간 확장 지연 시간을 크게 단축하는 중요한 진전이다.
- AWS, 아마존 베드록에 '교차 리전 추론' 도입…유럽 데이터 주권과 성능 동시 확보 AWS ML Blog · 06/09
- AWS 프로페셔널 서비스, 멀티 에이전트 시스템 도입으로 개발 기간 수개월에서 며칠로 단축 AWS ML Blog · 06/12
- AWS, 트레이니움 최적화 자동화하는 '뉴런 에이전틱 개발' 공개로 AI 개발 장벽 낮춘다 AWS ML Blog · 06/11
- 영국, AI로 주택 인허가 시간 절반 단축… 2029년 150만 호 건설 속도 DeepMind · 06/17
- 오픈AI, 웹 탐색 패러다임 전환 예고… 에이전트 기반 능동형 인터페이스 개발 X/Twitter · 06/13