아마존 웹 서비스(AWS)가 기계 학습(ML) 워크로드에 필요한 단기 GPU 용량 확보를 위한 새로운 접근 방식을 제시했다. GPU 수요가 공급을 초과하는 현 상황에서, AWS는 EC2 ML용 캐퍼시티 블록(Capacity Blocks for ML)과 SageMaker 훈련 계획(training plans)을 활용해 고객이 안정적으로 GPU 자원을 확보할 수 있도록 돕는다. 이번 발표는 GPU 자원 부족으로 인해 ML 개발 및 배포에 어려움을 겪는 기업들에게 중요한 의미를 갖는다. 기존 온디맨드 용량 예약(ODCR)은 장기적이고 예측 가능한 워크로드에 적합하며, 단기 GPU 인스턴스 확보에는 한계가 있었다. 또한, 온디맨드 인스턴스는 가용성이 불확실하고 스팟 인스턴스는 비용 효율적이지만 중단될 위험이 있어 단기적이고 탐색적인 워크로드에는 적합하지 않았다. AIDEN 편집팀은 AWS가 이러한 시장의 요구를 반영하여 단기 워크로드에 특화된 솔루션을 제공함으로써 고객의 ML 개발 효율성을 높이려는 시도로 분석한다. 이러한 솔루션은 로드 테스트, 모델 검증, 기간 한정 워크숍, 출시 전 추론 용량 준비 등 특정 시점에 집중적인 GPU 자원이 필요한 경우 유용하게 활용될 전망이다. 고객은 불확실한 GPU 가용성 문제에서 벗어나 필요한 시점에 안정적으로 자원을 확보함으로써 ML 프로젝트의 지연을 줄이고 비용 효율성을 개선할 수 있을 것으로 기대된다. 이는 전반적인 ML 개발 생태계의 생산성 향상에 기여할 것으로 보인다. 출처: https://aws.amazon.com/blogs/machine-learning/secure-short-term-gpu-capacity-for-ml-workloads-with-ec2-capacity-blocks-for-ml-and-sagemaker-training-plans/