Optimización del Autoescaleo para Inferencia de IA Generativa: Implementación del Caché de Contenedores en SageMaker Inference

Por Ángel Carrero

X (Twitter) Facebook Pinterest Email WhatsApp

En el reciente evento AWS re:Invent 2024, Amazon Web Services ha anunciado una actualización significativa para Amazon SageMaker, su plataforma de aprendizaje automático. La nueva funcionalidad, denominada Container Caching, promete revolucionar la eficiencia de escalado de los modelos de inteligencia artificial generativa durante las inferencias. Este avance responde a los crecientes desafíos que plantean la complejidad y el tamaño cada vez mayor de los modelos y sus contenedores, lo que tradicionalmente ha ralentizado los procesos de despliegue y escalado.

La introducción de Container Caching se traduce en una reducción notable del tiempo de latencia durante el escalado. Específicamente, se espera que la latencia disminuya hasta un 56% al escalar una copia de un modelo existente y un 30% al incorporar un modelo en una nueva instancia. Estos beneficios se extienden a varios contenedores de aprendizaje profundo ofrecidos por SageMaker, como los utilizados para Inferencia de Modelos Grandes, PyTorch, NVIDIA Triton y Hugging Face TGI, entre otros.

Optimizar los tiempos de inicio de los contenedores es crucial para asegurar que los usuarios finales no experimenten demoras durante los picos de inferencia. Anteriormente, el proceso de descarga de las imágenes de contenedores desde Amazon Elastic Container Registry podía extenderse durante varios minutos, un retraso desventajoso en situaciones de alta demanda. La nueva funcionalidad de pre-almacenamiento en caché de contenedores elimina la necesidad de estas descargas, acelerando los tiempos de escalado durante eventos de demanda intensa y mejorando la eficiencia en el uso de recursos computacionales, incluidos los recursos de GPU, que son costosos y limitados.

Las pruebas iniciales han mostrado resultados prometedores. Por ejemplo, desplegando el modelo Llama3.1 70B, los tiempos de escalado se redujeron considerablemente de 379 segundos a 166 segundos, lo que representa una mejora del 56%. Este avance permite gestionar de manera más efectiva y predecible los picos de tráfico, minimizando el impacto en la latencia para el usuario final a lo largo de toda la infraestructura de aprendizaje automático de AWS.

El Container Caching se habilita automáticamente para todos los contenedores compatibles de SageMaker, asegurando que los usuarios accedan a los entornos más recientes y optimizados de forma rápida. Esto no solo mejora la rapidez del escalado, sino que también potencialmente reduce costos, gracias a la disminución de tiempos de inactividad y a un uso más eficiente de los recursos. Con esta innovación, AWS reafirma su posición de liderazgo en el soporte a la inferencia de inteligencia artificial generativa, facilitando su implementación y operación dentro de la infraestructura de SageMaker.