En el evento AWS re:Invent 2024, Amazon sorprendió al público con una nueva y prometedora funcionalidad para sus puntos de inferencia en Amazon SageMaker. Ahora, estos puntos de inferencia pueden escalarse a cero instancias, una capacidad largamente esperada que busca transformar cómo los clientes manejan la inferencia de inteligencia artificial (IA) y el aprendizaje automático (ML) en la nube.
Anteriormente, se requería que los puntos de inferencia mantuvieran un mínimo de instancias activas para garantizar disponibilidad continua, incluso durante periodos de baja actividad o tráfico nulo. Esta actualización permite a los usuarios alinear el uso de recursos con sus necesidades y patrones de tráfico específicos, promoviendo un manejo más eficiente de los recursos y una posible reducción significativa de costos en periodos de baja demanda.
Esta función complementa las capacidades de autoescalado previamente existentes en SageMaker, proporcionando un control más granular sobre la asignación de recursos. La opción de escalar a cero es especialmente útil para ambientes de desarrollo y prueba, o en despliegues de producción con patrones de tráfico variables.
El escalado a cero es especialmente beneficioso en tres escenarios clave: patrones de tráfico predecibles, tráfico esporádico o variable, y ambientes de desarrollo y prueba. No obstante, es esencial evaluar cuidadosamente cuándo y cómo emplear esta funcionalidad, ya que no siempre será ventajoso en todas las situaciones.
Para activar el escalado a cero, es necesario utilizar componentes de inferencia, permitiendo a los usuarios establecer políticas de escalado personalizadas que incorporen esta capacidad. Además del ahorro de costos, se debe considerar la posibilidad de retrasos al reescalar hacia arriba, un aspecto que las empresas deben evaluar al considerar esta opción.
Empresas como Atlassian y iFood ya han mostrado interés en integrar esta novedad en sus operaciones, con miras a optimizar sus recursos de IA y ML. Con esta actualización, Amazon SageMaker sigue liderando el desarrollo de soluciones de ML más eficientes y costo-efectivas en la nube, dotando a las empresas de herramientas para ajustar sus operaciones tecnológicas con una precisión sin precedentes.