Nuevas capacidades de Amazon SageMaker Inference con soporte para instancias G6e

Elena Digital López

En el campo de la inteligencia artificial, el avance tecnológico continúa a un ritmo imparable, ofreciendo soluciones cada vez más sofisticadas para satisfacer las demandas de desarrolladores y empresas. Un anuncio reciente destaca un importante paso adelante en este ámbito: la introducción de las instancias G6e en Amazon SageMaker, ahora equipadas con GPUs NVIDIA L40S Tensor Core. Este nuevo desarrollo promete ofrecer a las organizaciones una flexibilidad y potencia sin precedentes, permitiéndoles elegir configuraciones que van desde 1 hasta 8 instancias de GPU L40S, cada una con 48 GB de memoria de alta capacidad de datos (HBM). Esto supone un avance significativo para quienes buscan optimizar costes y al mismo tiempo mejorar su rendimiento en tareas de inferencia.

Comparadas con las ya existentes instancias G5 y G6, las nuevas G6e destacan por su capacidad de doblar la memoria GPU disponible. Esto habilita el despliegue de enormes modelos de lenguaje en FP16, permitiendo a los usuarios trabajar con modelos de hasta 90 mil millones de parámetros en un nodo con 8 GPUs. Además, las instancias ofrecen hasta 400 Gbps de rendimiento de red y hasta 384 GB de memoria GPU, lo que marca un cambio notable tanto en capacidad como en velocidad.

Las G6e han sido diseñadas específicamente para facilitar el ajuste fino y la implementación de grandes modelos de lenguaje y proyectos de código abierto. En comparación, han demostrado ser más eficaces en términos de costo y están mejor adaptadas para aplicaciones que requieren baja latencia y capacidad en tiempo real, como son los chatbots y modelos de visión e inteligencia artificial conversacional.

Pruebas de rendimiento, o benchmarks, han destacado que las instancias G6e.2xlarge pueden llegar a ofrecer hasta un 37% mejor latencia y 60% mejor rendimiento en comparación con las G5.2xlarge para el procesamiento de un modelo Llama 3.1 8B. Además, se observó que modelos como el LLama 3.2 11B Vision, que presentaron problemas de memoria en las G5.2xlarge, funcionaron excepcionalmente bien en las G6e.2xlarge.

El análisis de los costes también ha revelado que el uso de las G6e puede resultar en ahorros significativos, particularmente en el procesamiento de 1000 tokens de un modelo Llama 3.1 70b, subrayando las ventajas económicas que estas nuevas instancias pueden ofrecer.

En resumen, con mejoras significativas en memoria, rendimiento y coste, las instancias G6e son una opción poderosa para las organizaciones que buscan escalar y desplegar aplicaciones de inteligencia artificial. Al soportar modelos más grandes y longitudes de contexto más largas, a la vez que mantienen un alto nivel de procesamiento, estas instancias se posicionan como un recurso crucial para el desarrollo de aplicaciones de inteligencia artificial contemporáneas.

Scroll al inicio