Optimizando Modelos Multimodales en Amazon SageMaker JumpStart para Aplicaciones de Visión y Texto

Por Ángel Carrero

X (Twitter) Facebook Pinterest Email WhatsApp

En el dinámico panorama de la inteligencia artificial, los modelos generativos están emergiendo como una tecnología transformadora, permitiendo a los usuarios explorar nuevas fronteras de creatividad y resolución de problemas. Estos avanzados sistemas de IA han dejado atrás sus capacidades tradicionales exclusivamente basadas en texto y han incorporado funciones multimodales que amplían significativamente su alcance a una variedad de aplicaciones. Han ganado potencia, permitiendo desde la creación de imágenes sorprendentes hasta la generación de resúmenes atractivos, la respuesta a preguntas complejas e incluso la producción de código, todo con un alto nivel de precisión y coherencia. Esta integración de capacidades multimodales abre un mundo de posibilidades tanto para empresas como para individuos, revolucionando sectores como la creación de contenido, el análisis visual y el desarrollo de software.

Un ejemplo notable de esta evolución es la reciente implementación de los modelos de instrucción visual Meta Llama 3.2. Estos modelos están diseñados para responder a tareas visuales, y ya han mostrado un rendimiento impresionante en el exigente punto de referencia DocVQA. Este punto de referencia consiste en un conjunto de imágenes de documentos acompañadas de preguntas formuladas en lenguaje natural. Los modelos Meta Llama 3.2, sin ningún tipo de ajuste fino previo, lograron puntuaciones ANLS de 88.4 y 90.1, respectivamente. Sin embargo, tras un proceso de ajuste fino usando Amazon SageMaker JumpStart, se mejoraron significativamente, alcanzando puntuaciones de 91 y 92.4. Este ajuste fino demuestra cómo estos poderosos sistemas de IA multimodal pueden equiparse con habilidades especializadas para comprender y responder preguntas en lenguaje natural sobre información visual compleja basada en documentos.

Meta Llama 3.2, con sus modelos de 11B y 90B, es la primera colección de modelos Llama que incluye soporte para tareas de visión. Los desarrolladores han integrado una nueva arquitectura que incluye representaciones del codificador de imágenes dentro del modelo de lenguaje. Estos modelos están diseñados para ser más eficientes, reduciendo la latencia y mejorando su rendimiento en general, lo que los hace adecuados para una amplia gama de aplicaciones. Además, ofrecen soporte multilingüe mejorado en ocho idiomas: inglés, alemán, francés, italiano, portugués, hindi, español y tailandés, ampliando así su aplicabilidad global en el análisis de documentos e información visual.

El conjunto de datos DocVQA se ha consolidado como un punto de referencia esencial para evaluar el rendimiento de los modelos de IA multimodal en tareas de respuesta a preguntas visuales que involucran imágenes de tipo documento. Este recurso incluye una colección diversa de imágenes de documentos junto con preguntas que requieren tanto comprensión visual como textual. Mediante el ajuste fino de un modelo de IA generativa como Meta Llama 3.2 en este conjunto de datos, utilizando herramientas como Amazon SageMaker, se logra dotar al modelo con habilidades necesarias para superar estas complejas tareas, armonizando la capacidad de la inteligencia artificial para integrar y procesar diferentes tipos de datos de manera coherente y eficaz.

Este avance representa un paso significativo hacia la entrega de modelos de IA que no solo son más eficientes, sino también capaces de manejar mayores volúmenes de contexto, procesando hasta 128,000 tokens. Junto a otras mejoras, este desarrollo incrementa aún más el rendimiento general de estos modelos en aplicaciones prácticas de la vida real.