Amazon Web Services (AWS) ha dado un paso adelante en la utilización de inteligencia artificial para el análisis de datos multimodales al introducir dos enfoques innovadores que prometen transformar la manera en que interactuamos con información compleja. En los últimos avances presentados, AWS ha compartido cómo los modelos de inteligencia artificial pueden ser aplicados para obtener valiosa información a partir de textos, imágenes y gráficos en presentaciones.
El primer enfoque, denominado «embed primero, inferir después», se basa en el uso del modelo Amazon Titan Multimodal Embeddings. Este convierte las diapositivas de una presentación en embeddings vectoriales, que se almacenan en una base de datos. Cuando un usuario plantea una pregunta, el modelo Large Language-and-Vision Assistant (LLaVA 1.5-7b) genera respuestas basadas en las diapositivas más similares recuperadas de dicha base de datos. Este método aprovecha las capacidades de procesamiento para producir respuestas textuales con un grado significativo de precisión.
Por otro lado, el segundo enfoque propuesto, «inferir primero, embed después», utiliza el modelo Claude 3 Sonnet de Anthropic en Amazon Bedrock. Este modelo primeramente genera descripciones textuales para cada diapositiva, las cuales son luego transformadas en embeddings textuales y almacenadas. Posteriormente, de manera similar, Claude 3 Sonnet se utiliza para proporcionar respuestas a las preguntas, haciendo uso de las descripciones más relevantes.
Ambos métodos fueron evaluados con SlideVQA, un conjunto de datos diseñado para preguntas y respuestas visuales sobre documentos, mostrando que la precisión de las respuestas alcanzó hasta un 50% o menos, lo que subraya la complejidad del desafío de extraer información precisa de datos multimodales.
En cuanto a los costos, un factor crucial para la adopción de estas tecnologías, el análisis de AWS reveló que el método «embed primero, inferir después» es más económico, con un costo por pregunta de $0.00224, comparado con los $0.02108 del enfoque alternativo. Este diferencial es atribuible a los distintos costos asociados con el procesamiento y generación de tokens en la infraestructura de AWS.
La elección de un enfoque sobre otro depende significativamente de las características del dataset y las necesidades específicas. AWS sugiere que la combinación de búsquedas híbridas y el uso de filtros pueden mejorar la precisión de la información recuperada, lo que representa un área interesante para futuras investigaciones y desarrollos.
Con el objetivo de fomentar la experimentación y la personalización, AWS ha puesto a disposición el código de ambos enfoques en un repositorio de GitHub. Esto permite a desarrolladores y organizaciones probar y adaptar estas tecnologías a sus propias necesidades, impulsando a las empresas a aprovechar la inteligencia artificial para optimizar la gestión y análisis de información compleja.
Este avance de AWS encarna la creciente tendencia hacia la integración de inteligencia artificial para el procesamiento de datos multimodales, y subraya el potencial transformador de estas innovaciones en un mundo cada vez más dependiente de la tecnología para la toma de decisiones eficaces. La invitación de AWS a la comunidad para explorar y contribuir a mejorar estas herramientas representa un paso importante hacia un futuro donde la interacción con la información será más intuitiva y eficiente.