Exploración de gráficos, diagramas, tablas y páginas escaneadas con indicaciones multimodales en Amazon Bedrock

Por Ángel Carrero

X (Twitter) Facebook Pinterest Email WhatsApp

Los modelos de lenguaje a gran escala han experimentado un progreso significativo, pasando de comprender únicamente texto a interpretar gráficos, diagramas, tablas e imágenes. En el epicentro de esta evolución se encuentra Amazon Bedrock, una plataforma que se ha establecido como esencial en el ámbito de la inteligencia artificial. Este servicio completamente gestionado ofrece integraciones con modelos avanzados de diversas compañías líderes, permitiendo no solo la extracción de texto, sino también la comprensión de información contenida en imágenes. Esto abre un abanico de posibilidades para aplicaciones generativas en multitud de campos.

Amazon Bedrock destaca por su API única, que ofrece un acceso integral a los modelos de compañías como AI21 Labs, Anthropic, Cohere y Meta. Este enfoque facilita la creación de aplicaciones generativas con un énfasis en seguridad, privacidad y responsabilidad. Una de sus características más notables es la capacidad de realizar tareas de clasificación y detección de objetos mediante técnicas de prompting de cero disparos, que permiten asignar tareas sin depender de ejemplos específicos de entrenamiento.

Además, Amazon Bedrock es capaz de leer y consultar gráficos complejos. Un ejemplo sorprendente de esta capacidad es su aplicación en la interpolación y extrapolación de datos de crecimiento poblacional, demostrando su habilidad para interpretar datos estáticos y anticipar tendencias futuras basándose en conjuntos de datos limitados.

El potencial de esta plataforma no se restringe solo a la interpretación de imágenes y gráficos. También permite la creación de listados inmobiliarios a partir de planos e imágenes de propiedades, así como la generación de recetas culinarias a partir de imágenes de platos. Este uso señala los retos de identificar ingredientes y técnicas culinarias basándose únicamente en reconocimiento visual, una tarea compleja que los modelos avanzados están empezando a abordar.

Asimismo, la plataforma se destaca en el análisis de mapas de precipitaciones, respondiendo a cuestiones sobre condiciones climáticas en ubicaciones específicas. Esto ilustra la habilidad de los modelos para trabajar con información aproximada, en un proceso similar al cognitivo humano.

Los progresos en reconocimiento de diagramas arquitectónicos muestran cómo los modelos pueden servir como asesores expertos, capaces de proporcionar respuestas técnicas detalladas y sugerencias relevantes sobre procesos complejos.

En suma, los modelos de fundación disponibles en Amazon Bedrock, como Claude 3 Sonnet de Anthropic y Llama 3.2 90B Vision de Meta, exhiben un impresionante rango de capacidades en el procesamiento de imágenes. Estas herramientas innovadoras ofrecen soluciones novedosas a problemas complejos, desde búsquedas en documentos escaneados hasta la conversión de información visual en datos estructurados. Los usuarios pueden comenzar a explorar estas capacidades mediante el entorno de pruebas chat de Amazon Bedrock, abriendo nuevas fronteras en la inteligencia artificial generativa.