El avance en la tecnología de generación aumentada por recuperación (RAG) ha alcanzado un salto significativo al integrar una amplia gama de datos heterogéneos en sus procesos. Este progreso permite que el sistema no solo trabaje con bases de datos textuales, sino también maneje distintos formatos como tablas y contenido multimodal, incluidas imágenes. Estos desarrollos buscan satisfacer la creciente demanda de las empresas de utilizar diversos tipos de datos para mejorar los sistemas de pregunta y respuesta.
Un ejemplo concreto de esta aplicación se puede ver en la asistencia técnica para ingenieros de campo. Un sistema innovador ha sido implementado para centralizar información sobre productos específicos y experiencia de campo de una empresa, integrando datos estructurados y no estructurados. Esto permite a los ingenieros acceder de forma rápida a información relevante, solucionar problemas de manera más eficiente y compartir conocimiento dentro de la organización. Además, en la industria del petróleo y gas, un chatbot ha sido diseñado para responder a preguntas complejas y ayudar en la toma de decisiones rápidas e informadas, al analizar datos de diferentes fuentes como registros sísmicos y muestras de núcleo.
En el sector financiero, la combinación de información estructurada, como precios de acciones, con datos no estructurados ofrece un análisis detallado que ayuda a identificar oportunidades y prever movimientos del mercado. De igual manera, en el ámbito del mantenimiento industrial, la integración de registros de mantenimiento, manuales de equipo e inspecciones visuales ha optimizado los calendarios de mantenimiento y mejorado las capacidades de diagnóstico de los técnicos.
El uso de routers en RAG se vuelve esencial para gestionar estas diversas fuentes de datos. Estos routers dirigen las consultas de los usuarios a las canalizaciones de procesamiento adecuadas, asegurando que cada tipo de dato sea procesado correctamente según el requerimiento. Esto se logra a través de la detección de intenciones del usuario, permitiendo un manejo eficaz de datos no estructurados, tablas estructuradas y contenido multimodal.
Además, los modelos avanzados ahora emplean la generación de código para mejorar el análisis de datos estructurados, como las grandes tablas que requieren tratamientos más complejos. En aplicaciones relacionadas con la producción de petróleo, por ejemplo, se solicita al modelo de lenguaje que genere código en Python o SQL para llevar a cabo el análisis necesario. Esta capacidad no solo optimiza el tiempo de respuesta, sino que también mitiga las alucinaciones potenciales en los modelos de lenguaje de gran tamaño.
La incorporación de capacidades multimodales en RAG representa un avance significativo. Este enfoque habilita la mezcla de datos textuales e imágenes, fortaleciendo sectores como el comercio electrónico, donde los usuarios pueden buscar productos usando textos e imágenes para encontrar coincidencias precisas. Las estrategias para lograr esto incluyen el uso de modelos de embebido multimodal o la generación de descripciones detalladas de imágenes mediante modelos de lenguaje avanzado, cada una con sus propios beneficios dependiendo del caso de uso.
El desarrollo continuo de esta tecnología desafía los límites existentes ofreciendo a las organizaciones herramientas avanzadas para integrar y sacar provecho de datos complejos y variados. La implementación efectiva de estas soluciones implica descomponer problemas en componentes modulares, maximizar la utilidad de los modelos fundacionales (FM) para cada módulo, desde la detección de intenciones hasta las capacidades multimodales que unen de manera fluida el texto y los datos visuales.