Mejores Prácticas Para La Generación y Revisión de Verdades Fundamentales en la Evaluación de IA Generativa Usando FMEval

Por Ángel Carrero

X (Twitter) Facebook Pinterest Email WhatsApp

Las aplicaciones de inteligencia artificial generativa están revolucionando la manera en que las empresas gestionan la productividad, al ampliar las capacidades de respuesta a preguntas. Estas herramientas son impulsadas por diferentes arquitecturas backend, como la Generación Aumentada por Recuperación (RAG), flujos de trabajo agentivos y modelos de lenguaje a gran escala (LLMs), o incluso combinaciones de estas tecnologías. Sin embargo, para que estos asistentes de inteligencia artificial sean confiables, es crucial establecer una sólida base de datos verídicos y un marco de evaluación eficaz.

En el contexto de la inteligencia artificial, los datos de referencia son fundamentales. Estos datos, también conocidos como fácticos, representan los resultados esperados en un determinado caso de uso del sistema que se está modelando. Al establecer un punto de comparación, estos datos permiten evaluar de manera precisa la calidad del sistema. La evaluación determinística de los asistentes de IA generativa, tomando como referencia los datos de uso, permite crear referencias personalizadas que pueden utilizarse para monitorizar el rendimiento a lo largo del tiempo. Estas referencias facilitan la comparación estadística entre múltiples asistentes en tareas similares y ayudan a cuantificar las mejoras asociadas a cambios en el asistente subyacente.

Los procesos de evaluación determinística, como las métricas de Conocimiento Factual y Precisión de QA de FMEval, se vinculan estrechamente a la generación y revisión de datos verídicos. Para asegurar que la aplicación de respuesta a preguntas sea medida con la máxima calidad, es esencial que la métrica de evaluación esté alineada con la generación de estos datos.

El artículo expone las mejores prácticas para emplear LLMs en la generación de datos fidedignos, enfocándose en evaluar asistentes de respuesta a preguntas mediante FMEval a nivel empresarial. FMEval, una suite de evaluación integral desarrollada por Amazon SageMaker Clarify, proporciona métricas estandarizadas para una evaluación en términos de calidad y responsabilidad. Para ampliar información sobre FMEval, se sugieren recursos adicionales en el blog de Amazon.

Siguiendo estas directrices, los equipos de datos pueden implementar una generación de datos verídicos de alta calidad para los casos de uso de respuesta a preguntas utilizando FMEval. Un método inicial para la creación de estos datos es la curación humana de un pequeño conjunto de preguntas y respuestas. Este conjunto debe tener un alto contenido de señalización y estar compuesto, preferiblemente, por expertos en la materia. Este paso inicial promueve una alineación de datos crucial para la evaluación, fomentando discusiones importantes entre los involucrados sobre cuáles preguntas son esenciales medir a largo plazo en el contexto empresarial.

Para ampliar la generación y curación de datos verídicos, una estrategia basada en prompts que utilice LLMs puede ser aplicada junto con un enfoque basado en riesgos. No obstante, es importante aclarar que los datos generados por LLMs no sustituyen la participación de expertos en la materia. Es fundamental que las partes interesadas determinen las preguntas clave para el negocio y alineen los datos verídicos con el valor empresarial, formando parte de un proceso humano en el bucle.

La generación de datos verídicos debe enfocarse en una representación mínima pero precisa de la respuesta verídica, incorporando una o más entidades del sujeto. Este enfoque es vital para asegurar que las métricas de evaluación se correspondan con las expectativas y estándares de la empresa, lo cual permite la evaluación adecuada de la calidad y responsabilidad de los asistentes a través de FMEval.

Este enfoque no solo proporciona un camino claro para las organizaciones en la construcción y evaluación de asistentes de inteligencia artificial generativa, sino que también garantiza que estas herramientas cumplen con los estándares necesarios para mantener la competitividad en un entorno empresarial dinámico y en constante evolución.