Mejorar la consistencia factual con debates de modelos de lenguaje grandes

Por Ángel Carrero

X (Twitter) Facebook Pinterest Email WhatsApp

Un innovador enfoque en el ámbito de la inteligencia artificial está posicionado para cambiar radicalmente la manera en que los modelos de lenguaje abordan la identificación de la verdad y mejoran la consistencia en sus respuestas. Este avance, denominado «debate de modelos de lenguaje grandes» (LLM Debates), permite a los científicos usar una metodología innovadora en la cual dos LLMs defienden posturas opuestas en un intercambio de tres rondas, creado para evaluar y perfeccionar la precisión factual.

El método resulta de gran utilidad en contextos donde la anotación manual de datos es un proceso costoso, lento y potencialmente contencioso. Aprovechando la generación de datos sintéticos, los debates LLM pueden no solo acelerar el alineamiento y la curación de verdades objetivas en conjuntos de datos no supervisados, sino también aportar al desarrollo de modelos de lenguaje más avanzados y robustos.

Este enfoque novedoso, derivado de uno de los proyectos destacados de la Conferencia Internacional sobre Aprendizaje Automático (ICML) 2024, hace uso del dataset «TofuEval». En cada debate, los modelos Claude 3 Sonnet de Anthropic y Mixtral 8X7B debaten sobre lados opuestos de un argumento, mientras que un tercer modelo, Mistral 7B, se encarga de determinar el argumento más convincente.

Implementados en el entorno Azure, estos debates se ejecutan a través de Amazon Sagemaker y Bedrock, proporcionando la infraestructura necesaria para manejar la complejidad del proceso. Amazon Bedrock emerge como una solución integral que facilita la experimentación, personalización y despliegue de capacidades de inteligencia artificial generativa.

Un significativo reto en este proceso es evaluar cuál de dos propuestas ofrece un resumen más consistente a partir de un conjunto de transcripciones, enfrentándose a errores tales como cambios sutiles de significado y errores de razonamiento. Para ello, se comparan cuatro enfoques distintos: Juez Ingenuo, Juez Experto, Consultoría LLM y Debates LLM.

Cada una de estas técnicas presenta diversos niveles de precisión factual, destacándose el método de debate con un 70% de precisión en los experimentos realizados. Por su parte, el método de Juez Ingenuo, que actúa como referencia, logra una precisión del 10%.

Los avances logrados con los LLM Debates no solo subrayan mejoras significativas en términos de precisión factual, sino que también sugieren un camino hacia la reducción de los costes y tiempos asociados con la anotación manual. Este enfoque emergente promete establecer un nuevo estándar en la generación de datos precisos y fiables para el entrenamiento de modelos de lenguaje avanzados, allende el camino para mejoras notables en aplicaciones de inteligencia artificial conversacional y orientada a tareas.