Mejorar la Precisión de Clasificación Mediante Transformadores de Oraciones Optimizados

Por Ángel Carrero

X (Twitter) Facebook Pinterest Email WhatsApp

Los transformadores de oraciones se han consolidado como una herramienta vital en el ámbito de la inteligencia artificial, especialmente en tareas de procesamiento del lenguaje natural (NLP). Estos modelos avanzados de aprendizaje profundo traducen frases en vectores de alta calidad de longitud fija, capturando su significado semántico para facilitar numerosas tareas como la clasificación de textos, la agrupación, la búsqueda semántica y la recuperación de información.

En el competitivo mundo del comercio electrónico, Amazon ha implementado transformadores de oraciones para optimizar la clasificación de su vasta gama de productos. Un reciente estudio examina el rendimiento de dos transformadores de oraciones al categorizar productos de Amazon: el conocido transformador público Paraphrase-MiniLM-L6-v2 y el modelo de lenguaje más robusto de Amazon, M5_ASIN_SMALL_V2.0. Este último, basado en la arquitectura BERT, ha sido específicamente ajustado con datos internos del catálogo de productos de Amazon, empleando información como títulos, puntajes destacados, descripciones y más. La hipótesis planteada en el estudio sugería que el modelo M5 superaría al primero debido a su entrenamiento con datos específicos de Amazon.

La investigación valida esta hipótesis a través de un experimento donde se afinan los transformadores de oraciones utilizando un conjunto de datos de productos de Amazon de 2020. Este conjunto de datos, que es de acceso público, incluye información variada como el nombre del producto, categoría, precio y especificaciones técnicas, entre otros. Luego de la afinación, se evalúa a los modelos en su capacidad de clasificar los productos en sus categorías respectivas, empleando para ello el clasificador XGBoost.

La clave para la mejora significativa de la precisión en la clasificación reside en el preprocesamiento riguroso, que normaliza los textos, determina la categoría principal del producto y selecciona los campos más importantes para una clasificación precisa. Un clasificador final se desarrolla entrenando el modelo Paraphrase-MiniLM-L6-v2 durante cinco épocas, optimizándolo para minimizar la pérdida.

Los resultados del estudio son contundentes. Utilizando el transformador estándar Paraphrase-MiniLM-L6-v2, se logró inicialmente un 78% de precisión en la clasificación de productos. Sin embargo, tras su afinación, la precisión experimentó un aumento notable hasta alcanzar un 94%. Por su parte, el modelo M5_ASIN_SMALL_V2.0, usando datos internos de Amazon, mostró una precisión inicial similar al primer transformador, pero logró elevarse a un 98% post afinación.

Estos resultados destacan la efectividad de ajustar los transformadores de oraciones con datos específicos de productos de Amazon, lo que mejora considerablemente la precisión en la clasificación de categorías de productos. En definitiva, los transformadores de oraciones afinados no solo optimizan la clasificación de productos, sino que también abren nuevas posibilidades para la aplicación de tecnologías de inteligencia artificial más precisas en el ámbito del comercio electrónico.