Nueva IA puede escuchar mientras habla en tiempo real

Por MyR

X (Twitter) Facebook Pinterest Email WhatsApp

Investigadores en inteligencia artificial han desarrollado un nuevo modelo de lenguaje llamado Listening-While-Speaking Language Model (LSLM), capaz de escuchar y hablar simultáneamente, avanzando en las conversaciones de IA interactivas en tiempo real basadas en el habla.

El modelo, denominado Listening-While-Speaking Language Model (LSLM), permite la modelación en modo dúplex completo en modelos de lenguaje interactivo basados en el habla. Este avance promete revolucionar la forma en que interactuamos con las máquinas, haciendo que las conversaciones con ellas sean más naturales y receptivas.

Innovación en la Conversación IA

El LSLM utiliza un decodificador TTS (Text-to-Speech) basado en tokens solo para la generación de voz y un codificador de aprendizaje auto-supervisado en streaming para la entrada de audio en tiempo real. Este sistema puede detectar el turno de palabra en tiempo real y responder a las interrupciones, una característica clave de las conversaciones naturales.

En las pruebas realizadas, el modelo demostró ser robusto ante el ruido y mostró sensibilidad a instrucciones diversas. Mientras que el reciente modo avanzado de voz Her de OpenAI para ChatGPT nos acerca a conversaciones realistas con IA, el LSLM da un paso aún más grande al permitir que la IA procese el habla entrante mientras habla. Esto podría transformar significativamente las interacciones humano-IA, haciendo que las conversaciones con máquinas se sientan verdaderamente naturales y responsivas.

Características del LSLM

Modelado Dúplex Completo (FDM): El LSLM es un sistema de extremo a extremo equipado con canales tanto de escucha como de habla, lo que permite una comunicación en modo dúplex completo.
Generación de Voz: Utiliza un decodificador TTS basado en tokens para generar el habla.
Entrada de Audio en Tiempo Real: Emplea un codificador de aprendizaje auto-supervisado en streaming para procesar la entrada de audio.
Fusión de Canales: El modelo fusiona ambos canales para la generación autoregresiva y detecta el turno de palabra en tiempo real. Se exploraron tres estrategias de fusión (temprana, media y tardía), siendo la fusión media la que logró un equilibrio óptimo entre la generación de voz y la interacción en tiempo real.
Robustez y Sensibilidad: Las pruebas mostraron que el LSLM es robusto ante el ruido y sensible a instrucciones diversas, demostrando su capacidad para mantener una comunicación dúplex con un impacto mínimo en los sistemas existentes.

Aplicaciones y Futuro

Este avance en los modelos de lenguaje de IA tiene implicaciones significativas para el futuro de las interacciones humano-IA. La capacidad de la IA para escuchar y hablar simultáneamente permitirá una comunicación más fluida y natural, mejorando la experiencia del usuario en una variedad de contextos, desde asistentes virtuales hasta robots autónomos.

La tecnología LSLM podría integrarse en diversas plataformas y dispositivos, mejorando significativamente la interacción y respuesta de las máquinas en situaciones del mundo real. Este desarrollo no solo avanza en la tecnología de conversación IA, sino que también abre nuevas posibilidades para la aplicación de sistemas de diálogo interactivo en múltiples industrias.

Con la evolución continua de la IA y la implementación de tecnologías como el LSLM, nos acercamos cada vez más a un futuro donde las máquinas no solo responderán de manera más efectiva, sino que también participarán en conversaciones de una manera que se siente tan natural como hablar con otro ser humano.

Fuente: Noticias Inteligencia Artificial

X (Twitter) Facebook Pinterest Email WhatsApp

Nueva IA puede escuchar mientras habla en tiempo real

Innovación en la Conversación IA

Características del LSLM

Aplicaciones y Futuro

MyR

Últimos artículos

Retorno del Talento Valenciano: Catenon Impulsa un Programa Innovador para Expatriados

Reilumina y busca con inteligencia artificial en Microsoft Photos

Mitos Desmentidos: Expertos de EY Revelan la Verdad sobre Trabajar en Tecnología

Atos Ofrece Soluciones Tecnológicas para la Fase Final de la UEFA Nations League 2025

Recuperación contextual en Anthropic con bases de conocimiento de Amazon Bedrock

Artículos relacionados

Retorno del Talento Valenciano: Catenon Impulsa un Programa Innovador para Expatriados

Creación de una Solución Text-to-SQL para la Consistencia de Datos en IA Generativa Usando Amazon Nova

Reilumina y busca con inteligencia artificial en Microsoft Photos

Mitos Desmentidos: Expertos de EY Revelan la Verdad sobre Trabajar en Tecnología

Atos Ofrece Soluciones Tecnológicas para la Fase Final de la UEFA Nations League 2025

Recuperación contextual en Anthropic con bases de conocimiento de Amazon Bedrock

Desarrolla habilidades de seguridad en IA con el juego de código seguro de GitHub

Mejorando tu Experiencia en la tienda de Microsoft en Windows