Nueva IA puede escuchar mientras habla en tiempo real

Investigadores en inteligencia artificial han desarrollado un nuevo modelo de lenguaje llamado Listening-While-Speaking Language Model (LSLM), capaz de escuchar y hablar simultáneamente, avanzando en las conversaciones de IA interactivas en tiempo real basadas en el habla.

El modelo, denominado Listening-While-Speaking Language Model (LSLM), permite la modelación en modo dúplex completo en modelos de lenguaje interactivo basados en el habla. Este avance promete revolucionar la forma en que interactuamos con las máquinas, haciendo que las conversaciones con ellas sean más naturales y receptivas.

Innovación en la Conversación IA

El LSLM utiliza un decodificador TTS (Text-to-Speech) basado en tokens solo para la generación de voz y un codificador de aprendizaje auto-supervisado en streaming para la entrada de audio en tiempo real. Este sistema puede detectar el turno de palabra en tiempo real y responder a las interrupciones, una característica clave de las conversaciones naturales.

En las pruebas realizadas, el modelo demostró ser robusto ante el ruido y mostró sensibilidad a instrucciones diversas. Mientras que el reciente modo avanzado de voz Her de OpenAI para ChatGPT nos acerca a conversaciones realistas con IA, el LSLM da un paso aún más grande al permitir que la IA procese el habla entrante mientras habla. Esto podría transformar significativamente las interacciones humano-IA, haciendo que las conversaciones con máquinas se sientan verdaderamente naturales y responsivas.

Características del LSLM

  • Modelado Dúplex Completo (FDM): El LSLM es un sistema de extremo a extremo equipado con canales tanto de escucha como de habla, lo que permite una comunicación en modo dúplex completo.
  • Generación de Voz: Utiliza un decodificador TTS basado en tokens para generar el habla.
  • Entrada de Audio en Tiempo Real: Emplea un codificador de aprendizaje auto-supervisado en streaming para procesar la entrada de audio.
  • Fusión de Canales: El modelo fusiona ambos canales para la generación autoregresiva y detecta el turno de palabra en tiempo real. Se exploraron tres estrategias de fusión (temprana, media y tardía), siendo la fusión media la que logró un equilibrio óptimo entre la generación de voz y la interacción en tiempo real.
  • Robustez y Sensibilidad: Las pruebas mostraron que el LSLM es robusto ante el ruido y sensible a instrucciones diversas, demostrando su capacidad para mantener una comunicación dúplex con un impacto mínimo en los sistemas existentes.

Aplicaciones y Futuro

Este avance en los modelos de lenguaje de IA tiene implicaciones significativas para el futuro de las interacciones humano-IA. La capacidad de la IA para escuchar y hablar simultáneamente permitirá una comunicación más fluida y natural, mejorando la experiencia del usuario en una variedad de contextos, desde asistentes virtuales hasta robots autónomos.

La tecnología LSLM podría integrarse en diversas plataformas y dispositivos, mejorando significativamente la interacción y respuesta de las máquinas en situaciones del mundo real. Este desarrollo no solo avanza en la tecnología de conversación IA, sino que también abre nuevas posibilidades para la aplicación de sistemas de diálogo interactivo en múltiples industrias.

Con la evolución continua de la IA y la implementación de tecnologías como el LSLM, nos acercamos cada vez más a un futuro donde las máquinas no solo responderán de manera más efectiva, sino que también participarán en conversaciones de una manera que se siente tan natural como hablar con otro ser humano.

Fuente: Noticias Inteligencia Artificial

Scroll al inicio