El doblaje de video o la localización de contenidos es el proceso de reemplazar el idioma original hablado en un video por otro idioma, sincronizando audio y video. Este método se ha convertido en una herramienta clave para superar barreras lingüísticas, mejorar la participación de la audiencia y expandir el alcance del mercado. Sin embargo, los métodos tradicionales de doblaje resultan costosos y requieren mucho tiempo, con un costo aproximado de $20 por minuto debido a la intervención de un revisor humano. Es en este contexto donde el doblaje automático mediante inteligencia artificial generativa juega un papel esencial, ofreciendo a los creadores una solución asequible y eficiente.
Presentamos una solución económica para el doblaje automático de video que utiliza Amazon Translate para la traducción inicial de los subtítulos del video y Amazon Bedrock para la post-edición, mejorando la calidad de la traducción. Amazon Translate es un servicio de traducción automática neuronal que proporciona traducciones rápidas, de alta calidad y asequibles. Por otro lado, Amazon Bedrock es un servicio de gestión completa que permite seleccionar modelos fundacionales de alto rendimiento de empresas líderes en inteligencia artificial mediante una API única. Además, ofrece una amplia gama de capacidades para construir aplicaciones de IA generativa con seguridad, privacidad y responsabilidad.
MagellanTV, una plataforma líder de transmisión de documentales, busca ampliar su presencia global mediante la internacionalización del contenido. Ante los desafíos del doblaje manual y los costos prohibitivos, MagellanTV acudió al socio del nivel Premier de AWS, Mission Cloud, en busca de una solución innovadora.
La solución propuesta por Mission Cloud se distingue por su detección idiomática y reemplazo automático, escalado de tiempo automático sin interrupciones y capacidades de procesamiento por lotes flexibles, lo que mejora la eficiencia y escalabilidad. El proceso comienza con la especificación de entradas por parte del usuario en una plantilla de Excel que se carga en un bucket de Amazon S3 designado, lanzando toda la tubería. Los resultados finales incluyen un archivo de video doblado y un archivo de subtítulos traducidos.
Para la traducción de los subtítulos del video, se utiliza Amazon Translate y para mejorar la calidad de la traducción y habilitar el escalado de tiempo automático para sincronizar audio y video, se emplea Amazon Bedrock. Amazon Augmented AI permite que los editores revisen el contenido, el cual luego se envía a Amazon Polly para generar voces sintéticas para el video. Además, se ha desarrollado un modelo para predecir la expresión de género del hablante y asignar una expresión de género que coincida con el orador.
En el backend, AWS Step Functions orquesta los pasos anteriores como una tubería, donde cada paso se ejecuta en AWS Lambda o AWS Batch. Gracias a la herramienta de infraestructura como código (IaC) AWS CloudFormation, la tubería se vuelve reutilizable para el doblaje de nuevos idiomas extranjeros.
Amazon Translate se eligió por su soporte para más de 75 idiomas, la buena precisión de la traducción validada por profesionales y sus beneficios únicos, como la capacidad de agregar glosarios terminológicos personalizados. Por su parte, Amazon Bedrock se usa para la post-edición, mejorando la calidad de los subtítulos del video después de la traducción inicial de Amazon Translate. La detección y reemplazo de idioms se ajusta especialmente en géneros con más conversación casual. Por ejemplo, para géneros científicos con menos idioms, se puede desactivar esta función. Para géneros más informales, esta función se activa.
El algoritmo de acortamiento de oraciones desarrollado con Amazon Bedrock mejora significativamente el rendimiento del doblaje de video y reduce el esfuerzo de revisión humana, resultando en ahorro de costos.
Esta nueva y en constante desarrollo pipeline ha supuesto un paso revolucionario para MagellanTV, resolviendo eficientemente algunos de los desafíos comunes en las empresas de medios y entretenimiento. La pipeline única desarrollada por Mission Cloud crea nuevas oportunidades para distribuir contenido a nivel mundial, ahorrando costos gracias al uso de IA generativa conjugada con soluciones brillantes para la detección y resolución de idioms, acortamiento de oraciones y personalización de terminología y tono.