Las empresas del sector financiero, junto con otros sectores altamente regulados, enfrentan serios desafíos en la gestión de seguridad y cumplimiento normativo. Una herramienta crucial en la protección de infraestructuras tecnológicas críticas es el sistema de Gestión de Accesos Privilegiados (PAM, por sus siglas en inglés). Estos sistemas no solo aseguran, sino que también gestionan y monitorean el uso de accesos privilegiados por parte de los administradores de sistemas, elementos esenciales para cumplir con las exigentes auditorías de seguridad.
Un componente vital de los sistemas PAM es el registro de pulsaciones de teclas y las grabaciones de vídeo de las sesiones de consola de los servidores. No obstante, la captura de pulsaciones se complica en ciertos entornos, como aquellos en los que predomina el uso de interfaces gráficas, dificultando la detección sistemática de actividades anómalas solo mediante grabaciones de vídeo. En una típica organización financiera, donde se generan más de 100,000 horas de grabaciones mensuales, aproximadamente 1,000 empleados tendrían que dedicarse a revisar estas grabaciones para la detección de actividades maliciosas, lo que resulta inviable.
La irrupción de servicios de inteligencia artificial (IA) ha transfigurado este panorama, posibilitando un análisis más eficiente y la extracción de información vital de los contenidos audiovisuales. A través de técnicas avanzadas de aprendizaje automático y visión por computadora, ahora es factible realizar funciones como detección de objetos, reconocimiento de actividades o análisis de texto y audio. En particular, el empleo de modelos de lenguaje de gran tamaño, como Claude 3 de Anthropic, está revolucionando la manera en la que se manejan estas grabaciones, permitiendo la conversión en transcripciones que pueden ser escrutadas para detectar cualquier anomalía potencial.
El método propuesto incluye un flujo de trabajo en dos etapas cruciales: la transcripción de los vídeos y el posterior análisis de seguridad de dichas transcripciones. En la primera fase, se extraen imágenes estáticas de cada segundo de grabación dado que los modelos actuales enfrentan dificultades para procesar datos visuales secuenciales de manera eficiente. Posteriormente, las transcripciones se analizan para evaluar el cumplimiento de las solicitudes de cambio y detectar posibles riesgos, como el acceso a datos sensibles o una potencial elevación de privilegios.
Esta fórmula, que aprovecha tecnologías como Amazon Bedrock y Claude 3, no solo optimiza la gestión del análisis audiovisual, sino que también permite a los equipos de seguridad consolidar su posición frente a amenazas. Con sistemas capaces de analizar grandes volúmenes de datos de manera eficiente, las organizaciones logran responder con más agilidad ante incidentes de seguridad, asegurando a su vez el cumplimiento normativo requerido.
El innovador enfoque presentado puede servir de inspiración para que diversos sectores adopten estrategias similares, adaptando estas tecnologías a necesidades específicas y optimizando sus procesos generales de seguridad.