La inteligencia artificial sigue avanzando de forma acelerada y los PCs Copilot+ están en la cresta de esta ola tecnológica. La reciente incorporación de DeepSeek R1 en Azure AI Foundry trae consigo modelos optimizados especÃficamente para unidades de procesamiento neural (NPU), integradas de forma nativa en estos dispositivos. Esta evolución comienza con el Qualcomm Snapdragon X, y pronto seguirá el Intel Core Ultra 200V, entre otros. El primer modelo disponible en este marco será el DeepSeek-R1-Distill-Qwen-1.5B, accesible a través del AI Toolkit. Está previsto que las versiones de mayor capacidad, como las variantes de 7B y 14B, se lancen próximamente.
Estas innovaciones brindan a los desarrolladores la oportunidad de crear y desplegar aplicaciones de inteligencia artificial que operan de manera óptima en los dispositivos, aprovechando al máximo las capacidades de las NPUs en los PCs Copilot+. Dichas unidades ofrecen un motor altamente eficiente para la inferencia de modelos, lo que marca un cambio hacia un nuevo paradigma en el que la IA generativa no solo se activa cuando se solicita, sino que también proporciona servicios en un modo semi-continuo. Esto abre la puerta a que los desarrolladores puedan utilizar motores de razonamiento avanzados para crear experiencias de usuario proactivas y constantes.
La contribución de Phi Silica ha sido esencial en este desarrollo, logrando una inferencia altamente eficiente que se traduce en tiempos competitivos para el primer token y altas tasas de rendimiento, al mismo tiempo que minimiza el efecto en el consumo de baterÃa y recursos del dispositivo. Los modelos de DeepSeek optimizados para NPU integran aprendizajes y técnicas clave de este esfuerzo, como la división del modelo para equilibrar rendimiento y eficiencia, y el empleo de cuantización de baja profundidad de bits.
Los desarrolladores interesados ya pueden experimentar con DeepSeek en sus PCs Copilot+ descargando la extensión AI Toolkit para Visual Studio Code. Una vez instalada, tendrán acceso al catálogo de modelos DeepSeek en formato optimizado ONNX QDQ, facilitando el análisis de su rendimiento de forma directa. También existe la opción de probar el modelo original desde la nube a través de Azure Foundry.
En términos de optimización de silicio, el modelo Qwen 1.5B integra un tokenizador, una capa de incrustación, un proceso de contexto modelo, un modelo de iteración de tokens y una cabeza de lenguaje. Utiliza técnicas avanzadas de cuantización y se centra en optimizar operaciones que requieren alto acceso a memoria en la CPU, mientras las operaciones computacionalmente intensas se procesan en la NPU.
El modelo es extremadamente rápido y eficiente, alcanzando un tiempo de respuesta de 130 ms y una tasa de procesamiento de 16 tokens por segundo en respuestas cortas, gracias a un diseño de ventana deslizante que optimiza su actuación y un esquema de cuantización innovador que mejora significativamente la precisión en comparación con métodos previos.
Con estas nuevas capacitaciones, los usuarios podrán interactuar con modelos de inteligencia artificial de última generación de manera completamente local, revolucionando el desarrollo y uso de aplicaciones de IA en dispositivos personales.