Microsoft anunció el lanzamiento de dos nuevos modelos de lenguaje pequeño (SLM) de la familia Phi: Phi-4-multimodal y Phi-4-mini, diseñados para abordar tareas complejas en procesamiento de texto, voz e imágenes. La compañía destacó que estos modelos combinan capacidad avanzada con eficiencia computacional, haciéndolos ideales para entornos con recursos limitados.
En un comunicado, Microsoft señaló que ambos modelos ya están disponibles en plataformas como Azure AI Foundry, Hugging Face y el catálogo de API de Nvidia. Según la empresa, estas herramientas están orientadas a desarrolladores que buscan integrar capacidades avanzadas de inteligencia artificial en aplicaciones que demanden alta precisión y bajo consumo de recursos.
El modelo Phi-4-multimodal, con 5.600 millones de parámetros, permite el procesamiento simultáneo de texto, voz e imágenes dentro de una única arquitectura. Microsoft explicó que este modelo utiliza técnicas avanzadas como Mixture of LoRAs, lo que mejora la integración entre modalidades y facilita interacciones más naturales y sensibles al contexto. En pruebas internas, superó a modelos especializados como WhisperV3 y SeamlessM4T-v2-Large en reconocimiento de voz y traducción automática, logrando un índice de error en palabras del 6,14%, uno de los más bajos registrados.
Además, Phi-4-multimodal demostró un rendimiento destacado en tareas visuales como el reconocimiento óptico de caracteres (OCR), razonamiento científico y comprensión de documentos. Aunque su rendimiento en tareas de respuesta a preguntas aún presenta una brecha frente a modelos como Gemini-2.0 Flash, Microsoft afirmó que trabaja en mejoras para futuras versiones. Este modelo también está optimizado para dispositivos con capacidades limitadas, ofreciendo baja latencia y alta eficiencia.
Por otro lado, Phi-4-mini es un modelo compacto con 3.800 millones de parámetros enfocado exclusivamente en tareas textuales. A pesar de su tamaño reducido, supera a modelos más grandes en áreas como razonamiento complejo, matemáticas y codificación. Este modelo puede procesar secuencias largas de hasta 128.000 tokens, lo que lo hace adecuado para análisis extensos y detallados.
Microsoft destacó que Phi-4-mini utiliza una arquitectura basada en transformadores tipo decoder-only y una técnica llamada Grouped Query Attention (GQA), que reduce el uso de hardware y acelera los tiempos de procesamiento. Esto lo convierte en una opción eficiente para aplicaciones móviles o sistemas con limitaciones computacionales.
Ambos modelos ya están siendo implementados en sectores como la fabricación y el comercio minorista. En el primero, se utilizan para detectar anomalías en procesos industriales; mientras que en el segundo, ayudan a mejorar la experiencia del cliente mediante análisis más precisos. Microsoft enfatizó que estas herramientas ofrecen flexibilidad para personalizarse según las necesidades específicas de cada industria.
La compañía aseguró que estos avances representan un paso significativo hacia la democratización de la inteligencia artificial multimodal. “Phi-4-multimodal abre nuevas posibilidades para crear aplicaciones innovadoras conscientes del contexto”, señaló Microsoft en su blog oficial. Por su parte, Phi-4-mini se posiciona como una solución eficiente para tareas textuales complejas sin sacrificar precisión ni velocidad.
Con este lanzamiento, Microsoft busca consolidarse como líder en el desarrollo de modelos compactos pero poderosos, capaces de competir con alternativas más grandes y costosas. La disponibilidad abierta bajo licencia MIT también refuerza su compromiso con la accesibilidad y la innovación colaborativa en el campo de la inteligencia artificial.