Microsoft lanzó la nueva versión de su modelo de lenguaje pequeño, Phi-3 mini, diseñado para su ejecución en un ‘smartphone’ moderno y que ofrece un rendimiento similar a GPT-3.5 de OpenAI, en el campo de la Inteligencia Artificial.
Phi-3 Mini mide 3.800 millones de parámetros y está entrenado en un conjunto de datos que es más pequeño en relación con modelos de lenguaje grandes como GPT-4. Ahora está disponible en Azure, Hugging Face y Ollama. Microsoft planea lanzar Phi-3 Small (parámetros 7B) y Phi-3 Medium (parámetros 14B).
Cabe destacar, que los parámetros se refieren a cuántas instrucciones complejas puede comprender un modelo.
Lanzamientos anteriores de Microsoft
La compañía lanzó Phi-2 en diciembre, que funcionó tan bien como modelos más grandes como Llama 2. Microsoft explica que Phi-3 funciona mejor que la versión anterior y puede proporcionar respuestas cercanas a las de un modelo 10 veces más grande que él.
Eric Boyd, vicepresidente corporativo de Microsoft Azure AI Platform, mencionó que Phi-3 Mini es tan capaz como LLM como GPT-3.5 ”solo que en un factor de forma más pequeño”, en diálogo con The Verge.
En comparación con sus homólogos más grandes, los modelos pequeños de IA suelen ser más baratos de ejecutar y funcionan mejor en dispositivos personales como teléfonos y portátiles. El medio The Information informó a principios de este año que Microsoft estaba formando un equipo centrado específicamente en modelos de IA más livianos. Junto a Phi, la empresa también ha construido Orca-Math, un modelo centrado en la resolución de problemas matemáticos.
Hay competencia
Los competidores de Microsoft también tienen sus propios pequeños modelos de IA, la mayoría de los cuales se centran en tareas más sencillas como el resumen de documentos o la asistencia en codificación. Los Gemma 2B y 7B de Google son buenos para chatbots simples y trabajos relacionados con el idioma. Claude 3 Haiku de Anthropic puede leer artículos de investigación densos con gráficos y resumirlos rápidamente, mientras que el Llama 3 8B de Meta lanzado recientemente puede usarse para algunos chatbots y para asistencia de codificación.
Boyd dice que los desarrolladores entrenaron a Phi-3 con un ”plan de estudios”. Se inspiraron en cómo los niños aprendieron de los cuentos antes de dormir, los libros con palabras más simples y las estructuras de oraciones que hablan de temas más amplios.
”No hay suficientes libros para niños, así que tomamos una lista de más de 3.000 palabras y le pedimos a un LLM que hiciera ‘libros para niños’ para enseñar Phi”, dice Boyd.
Añadió que Phi-3 simplemente se basó en lo aprendido en iteraciones anteriores. Mientras que Phi-1 se centró en la codificación y Phi-2 comenzó a aprender a razonar, Phi-3 es mejor codificando y razonando. Si bien la familia de modelos Phi-3 tiene algunos conocimientos generales, no puede superar a un GPT-4 u otro LLM en amplitud: existe una gran diferencia en el tipo de respuestas que puede obtener de un LLM capacitado en Internet en comparación con un modelo más pequeño como Phi-3.
Fuente Ambito