DeepSeek-R1 es la gran sensación de la IA
No es el primer modelo chino que compite en el escenario global de la inteligencia artificial; otros modelos, como Qwen, ya habían demostrado estar muy cerca del state of the art en tareas de generación de lenguaje y razonamiento. No obstante, DeepSeek-R1 es una prueba clara y tangible de que la carrera de la IA no está únicamente en manos de EE.UU. y de que los modelos abiertos pueden ser tan competitivos como los comerciales.
La expectación no solo se debe a sus resultados, sino también a cómo ha sido desarrollado. DeepSeek, en lugar de basarse exclusivamente en el escalado de recursos computacionales, adopta un enfoque diferente, combinando aprendizaje por refuerzo, datos sintéticos y estrategias de prompt engineering. Esto le ha permitido, con una fracción de los recursos utilizados por otros modelos, alcanzar un rendimiento superior.
Los avances clave de DeepSeek-R1 son:
Aprendizaje autónomo a través de RL: Han conseguido entrenar un modelo inicial, DeepSeek-R1-Zero, capaz de aprender a razonar de forma autónoma mediante un proceso de aprendizaje por refuerzo (Reinforcement Learning). En lugar de depender de datos etiquetados y ejemplos humanos predefinidos, DeepSeek-R1-Zero aprende por prueba y error, ajustando su comportamiento en función de recompensas. Esta es la primera evidencia empírica de que el razonamiento en modelos de lenguaje puede incentivarse exclusivamente con RL, lo que podría acelerar significativamente la evolución de estos modelos.
Mejor alineación y reducción de confusión en múltiples idiomas: A partir de este modelo, han aplicado un proceso de instrucción mucho más ligero para generar DeepSeek-R1, lo que mejora la coherencia en situaciones de confusión multiidioma y lo alinea mejor con las expectativas del usuario.
Destilación para hacer modelos más accesibles sin perder rendimiento: Han conseguido destilar el modelo hasta tamaños más manejables sin sacrificar desempeño. La versión de 32B logra un 94.3% en MATH-500, superando a muchos modelos más grandes y demostrando que la destilación puede ser una alternativa viable al puro escalado de parámetros.
Estos avances no significan que las leyes de escalado hayan muerto. Las grandes inversiones en IA no han hecho más que empezar. Sin embargo, DeepSeek-R1 deja claro que incrementar el tamaño del modelo no es la única vía de progreso: profundizar en estrategias de razonamiento puede ofrecer resultados competitivos con menos volumen de datos y menor demanda de hardware.
Menos es más.
Paper original: https://arxiv.org/pdf/2501.12948