Uno de los principales debates en torno a DeepSeek es que la empresa afirmó haber invertido solo 6 millones de dólares1 en su entrenamiento, una cantidad mucho menor en comparación con lo que suelen requerir otros modelos fundamentales. Esto ha suscitado inquietudes sobre la viabilidad a largo plazo de los actuales niveles de inversión en inteligencia artificial en la industria. No obstante, desde nuestra perspectiva, la reciente volatilidad del mercado tecnológico parece una reacción algo exagerada y creemos que el progreso gradual de DeepSeek representa un avance positivo para la innovación en IA en el futuro.
- DeepSeek se basa en código abierto, no se creó desde cero: El modelo de DeepSeek se construyó sobre código abierto, aprovechando la experiencia colectiva de otros modelos fundamentales dentro del ecosistema. Además, fue necesario una gran capacidad de cómputo e importantes inversiones para desarrollar esta experiencia colectiva. Es probable que la cifra de 6 millones de dólares mencionada para el entrenamiento no incluya la investigación y desarrollo previos de los modelos MoE, sino que se refiera únicamente a la última fase de entrenamiento.
- Otros competidores no se quedan atrás: DeepSeek es un modelo de destilación (es decir, una versión simplificada de un modelo más grande y complejo), algo que no es nuevo. Cada empresa que desarrolla modelos tiene su versión “mini” destilada de los modelos más grandes. El modelo de DeepSeek es más rentable desde la perspectiva del coste por token (unidad de inteligencia). Esto también ocurrió con el modelo o3 mini de OpenAI, que costó menos que el o1 mini; y esta fue la primera vez en que un modelo nuevo tenía un precio inferior al de su versión anterior. Llama, por ejemplo, también tiene un modelo destilado más pequeño que se puede ejecutar localmente. Esto refleja que la eficiencia en el entrenamiento ha sido una prioridad clave en todo el ecosistema de IA para reducir la curva de costes.
- DeepSeek podría tener acceso a GPUs avanzadas de NVIDIA: Tanto el CEO de Anthropic, Dario Amodei, como el CEO de Scale AI, Alexandr Wang, sugirieron que DeepSeek podría haberse entrenado con unas 50.000 GPUs avanzadas de NVIDIA. Sin embargo, DeepSeek no puede hablar sobre el uso de estas GPUs debido a las restricciones de exportación actuales. Por lo tanto, hay razones para ser escéptico respecto a la idea general de que DeepSeek se construyó con chips de NVIDIA de menor calidad.
- Los planes de gasto de los hyperscalers probablemente sigan siendo elevados: Es importante señalar que DeepSeek presentó su LLM de código abierto en diciembre. Por eso, los hyperscalers (grandes empresas tecnológicas) ya tenían conocimiento de DeepSeek, como lo demuestran sus recientes anuncios de gasto de capital, como los 80.000 millones de dólares de Microsoft y los 60.000 millones a 65.000 millones de dólares de Meta para 2025. Esperamos que la mayoría de las empresas repitan sus planes de inversión en IA cuando presenten sus resultados financieros en las próximas semanas, lo que debería ayudar a disipar algunas de las actuales inquietudes.
- Nuevos casos de uso y adopción más amplia: DeepSeek es un modelo de código abierto, por lo que sus avances y novedades ya se han compartido con la comunidad de desarrolladores de IA. Los modelos de IA más recientes siguen teniendo limitaciones en cuanto a razonamiento complejo y comprensión real, y requieren una infraestructura de IA significativa para sostener el rumbo de su desarrollo. Los chips semiconductores de próxima generación para IA están a la vuelta de la esquina, y los avances en IA están evolucionando con velocidad. Por tanto, si los modelos realmente resultan ser mucho más baratos de entrenar y ejecutar, esto debería acelerar la adopción de la IA y la demanda de inferencia.
- Tener en cuenta la paradoja de Jevons en la IA: La paradoja de Jevons es un principio económico que establece que, cuando la eficiencia aumenta, el consumo de recursos también lo hace de manera aún mayor. Al reducirse el coste, el modelo se vuelve más “atractivo”, tanto para los consumidores como para los sectores. Lo vimos cuando OpenAI lanzó su modelo ChatGPT Pro en 2024. La mejora en la eficiencia del modelo hizo que su uso aumentara mucho más de lo previsto, hasta el punto de que los costes operativos superaron los ingresos por suscripción, generando pérdidas para la empresa. Si el enfoque de DeepSeek produce modelos más eficientes, podríamos ver una demanda aún mayor de inferencia de IA en el futuro.