DeepSeek: El modelo de IA que desafía el alto coste del entrenamiento y revoluciona la eficiencia
DeepSeek es un modelo de inteligencia artificial que ha captado recientemente una gran atención debido a su eficiencia y rentabilidad. La empresa de IA con sede en China ha desarrollado este modelo de código abierto utilizando un enfoque de mixture-of-experts (MoE), donde se selecciona un subconjunto de ‘expertos’ especializados para cada tarea. El modelo ha sido entrenado a partir de otros modelos avanzados y presenta una arquitectura optimizada que utiliza únicamente los parámetros necesarios para cada entrada. Esto no solo reduce los costes computacionales, sino que también permite mantener un rendimiento similar al de otros grandes modelos de lenguaje (LLMs) en tareas simples.