La irrupción de DeepSeek V4-Pro-Max ha sido un terremoto en la IA generativa. En apenas unos años hemos pasado de un dominio casi absoluto de los modelos estadounidenses, con OpenAI, Google y Anthropic al frente, a un escenario en el que una empresa china plantea una alternativa de código abierto que compite de tú a tú con los grandes. Estados Unidos se aseguró pronto su ventaja bloqueando a China el acceso a chips avanzados de IA y a la maquinaria necesaria para fabricarlos, lo que garantizó su liderazgo entre 2021 y 2024. Pero a finales de 2024 empezó la ofensiva china y, a comienzos de 2025, apareció un nuevo jugador: DeepSeek.
Desde la primera versión, DeepSeek ya puso nerviosos a gigantes como NVIDIA, porque demostró que se podían lograr resultados comparables a OpenAI usando muchísimo menos hardware y tiempo de entrenamiento. Si el “reinado” de ChatGPT se justificaba en parte por el músculo de cómputo que tenía detrás, el mensaje fue claro: China estaba consiguiendo algo muy similar gastando bastante menos. Para un fabricante de GPU como NVIDIA, ver que una IA puntera se entrenaba con muchas menos tarjetas gráficas fue un jarro de agua fría. Con DeepSeek V4-Pro y, sobre todo, la variante V4-Pro-Max, la apuesta se lleva al límite: hablamos del modelo de IA de pesos abiertos más avanzado del mundo en su categoría, con una arquitectura muy particular y un foco brutal en razonamiento, agentes y contexto largo.
Origen de DeepSeek V4 Pro Max y contexto competitivo
DeepSeek no nace de la nada. Antes de V4 ya habíamos visto varias generaciones que fueron acercándose poco a poco al rendimiento de modelos como GPT, Claude o Gemini. Durante 2025, la serie DeepSeek 3.2 (incluyendo variantes como Thinking y Speciale) se centró en mejorar el razonamiento y las capacidades agénticas. Estas versiones ya se medían de cerca con Anthropic, Google y OpenAI en múltiples benchmarks, pero la compañía china tenía claro el siguiente paso: un modelo V4 diseñado explícitamente para superar a ChatGPT, Claude y Gemini en tareas clave.
El resultado de ese esfuerzo es la familia DeepSeek V4, que no es un único modelo sino dos: V4-Pro y V4-Flash. Ambos comparten filosofía de diseño, contexto de 1 millón de tokens y licencia MIT de pesos abiertos, pero tienen perfiles muy distintos: V4-Pro va a por el máximo rendimiento y razonamiento profundo; V4-Flash busca eficiencia y velocidad con una calidad sorprendentemente cercana. En este ecosistema, DeepSeek V4-Pro-Max se presenta como la variante de razonamiento máximo de V4-Pro, empujando el modelo hasta su capacidad más alta para tareas complejas, competitivas y agénticas.
La rivalidad ya no es solo con OpenAI o Google. Para 2026, otros modelos de frontera de código abierto y cerrado se han sumado a la carrera, como Kimi K 2.6 o GLM-5.1, que se reparten los primeros puestos en muchos benchmarks. Aun así, los datos disponibles señalan que DeepSeek V4-Pro-Max se ha convertido en el mejor modelo de IA generativa open source en varios frentes, sobre todo en programación competitiva, razonamiento avanzado y tareas de agentes de alto nivel.

Especificaciones técnicas de DeepSeek V4-Pro y V4-Pro-Max
En la base de DeepSeek V4-Pro encontramos una arquitectura Mixture of Experts (MoE) combinada con mecanismos de atención híbrida y una innovación propia llamada Manifold-Constrained Hyper-Connections (mHC). La idea es clara: escalar a billones de parámetros sin que el modelo se vuelva inestable o prohibitivo en coste de cómputo, a la vez que se mantiene una ventana de contexto de 1.000.000 de tokens utilizable en la práctica.
DeepSeek-V4-Pro se define así:
- Arquitectura: Mixture of Experts (MoE) + atención híbrida (Compressed Sparse Attention + Heavily Compressed Attention) + conexiones mHC.
- Parámetros totales: 1,6 billones.
- Parámetros activos por token: 49.000 millones, lo que permite un buen equilibrio entre capacidad y eficiencia.
- Longitud de contexto: 1.000.000 de tokens por defecto, con hasta 384.000 tokens de salida.
- Datos de preentrenamiento: más de 32 billones de tokens variados.
- Licencia: MIT, con pesos completamente abiertos y autoalojables.
- Precisión numérica: mezcla de FP4 para los expertos y FP8 para el resto de pesos, priorizando eficiencia de memoria y cómputo.
- Tamaño de descarga: alrededor de 865 GB para los pesos completos.
- Lanzamiento: vista previa publicada el 24 de abril de 2026.
La variante DeepSeek V4-Pro-Max no cambia el número de parámetros totales, sino que habilita el modo de razonamiento más agresivo y profundo sobre la base de V4-Pro. Es la configuración que la propia compañía indica como tope de capacidad de razonamiento, especialmente cuando se combina con el modo Think Max. En benchmarks internos y comparativas en Hugging Face, esta variante se coloca como el modelo abierto más potente en múltiples pruebas, por delante de otros pesos abiertos y muy cerca de modelos propietarios de última generación.
Este enfoque hace que DeepSeek V4-Pro y V4-Pro-Max se conviertan en opciones ideales para tareas de programación compleja, matemáticas avanzadas, agentes autónomos y análisis intensivo de documentos, donde el coste por token se justifica por la reducción de errores y la calidad de las respuestas.

DeepSeek V4-Flash: hermano ligero pero sorprendentemente capaz
Junto a V4-Pro, DeepSeek ha lanzado V4-Flash, que podríamos describir como el “hermano práctico” de la familia. Comparte la misma arquitectura de alto nivel, licencia y ventana de contexto, pero recorta de forma agresiva los parámetros totales y activos para ganar velocidad y reducir costes sin caer en una degradación dramática de calidad.
Las especificaciones clave de DeepSeek-V4-Flash son:
- Parámetros totales: 284.000 millones.
- Parámetros activos por token: 13.000 millones, casi una cuarta parte de los de V4-Pro.
- Longitud de contexto: 1.000.000 de tokens, igual que Pro.
- Precisión: misma combinación FP4 + FP8.
- Tamaño de descarga: unos 160 GB, mucho más manejable para despliegues locales.
- Precio en API: 0,14 $ por millón de tokens de entrada y 0,28 $ por millón de tokens de salida.
Lo interesante es que, pese a tener casi tres veces menos parámetros totales que DeepSeek 3.2, V4-Flash la supera en precisión y, en muchas pruebas, se queda tan solo a un 2-3 % por detrás de V4-Pro. Eso sí, en algunas tareas concretas la diferencia es notable: en pruebas como FACTS Parametric (EM) o SimpleQA-Verified (EM), Pro dobla o más del doble los resultados de Flash (por ejemplo, de 27,1 % a 62,6 % en FACTS Parametric, o de 28,3 % a 55,2 % en SimpleQA-Verified). Esa brecha indica que Flash no es el modelo ideal cuando la precisión factual extrema es crítica, pero encaja de maravilla en resúmenes, chat general y generación de código de uso cotidiano.
Para infraestructuras de terceros como Clore.ai, la lectura es clara: V4-Flash es el punto dulce para la mayoría de usuarios, porque cabe en 1× A100 80GB o 2× RTX 4090 cuantizado y ofrece una relación precio/rendimiento excelente. DeepSeek V4-Pro, por su parte, se reserva para despliegues muy serios con hardware tipo 8× H100, 4× H200 o 8× B200 con NVLink, donde se exprime al máximo la atención híbrida.
Arquitectura híbrida y optimizaciones internas: CSA, HCA y mHC
El gran salto de la serie V4 respecto a V3.2 está en la gestión del contexto largo y la estabilidad del entrenamiento. Los transformers clásicos sufren cuando el contexto crece: el coste en FLOPs y la memoria de la caché KV se disparan. DeepSeek responde combinando tres piezas clave: Compressed Sparse Attention (CSA), Heavily Compressed Attention (HCA) y las Manifold-Constrained Hyper-Connections (mHC).
La Compressed Sparse Attention aplica una compresión por token sobre los pares clave-valor para contextos moderadamente lejanos. En lugar de atender absolutamente a todos los tokens previos, el modelo trabaja con representaciones comprimidas y esparsas, manteniendo la fidelidad necesaria pero reduciendo de manera drástica los requisitos de memoria y cómputo. La Heavily Compressed Attention, por su parte, va un paso más allá: realiza una compresión mucho más agresiva para tokens muy distantes, almacenando resúmenes compactos que permiten al modelo “acordarse” de lo relevante sin cargar con todo el peso del historial.
El efecto combinado es contundente: en un contexto de 1 millón de tokens, DeepSeek V4-Pro reduce los FLOPs de inferencia al 27 % de lo que necesitaba V3.2 y recorta la memoria de caché KV hasta el 10 % respecto al modelo anterior. Esto no es solo teoría, se nota a la hora de hacer prefill de documentos enormes o de procesar repositorios de código completos sin que la GPU se ahogue.
Las Manifold-Constrained Hyper-Connections (mHC) sustituyen las conexiones residuales estándar típicas de los transformers. Al restringir las actualizaciones de pesos a una variedad riemanniana, mHC mejora la propagación de señales a través de cientos de capas y permite que un modelo de 1,6 billones de parámetros se entrene de manera estable. Se trata de asegurar que la profundidad extrema del modelo no derive en problemas de desvanecimiento o explosión del gradiente.
Para rematar, DeepSeek introduce el optimizador Muon (Momentum + Ortogonalización) como sustituto de AdamW. Muon ortogonaliza las actualizaciones de gradiente entre pasos consecutivos, lo que elimina redundancias, acelera la convergencia y aporta estabilidad cuando se trabaja con más de 32 billones de tokens de preentrenamiento. Es una pieza clave para cuadrar el círculo de “muchos parámetros, mucho contexto y entrenamiento realista en tiempo y hardware”.
Modos de razonamiento: Non-think, Think High y Think Max
Una de las características diferenciales de DeepSeek V4-Pro y V4-Pro-Max es que incorporan tres modos de razonamiento configurables vía API, orientados a ajustar el esfuerzo de “chain-of-thought” según la tarea. No todas las consultas necesitan un razonamiento elaborado y, si lo activas siempre, disparas la factura de tokens sin necesidad.
Los tres modos son:
- Non-think: respuesta directa, sin cadena de pensamiento explícita. En la API, se configura con thinking: {type: «disabled»}. Es el modo estándar para chat ligero, resúmenes rápidos o generación de texto donde prima la velocidad.
- Think High: razonamiento estructurado con presupuesto de tokens definido, por ejemplo thinking: {type: «enabled», budget_tokens: N}. Se usa cuando queremos una explicación sólida sin llegar al extremo.
- Think Max: razonamiento exhaustivo y extendido, asociado a un prompt de sistema especial y la configuración thinking: {type: «max»}. Está pensado para casos con contexto muy extenso (384K+ tokens efectivos) y tareas de máxima complejidad.
Los benchmarks oficiales muestran saltos muy grandes entre Non-think y Think Max. Por ejemplo, en LiveCodeBench V4-Pro pasa de un 56,8 % a un 93,5 %, en GPQA Diamond de un 72,9 % a un 90,1 %, y en HMMT 2026 Feb se dispara del 31,7 % al 95,2 %. En programación competitiva, su Codeforces Rating alcanza los 3206 puntos en modo máximo de razonamiento, lo que lo sitúa entre los mejores participantes humanos y lo convierte, según los datos del paper, en el primer modelo abierto capaz de igualar a GPT-5.4 en esa tarea concreta.
Este diseño hace que DeepSeek V4-Pro-Max sea especialmente atractivo para agentes de programación, diseño de algoritmos complejos, resolución de problemas STEM avanzados y evaluación empresarial, donde podemos cambiar dinámicamente al modo Think Max solo cuando la tarea lo amerita, manteniendo Non-think o Think High para el resto.
Rendimiento en benchmarks, razonamiento y agentes
En cuanto a capacidades puras, DeepSeek V4-Pro y, por extensión, V4-Pro-Max, destacan especialmente en programación, razonamiento de alto nivel y tareas agénticas complejas. En programación, el modelo marca 93,5 % en LiveCodeBench (Pass@1), 80,6 % de resolución en SWE-bench Verified, 55,4 % en SWE-bench Pro y 76,2 % en SWE-bench Multilingual. Además, se integra de forma nativa con sistemas como Claude Code, OpenClaw y OpenCode, reforzando su orientación a agentes que escriben, ejecutan y corrigen código.
En razonamiento y conocimiento, los números acompañan: MMLU-Pro 87,5 % en Think Max, GPQA Diamond 90,1 %, HLE 37,7 % y SimpleQA-Verified 57,9 %. En el caso de MMMLU (multilingüe), la base del modelo alcanza alrededor de un 90,3 %, lo que se traduce en buen dominio de múltiples idiomas, incluido el español. La combinación de estos resultados sitúa a V4-Pro en la parte alta de la tabla de modelos abiertos, muy cerca de los grandes modelos cerrados.
En contexto largo, DeepSeek V4 brilla especialmente: 83,5 % en MRCR 1M (needle in a haystack), donde supera a Gemini 3.1-Pro, y 62,0 % en CorpusQA 1M en modo Think Max, con una de las mejores puntuaciones fuera del ecosistema Claude. En LongBench-V2, la base se mueve en torno al 51,5 %, consolidando la idea de que el modelo está optimizado para leer, retener y razonar sobre enormes volúmenes de texto.
Las tareas agénticas son otro de los puntos fuertes: 67,9 % en Terminal Bench 2.0 (modo Think Max), 80,6 % en SWE-bench Verified, 73,6 % en MCPAtlas Public, 83,4 % en BrowseComp y 51,8 % en Toolathlon, siempre en los modos de razonamiento más altos. Estos datos avalan que V4-Pro-Max es un candidato excelente para agentes autónomos que encadenan múltiples herramientas, comandos de terminal y llamadas a APIs en flujos de trabajo de varios pasos.
Comparativa V4-Pro vs V4-Flash y estrategia de uso
DeepSeek no plantea la decisión como “usar V4 o no”, sino como elegir correctamente entre V4-Pro y V4-Flash para cada tipo de carga de trabajo. De hecho, ambos modelos comparten superficie de API, compatibilidad con el formato Chat Completions de OpenAI y el protocolo de mensajes de Anthropic, así como los modos de razonamiento. Cambiar de uno a otro suele ser tan simple como modificar el ID del modelo en la llamada.
La propia compañía enmarca sus roles de esta manera:
- V4-Pro: conocimiento amplio del mundo, razonamiento de clase mundial en matemáticas, STEM y programación, modelo más fuerte en tareas de agentes complejas.
- V4-Flash: razonamiento que se aproxima mucho al de Pro, rendimiento similar en tareas agénticas sencillas, menor rendimiento en las complejas. Más barato de servir y con respuestas más rápidas.
En algunas pruebas la brecha es estrecha (1-3 puntos) y en otras se abre bastante. Por ejemplo, en MMLU-Pro, LiveCodeBench o SWE-Verified las diferencias son pequeñas, mientras que en SimpleQA-Verified o Terminal Bench 2.0 la distancia se vuelve de dos dígitos. La lectura práctica es clara: Flash va como un tiro para tareas simples y medianas (chat, resumen, clasificación, generación de código directa), pero se queda corto cuando hablamos de agentes complejos, recuperación de hechos muy precisa o contextos de riesgo empresarial.
Una estrategia muy sensata para productos de IA es el enrutamiento híbrido: enviar todas las peticiones a V4-Flash por defecto y escalar puntualmente a V4-Pro (o V4-Pro-Max en Think Max) cuando la tarea desencadena ciertas condiciones: fallo en llamadas a herramientas, umbral de confianza no alcanzado, usuario que marca respuesta como incorrecta o una fase del flujo identificada como crítica. Si el porcentaje de peticiones que escalan a Pro se mantiene bajo (por ejemplo, por debajo del 5-10 %), Flash será el caballo de batalla y Pro el “comodín” para los casos difíciles.
Costes, despliegue y compatibilidad de la API
A nivel de API oficial de DeepSeek, los precios reflejan claramente el posicionamiento de cada modelo. Para V4-Flash, la entrada cuesta unos 0,14 $ por millón de tokens (0,028 $ si hay acierto de caché en el prefijo) y la salida 0,28 $ por millón de tokens. Para V4-Pro, las cifras suben a 1,74 $ por millón de tokens de entrada (0,145 $ con caché) y 3,48 $ por millón de tokens de salida. Las estructuras de precios son idénticas, lo que cambia es la tarifa: Pro es del orden de 10-12 veces más caro por token generado.
Ambos modelos se exponen a través de la misma API (api.deepseek.com/v1) y comparten compatibilidad con Chat Completions de OpenAI, el formato de mensajes de Anthropic, streaming de respuestas y contenido de razonamiento (reasoning_content) en los modos Think High y Think Max. El enrutamiento entre uno y otro modelo es trivial desde el punto de vista técnico, lo que facilita mucho experimentar con distintas combinaciones.
Más allá de la API oficial, DeepSeek V4 se puede descargar desde Hugging Face y ModelScope para despliegues locales. Esto abre la puerta a ejecutarlo en infraestructura propia o en proveedores de inferencia de terceros, como Novita, Clore.ai o AtlasCloud, que ya están ofreciendo instancias preconfiguradas. Para V4-Flash, existen cuantizaciones GGUF publicadas por Unsloth que permiten correr el modelo en hardware relativamente accesible (por ejemplo, una sola GPU de 80 GB o dos de 48 GB) con calidades cercanas a FP8 usando Q4_K_M.
En cuanto a frameworks, vLLM 0.7.x da soporte desde el día 0 a ambos checkpoints, con kernels de atención híbrida que requieren la opción –trust-remote-code y hardware Hopper o Blackwell para lograr la máxima velocidad. SGLang es otra alternativa interesante, con RadixAttention y prefix caching que encajan muy bien con la atención híbrida y ofrecen a menudo mejor rendimiento en GPUs Hopper, especialmente en cargas de trabajo agénticas con prompts compartidos.
Casos de uso recomendados y migración desde modelos anteriores
La propia documentación de DeepSeek y de varias plataformas que integran V4 propone una guía orientativa de qué variante y modo de razonamiento usar en cada tipo de tarea. En general:
- Chat y preguntas generales: V4-Flash en modo Non-think, priorizando rapidez y coste bajo.
- Completado de código estándar: V4-Flash Non-think, donde la latencia es clave.
- Diseño de algoritmos complejos: V4-Pro con Think High, buscando equilibrio entre precisión y tiempo.
- Programación competitiva: V4-Pro-Max en Think Max, para exprimir al máximo su capacidad.
- Resumen masivo de documentos: V4-Flash Non-think, ideal para cargas de volumen.
- Análisis profundo de documentos con mucho contexto: V4-Pro Think High, aprovechando el millón de tokens y el razonamiento más estructurado.
- Agentes autónomos complejos: V4-Pro-Max Think Max, en flujos de múltiples pasos y alto riesgo.
Plataformas nativas como Framia.pro ya están implementando enroutado inteligente entre estas configuraciones, ajustando automáticamente la variante y el modo V4 en función de la dificultad de la tarea, para optimizar calidad, coste y tiempos de respuesta dentro de los flujos de trabajo creativos y de desarrollo.
Si vienes de modelos anteriores como DeepSeek V3 o DeepSeek-R1, la migración es bastante sencilla: se mantiene la misma familia de modelos, la misma plantilla de chat y puedes hacer sustitución directa en vLLM u otros frameworks compatibles. Además, los IDs antiguos deepseek-chat y deepseek-reasoner se están redirigiendo ya a V4-Flash, con un calendario de retirada fijado para el 24 de julio de 2026. Eso significa que muchos usuarios ya están disfrutando de la calidad de V4-Flash sin haber cambiado explícitamente de modelo.
En el plano empresarial, hay que tener en cuenta también el contexto geopolítico y regulatorio: algunos despliegues fuera de China pueden estar sujetos a revisiones de cumplimiento adicionales si se usa la API oficial. En esos casos, el autoalojamiento de los pesos abiertos con licencia MIT se convierte en la opción más limpia para respetar normativas y políticas internas.
Con todo lo anterior, DeepSeek V4-Pro-Max se posiciona como el modelo de frontera de pesos abiertos más capaz disponible en la actualidad, combinando una arquitectura muy afinada para contexto largo, modos de razonamiento flexibles, un rendimiento de primer nivel en programación y agentes, y unos precios que, para muchos escenarios, resultan entre 10 y 35 veces más competitivos que las alternativas propietarias. Para quien necesite una IA de verdad inteligente, capaz de razonar a fondo, procesar proyectos gigantes y trabajar como un “ingeniero senior” digital, V4-Pro-Max y su ecosistema suponen un salto de nivel difícil de ignorar.