
Salio Deepseek V4, bueno mas o menos. Lo que si, es muchísimo mas barato que Chatgpt o Claude.
Como puse la captura, en teoría salio la version Deepseek V4 aunque quizás en este momento no este reflejada (según tu región supongo), en la pagina.
Ya comentamos que claude era de lo mejorcito para programar sin duda alguna. Hasta la actualización que trajo un quilombo de precios y normas que no sabes bien donde estas parado.
En esta confusión con claude mucha gente esta probando chatgpt codex, que con el nuevo modelo anda bien.
DeepSeek no creo que sea mejor ni que claude code, ni que chatgpt codex..
Sin embargo es ridículamente mas barato (cosa que importa muchisimo si usas agentes) , es mejor que sus versiones anteriores (en especial para la busqueda en internet aparentemente). Y como se esta llegando a una meseta (en mi opinión) con respecto a los LLM, si bien existe diferencia ya no es tan notoria como antes y la billetera esta comenzando a pesar mas.
Bueno acá va el copy and paste que me tiro el mismo deepseek porque, la ironía.
Características Técnicas
Esta nueva versión destaca por varias innovaciones clave en su diseño:
- Dos Modelos: Viene en dos variantes para adaptarse a diferentes necesidades:
- DeepSeek-V4-Pro: El modelo insignia de alto rendimiento, con 1.6 billones de parámetros en total y que activa 49 mil millones por consulta para ser eficiente.
- DeepSeek-V4-Flash: Pensado para la velocidad y la eficiencia de costes, con 284 mil millones de parámetros en total y activando 13 mil millones.
- Contexto Extendido: Ambos modelos manejan contextos de hasta 1 millón de tokens, el estándar para todos los servicios de DeepSeek. Lo puedes usar para hacer preguntas sobre documentos muy largos, como el texto completo de El Problema de los Tres Cuerpos, leer repositorios de código enteros o analizar informes anuales completos.
- Innovaciones en la Arquitectura: Para lograr este avance en el contexto, DeepSeek-V4 introduce nuevas técnicas de atención como DeepSeek Sparse Attention (DSA) que reducen significativamente el cálculo y el uso de memoria.
- Compatibilidad: El modelo se ha desarrollado para funcionar bien con GPUs de NVIDIA y con las NPUs Ascend de Huawei, lo cual es un paso importante para la industria local china.
Rendimiento y Capacidades
Las primeras informaciones apuntan a un rendimiento sobresaliente del nuevo modelo, especialmente en tareas que requieren inteligencia y razonamiento.
- Rendimiento de Agente (Agent): El modelo V4-Pro es muy competitivo en tareas complejas de agentes de IA, especialmente en programación. Algunas fuentes lo consideran el mejor modelo de código abierto en este ámbito y su rendimiento es comparable al de modelos líderes de código cerrado como Anthropic o Google.
- Razonamiento y Conocimiento: También tiene un rendimiento excelente en razonamiento matemático y conocimientos generales, posicionándose en los primeros puestos de los rankings de modelos de código abierto.
- Precios: DeepSeek mantiene su compromiso con precios accesibles. El modelo Flash tiene precios especialmente bajos (por ejemplo, 0.2 yuanes por millón de tokens para entrada en caché) y se espera que los precios del modelo Pro bajen aún más en la segunda mitad de 2026.
----------------------------
Ok, aca va la parte Super_Nerd que no a todo el mundo les interesa pero a mi si jaja.
Hacemos un poco de historia, los LLM usan generalmente placas Nvidia no solo porque son las mas potentes, sino por el enorme ecosistema CUDA que hace la programación mas fácil (simplificando). El problema es que Estados Unidos baneo las placas Nvidia mas potentes a China y china fabrico las Ascend que estan a 5 años de diferencia pero por algo se empieza.. La magia de DeepSeek-V3 fue el uso de PTX (Parallel Thread Execution). Para que te hagas una idea, PTX es como un "ensamblador" (ponele) para las GPUs de NVIDIA. Es un nivel de programación mucho más detallado y cercano al hardware que lenguajes como CUDA, pero fue un laburo de locos.
Para lograr que DeepSeek-V4 funcionara de manera excelente tanto en GPUs NVIDIA como en NPUs Ascend de Huawei (que son chinas, menos potentes, mas baratas y no usan CUDA), el equipo no solo repitió la fórmula, sino que la elevó a otro nivel. Tuvieron que "reinventar la magia" para dos plataformas distintas.
El Desafío: CUDA vs. CANN
El núcleo del problema es que las plataformas de cómputo tienen sus propios lenguajes y ecosistemas. Mientras que NVIDIA usa CUDA, Huawei tiene su propio framework llamado CANN (Compute Architecture for Neural Networks). El éxito de DeepSeek-V4 reside en que lo han adaptado a la perfección para trabajar con ambos. Tengan en cuenta que la documentación y librerías sobre CUDA es obscena, mientras que CANN la usan solo los chinos porque el gobierno los obliga.
Tres Claves de la "Magia" en V4
Estas son las técnicas que lo hicieron posible (si, use bullet point queda mas lindo):
- MegaMoE: La Optimización "Bilingüe" al Detalle: Esta es la pieza central. DeepSeek desarrolló una técnica llamada "Expert Parallel (EP) de Grano Fino". En términos simples, MegaMoE es un sistema avanzado que orquesta a los "expertos" (partes del modelo) para que trabajen en paralelo de forma muy eficiente. Lo increíble es que esta optimización se ha verificado formalmente en ambas plataformas (NVIDIA y Huawei) con resultados casi idénticos. En tareas de inferencia comunes, MegaMoE acelera el proceso entre 1.50 y 1.73 veces en comparación con métodos estándar, alcanzando hasta 1.96 veces en contextos de baja latencia.
- Fusión de Kernels: Las arquitecturas de los modelos modernos pueden generar cientos de operaciones muy pequeñas y fragmentadas, lo cual es ineficiente. El equipo de DeepSeek utilizó un lenguaje propio llamado TileLang para fusionar estas operaciones en "súper-operaciones" mucho más grandes y eficientes. El resultado es una reducción drástica del tiempo de ejecución y de la sobrecarga de comunicación entre los diferentes componentes del hardware, un trabajo de precisión quirúrgica a nivel de "kernel".
- CANN: El Ecosistema de Huawei: Para que toda esta magia funcionara en los procesadores Ascend, trabajaron mano a mano con Huawei para asegurar la compatibilidad el mismo día del lanzamiento (un "Day0 support"). Esto implicó realizar profundas optimizaciones usando el kit de herramientas de CANN, que es a los chips Ascend lo que CUDA es a las GPUs de NVIDIA, incluyendo la optimización conjunta de los kernels de inferencia para alcanzar una utilización de los chips Ascend de más del 85% en sus pruebas. Recordemos que esto es un gran logro porque las Ascend solo se usan en china y la usan de obligados por el baneo estaunidense.