r/IASinHumo

🔥 Hot ▲ 191 r/IASinHumo+3 crossposts

La vigilancia a las personas siempre existió, solo que ahora con la "IA" es mas barato. (Lo volví a subir me había olvidado los sub)

u/Rare_Package_7498 — 3 days ago

Salio Deepseek V4, bueno mas o menos. Lo que si, es muchísimo mas barato que Chatgpt o Claude.

Como puse la captura, en teoría salio la version Deepseek V4 aunque quizás en este momento no este reflejada (según tu región supongo), en la pagina.

https://chat.deepseek.com

Ya comentamos que claude era de lo mejorcito para programar sin duda alguna. Hasta la actualización que trajo un quilombo de precios y normas que no sabes bien donde estas parado.

https://www.reddit.com/r/IASinHumo/comments/1st430f/hace_varios_días_atrás_comentábamos_que_por_la/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button

https://www.reddit.com/r/IASinHumo/comments/1siqhj5/análisis_amd_descubre_que_claude_te_están/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button

En esta confusión con claude mucha gente esta probando chatgpt codex, que con el nuevo modelo anda bien.

DeepSeek no creo que sea mejor ni que claude code, ni que chatgpt codex..

Sin embargo es ridículamente mas barato (cosa que importa muchisimo si usas agentes) , es mejor que sus versiones anteriores (en especial para la busqueda en internet aparentemente). Y como se esta llegando a una meseta (en mi opinión) con respecto a los LLM, si bien existe diferencia ya no es tan notoria como antes y la billetera esta comenzando a pesar mas.

Bueno acá va el copy and paste que me tiro el mismo deepseek porque, la ironía.

Características Técnicas

Esta nueva versión destaca por varias innovaciones clave en su diseño:

  • Dos Modelos: Viene en dos variantes para adaptarse a diferentes necesidades:
    • DeepSeek-V4-Pro: El modelo insignia de alto rendimiento, con 1.6 billones de parámetros en total y que activa 49 mil millones por consulta para ser eficiente.
    • DeepSeek-V4-Flash: Pensado para la velocidad y la eficiencia de costes, con 284 mil millones de parámetros en total y activando 13 mil millones.
  • Contexto Extendido: Ambos modelos manejan contextos de hasta 1 millón de tokens, el estándar para todos los servicios de DeepSeek. Lo puedes usar para hacer preguntas sobre documentos muy largos, como el texto completo de El Problema de los Tres Cuerpos, leer repositorios de código enteros o analizar informes anuales completos.
  • Innovaciones en la Arquitectura: Para lograr este avance en el contexto, DeepSeek-V4 introduce nuevas técnicas de atención como DeepSeek Sparse Attention (DSA) que reducen significativamente el cálculo y el uso de memoria.
  • Compatibilidad: El modelo se ha desarrollado para funcionar bien con GPUs de NVIDIA y con las NPUs Ascend de Huawei, lo cual es un paso importante para la industria local china.

Rendimiento y Capacidades

Las primeras informaciones apuntan a un rendimiento sobresaliente del nuevo modelo, especialmente en tareas que requieren inteligencia y razonamiento.

  • Rendimiento de Agente (Agent): El modelo V4-Pro es muy competitivo en tareas complejas de agentes de IA, especialmente en programación. Algunas fuentes lo consideran el mejor modelo de código abierto en este ámbito y su rendimiento es comparable al de modelos líderes de código cerrado como Anthropic o Google.
  • Razonamiento y Conocimiento: También tiene un rendimiento excelente en razonamiento matemático y conocimientos generales, posicionándose en los primeros puestos de los rankings de modelos de código abierto.
  • Precios: DeepSeek mantiene su compromiso con precios accesibles. El modelo Flash tiene precios especialmente bajos (por ejemplo, 0.2 yuanes por millón de tokens para entrada en caché) y se espera que los precios del modelo Pro bajen aún más en la segunda mitad de 2026.

----------------------------
Ok, aca va la parte Super_Nerd que no a todo el mundo les interesa pero a mi si jaja.

Hacemos un poco de historia, los LLM usan generalmente placas Nvidia no solo porque son las mas potentes, sino por el enorme ecosistema CUDA que hace la programación mas fácil (simplificando). El problema es que Estados Unidos baneo las placas Nvidia mas potentes a China y china fabrico las Ascend que estan a 5 años de diferencia pero por algo se empieza.. La magia de DeepSeek-V3 fue el uso de PTX (Parallel Thread Execution). Para que te hagas una idea, PTX es como un "ensamblador" (ponele) para las GPUs de NVIDIA. Es un nivel de programación mucho más detallado y cercano al hardware que lenguajes como CUDA, pero fue un laburo de locos.

Para lograr que DeepSeek-V4 funcionara de manera excelente tanto en GPUs NVIDIA como en NPUs Ascend de Huawei (que son chinas, menos potentes, mas baratas y no usan CUDA), el equipo no solo repitió la fórmula, sino que la elevó a otro nivel. Tuvieron que "reinventar la magia" para dos plataformas distintas.

El Desafío: CUDA vs. CANN

El núcleo del problema es que las plataformas de cómputo tienen sus propios lenguajes y ecosistemas. Mientras que NVIDIA usa CUDA, Huawei tiene su propio framework llamado CANN (Compute Architecture for Neural Networks). El éxito de DeepSeek-V4 reside en que lo han adaptado a la perfección para trabajar con ambos. Tengan en cuenta que la documentación y librerías sobre CUDA es obscena, mientras que CANN la usan solo los chinos porque el gobierno los obliga.

Tres Claves de la "Magia" en V4

Estas son las técnicas que lo hicieron posible (si, use bullet point queda mas lindo):

  • MegaMoE: La Optimización "Bilingüe" al Detalle: Esta es la pieza central. DeepSeek desarrolló una técnica llamada "Expert Parallel (EP) de Grano Fino". En términos simples, MegaMoE es un sistema avanzado que orquesta a los "expertos" (partes del modelo) para que trabajen en paralelo de forma muy eficiente. Lo increíble es que esta optimización se ha verificado formalmente en ambas plataformas (NVIDIA y Huawei) con resultados casi idénticos. En tareas de inferencia comunes, MegaMoE acelera el proceso entre 1.50 y 1.73 veces en comparación con métodos estándar, alcanzando hasta 1.96 veces en contextos de baja latencia.
  • Fusión de Kernels: Las arquitecturas de los modelos modernos pueden generar cientos de operaciones muy pequeñas y fragmentadas, lo cual es ineficiente. El equipo de DeepSeek utilizó un lenguaje propio llamado TileLang para fusionar estas operaciones en "súper-operaciones" mucho más grandes y eficientes. El resultado es una reducción drástica del tiempo de ejecución y de la sobrecarga de comunicación entre los diferentes componentes del hardware, un trabajo de precisión quirúrgica a nivel de "kernel".
  • CANN: El Ecosistema de Huawei: Para que toda esta magia funcionara en los procesadores Ascend, trabajaron mano a mano con Huawei para asegurar la compatibilidad el mismo día del lanzamiento (un "Day0 support"). Esto implicó realizar profundas optimizaciones usando el kit de herramientas de CANN, que es a los chips Ascend lo que CUDA es a las GPUs de NVIDIA, incluyendo la optimización conjunta de los kernels de inferencia para alcanzar una utilización de los chips Ascend de más del 85% en sus pruebas. Recordemos que esto es un gran logro porque las Ascend solo se usan en china y la usan de obligados por el baneo estaunidense.
u/Rare_Package_7498 — 2 days ago

Hace varios días atrás comentábamos que por la guerra (entre otros factores), las empresas tenían solo tres opciones para digamos administrarse mejor: comerse la pérdida, subir los precios o bajarte la calidad del modelo en silencio.

u/Rare_Package_7498 — 4 days ago
🔥 Hot ▲ 63 r/IASinHumo

Uber ya se fumo en 4 meses su presupuesto de tokens del año. La paradoja de Solow y la fumada de tokens.

En los años 80, el economista Robert Solow dijo: "Se ve la era de las computadoras en todas partes, menos en las estadísticas de productividad". Pasó a la historia como la Paradoja de Solow. Las empresas compraban computadoras carísimas, pero la eficiencia no mejoraba porque la organización humana no entendía como usarlas. Pasaron unos años donde las empresas se adaptaron y la productividad exploto.

Algo de eso esta pasando con los LLM hoy en dia y en especial con los Agentes. Mientras el CEO de Nvidia incentiva a que los programadores y empresas usen tokens como si no hubiera mañana.

https://www.reddit.com/r/IASinHumo/comments/1skpjub/es_como_si_el_ceo_de_insertar_marca_te_dice_que/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button

La realidad HOY es otra. Hay que justificar semejante inversión digamos.

https://www.reddit.com/r/IASinHumo/comments/1sp8g5f/análisis_serie_el_comienzo_del_caos_5a6_la_ia_no/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button

Quizás pase como con la paradoja de Solow donde la productividad exploto décadas después, de momento hoy en dia hay mucho "AI Washing" empresas diciendo que despidieron empleados porque la IA los ayudo a aumentar la productividad y ser mas eficientes. Esto suele pasar como mucho un 10% (según en que casos).

Antes de que me quieras poner el cartel de ludita, veo a los LLM y Agentes como herramientas muy buenas, pero no bien usadas.

La tecnología está inmadura para tareas complejas sin supervisión estricta. Esta buena para boludear en solitario, pero en un entorno de producción mal usada es una pesadilla.

Entonces, por qué Uber y miles de empresas saltaron al vacío si la herramienta técnica no estaba lista para escalar?

Por el marketing del terror de Silicon Valley. Te venden el FOMO (Fear Of Missing Out / Miedo a quedarse afuera). Convencen a las gerencias de que si no implementan "Agentes de IA" hoy mismo, la competencia los va a destruir mañana.

Los directivos, para mostrarle a los accionistas que son "innovadores", implementan la IA a ciegas. Arman tablas de posiciones (leaderboards) para premiar a los empleados que más la usan. El resultado: el empleado, aterrorizado por ser despedido por "no adaptarse a la IA", uso Claude para cualquier cosa ("Estás seguro de este código? Fijate de nuevo"). Quema tokens a lo bestia solo para que su jefe vea que está "abrazando el futuro".

Hay distintas estrategias para tratar este tema, desde correr un LLM en local, usar cursor, usar LLM menos potentes para tareas triviales y solo claude para problemas complejos, etc.

Escucho tus experiencias.

u/Rare_Package_7498 — 6 days ago
🔥 Hot ▲ 138 r/IASinHumo

El ganador del 2026 fue el VelocirRaptoRobot Chueco Edition

El ganador, de Honor, un fabricante chino de smartphones, completó la carrera de 21 kilómetros (13 millas) en 50 minutos y 26 segundos, según una publicación en WeChat del Área de Desarrollo Económico-Tecnológico de Beijing, también conocida como Beijing E-Town, donde arrancó la carrera.

Ese tiempo fue más rápido que el del actual poseedor del récord mundial humano, el ugandés Jacob Kiplimo, quien completó la misma distancia en unos 57 minutos en marzo, en la carrera de ruta de Lisboa.

La actuación del robot marcó un avance significativo respecto de la carrera inaugural del año pasado, en la que el el robot ganador terminó en 2 horas, 40 minutos y 42 segundos.

Beijing E-Town indicó que alrededor del 40% de los robots recorrieron el circuito de forma autónoma, mientras que los demás fueron controlados a distancia.

El medio estatal Global Times informó que un robot aparte de Honor, controlado a distancia, fue el primero en cruzar la meta en 48 minutos y 19 segundos. Pero señaló que el ganador utilizó navegación autónoma y recibió el campeonato conforme a las reglas de puntuación ponderada del evento.

u/Rare_Package_7498 — 8 days ago
▲ 6 r/IASinHumo+2 crossposts

OpenAI secuestra tu flujo de trabajo, Anthropic casi lanza su mejor modelo y los agentes de IA no son de fiar

u/prefierobollitos — 4 days ago

No puedo garantizar que esto sea posta, no es mi campo ni a palos. Pero es similar a la forma que uso los LLM, así que (en eso) tiene sentido. La sigo en los comentarios.

Como dije, no tengo forma de verificar que esto sea cierto, no es mi campo. Escucho sus comentarios si tienen conocidos o ustedes mismos estudian medicina.

Pero tiene sentido. Yo le digo "armar el pilar" y luego con ese pilar de conocimiento hecho a la antigua. Iteras con los LLM generando fricción, mejorando o destruyendo la idea. Pero teniendo en claro que los LLM le erran mucho.

En mi caso no lo uso exactamente así, pero el corazón de la idea es similar.

Si fueras profesor como te darías cuenta si un alumno sabe o no? preguntándole personalmente y da igual si uso LLM para obtener conocimiento o no. Mientras pueda argumentar y defender su pensamiento. Creo que los "trabajos prácticos escritos" van a tener que cambiar o desaparecer. Y creo que la educación ya tenia problemas de fondo y que los LLM sacan a la luz con mas violencia. Ejemplo como haces para tomar oral a 40 chicos en un aula.

Como dije, escucho sus experiencias y anécdotas de conocidos.

u/Rare_Package_7498 — 7 days ago

Oficialmente ahora somos 7.0000 usuarios (ponele, muchisimos bots me imagino jaja). Gracias a todos y los invito a crear topicos para sacarse sus dudas.

u/Rare_Package_7498 — 5 days ago