Estados Unidos pasó el último año levantando muros alrededor de la inteligencia artificial: le cerró a China el hardware de Nvidia y este mes bloqueó Fable 5, el nuevo modelo de Anthropic, con el argumento de la seguridad nacional. La tesis que cruza todo el episodio la pone Cristian: el muro no frena a China, la acelera. Diego y Rodrigo la discuten desde la cancha de los modelos abiertos, el costo real del hardware y una pregunta incómoda para cualquier founder fuera de EE.UU.: ¿qué pasa con tu negocio si mañana te cortan el modelo?
Lo que vas a aprender
- Por qué bloquear el hardware y los modelos de frontera a China funciona como autogol y no como freno
- Qué significa de verdad que un modelo sea “abierto” — y por qué eso no es lo mismo que gratis
- Qué modelo chino conviene para qué tarea, según las pruebas reales de los tres hosts
- Por qué la métrica que importa dejó de ser cuántos tokens gastas y pasó a ser qué resultado obtienes
- Cómo armar un plan de contingencia para que una decisión política no apague tu operación
¿Por qué bloquear a China en IA es un autogol?
Bloquear funciona como autogol porque estos modelos mejoran justamente cuando la gente los usa, y al cerrar el acceso pasa lo contrario: el ecosistema que querías frenar crece más rápido. Estados Unidos cerró el hardware de Nvidia para China, frenó la salida de Fable 5 —con el argumento, que Cristian considera falso, de que había hackeado a la NSA— y empujó a OpenAI a liberar GPT 5.6 por partes (“sol, terra y luna”) para no levantar alarmas. Mientras tanto, China subsidia lo contrario: saca modelos cada vez más potentes y, sobre todo, abiertos.
El resultado es medible. China ya tiene el 60% de su hardware de IA con Huawei, y la gente del mundo entero usa los modelos chinos a centavos vía OpenRouter, NVIDIA NIM o las propias suscripciones chinas. Si la intención era frenar a China como potencia de IA, el efecto va en la dirección opuesta.
Rodrigo le pone matices. Hay un argumento de defensa legítimo: cuando aparece un modelo capaz de encontrar vulnerabilidades y escribir código a esa velocidad, el riesgo de que caiga en malas manos es real, y el propio Sam Altman admitió que GPT 5.6 “no es la forma en que les gustaría lanzarlo”. Pero el costo es alto. Anthropic, alineada con la postura de pausar, acusó la semana pasada a Alibaba de destilación: unos 20 mil usuarios haciéndole miles de preguntas de código a Opus para extraer cómo responde y entrenar un modelo propio. El problema, dice Rodrigo, es que a esta altura ya casi no vale la pena copiar.
“Los modelos chinos ya están a tan buen nivel que un desarrollador se cambia con un switch, se pone a trabajar allá, y ahora la data pasa para ese lado. Les estás echando agüita al chino para que crezca más rápido.” — Rodrigo
Y cuando GLM 5.2 salió, Z.ai —la empresa detrás del modelo— subió 30% en bolsa en un solo día. Abierto, corriendo en Ollama o en NVIDIA, y aplaudido por la bolsa.
”Abierto no es gratis”: cuánto cuesta de verdad correr un modelo chino
Acá Cristian se pone en modo hater, y con razón: que un modelo sea de código abierto no significa que sea gratis de correr. La cuenta que publicó en su blog es brutal. Para correr GLM 5.2 a la misma velocidad de tokens por segundo que obtienes en OpenRouter, no necesitas los 4 mil dólares de un DGX Spark ni 10 ni 20 mil: necesitas alrededor de medio millón de dólares en hardware. “GLM es gratis, GLM es gratis” repite medio internet; correrlo en serio, no.
Hay puntos intermedios, y ahí entra el oficio. La versión más cuantizada de GLM 5.2, de 2 bits, todavía pide unos 256 GB de VRAM —que en tarjetas son unos 8 a 10 mil dólares— y entrega 2 o 3 tokens por segundo: inservible para chatear, pero suficiente para dejarlo trabajando de noche. Cristian aplica esa misma lógica de comprar inteligencia barata con paciencia en su Spark, con otro modelo: corre Nemotron 3 para planificación larga con Claude Code u OpenCode (usa unos 80 de los 128 GB), se va a dormir, y a la mañana baja ese modelo y carga un Qwen o un Gemma para el día. Es lento —tanto que admite no haber medido cuántos tokens por segundo da—, pero para tareas asincrónicas le alcanza.
El contraejemplo optimista lo trae Diffusion Gemma, una versión de Gemma de Google que en vez de la arquitectura transformer clásica usa difusión —la misma lógica con la que se generan imágenes desde ruido, pero aplicada al texto: genera varios candidatos a la vez y elige. ¿La gracia? Velocidad. Donde el Spark de Cristian le da 10 a 15 tokens por segundo con un modelo normal, Diffusion Gemma le dio 50 a 60: la primera vez que un modelo local le corre más rápido que la misma tarea por API. Rodrigo aclara el asterisco —el Spark es fuerte en contexto, no en ancho de banda; en un MacBook con suficiente RAM debería volar aún más— y se lleva la tarea de probarlo, porque su máquina tiene los 32 GB que el modelo necesita.
¿Ya están los modelos chinos a la altura de la frontera?
La distancia se acortó. Lo que antes era “los abiertos van como un año detrás de la frontera” hoy es una diferencia chica, al punto de que modelos como GLM 5.2, Kimi 2.7 y MiniMax 3 no le tienen nada que envidiar a lo que era frontera hace cuatro meses. Cristian incluso estuvo a punto de cambiar su suscripción de MiniMax por la de Kimi, porque Kimi Code funciona muy bien y trae un enjambre de agentes parecido al de Claude Code a una fracción del costo —habla de hasta 15 veces más barato.
El favorito de la mesa entre los chinos es MiniMax M3. Rodrigo lo describe como el que más se le acerca a Opus en personalidad: puede no ser el más técnico, pero cuando ves su respuesta, te gusta. Y Diego trae el caso que lo dejó parado: subió una base de datos grande y pidió escribir correos en distintas etapas. Claude explicó qué había que hacer en cada etapa pero no dejó el correo de cada persona listo; MiniMax encontró los datos y escribió cada correo. Punto para MiniMax.
“MiniMax salió peor en algunas cosas que otros modelos y aun así lo prefiero. La suscripción funciona muy bien y tengo un montón de procesos de n8n automatizados con él. Si la calidad alcanza, ¿para qué pagar el flagship?” — Cristian
El reverso de la moneda es la restricción. Diego cuenta que los modelos gringos se pusieron demasiado cautelosos: pidió armar una base con números de teléfono y correos y Claude se negó por política, mientras MiniMax lo hizo sin problema. Rodrigo lo grafica: en vez de una reja baja, pusieron una reja alta con púas y alambre eléctrico. Útil para evitar el mal uso, frustrante cuando tu caso es legítimo.
Del token-maxing a medir impacto: la métrica que importa
Durante un año la métrica fue el token-maxing: más tokens, más uso, más mural en la oficina para el que más gastó. Pero la cantidad no dice nada de la calidad. Rodrigo lo resume con un caso que circuló: alguien en una empresa se gastó todos los tokens del mes creando un juego para pasar el rato. Es un indicador de uso, no de buen uso. Y los dashboards de Copilot o Gemini te muestran quién entró y cuánto tiempo, pero nunca qué logró.
Cristian lo aterriza con el meme que ya es clásico: “¿Cuánto gastamos al mes en tokens? Cincuenta mil dólares. ¿Cuánto sale un junior? Mil. Bienvenido de vuelta, Pepito”. El punto no es volver al humano —es que el gasto tiene que amarrarse a un resultado. Las startups llevan años con vanity metrics: cien mil seguidores y cero ventas. El gasto en IA va por el mismo camino si nadie define qué KPI mueve.
El desafío real, dice Rodrigo, está en las áreas donde el impacto no es directo: recursos humanos, marketing, administración, finanzas. En ventas es fácil —cerraste más rápido, vendiste más—, pero el back-office necesita inventar sus propios indicadores de impacto antes de poder justificar la inversión. Y Diego suma una variable de oro que ya había anticipado el equipo: el time to value. Si configurar el contexto y los prompts toma horas, la herramienta pierde contra hacer la tarea a mano. Por eso conviene dejar contexto de empresa y skills pre-armadas, para que usar IA sea más rápido que no usarla.
¿Tus agentes en la nube o en tu propio computador?
El podcast nació hablando de OpenClaw y de tener agentes trabajando 24/7, y la industria entera se mueve hoy hacia el “cloud first”: OpenAI y Anthropic están sacando sus agentes a la nube, y varios de los crons de Cristian ya corren en la nube de Anthropic vía Claude Code. Pero el episodio deja una confesión que va a contracorriente.
Cristian cerró todos sus agentes en la nube. Parte por una razón muy poco épica —se le bloqueó la tarjeta y quedó debiendo servicios— y parte porque descubrió que estaba pagando cosas que no necesitaba. Hoy tiene un Hermes en cada máquina (MacBook, mini PC, Mac Mini, Spark); el que conversa por Telegram corre en el Spark con MiniMax M3 como modelo principal, Qwen 3.6 detrás para imágenes y Gemma para audio. Cero agentes en la nube.
Rodrigo nunca los tuvo allá, y explica por qué prefiere el agente principal viviendo en su computador: ahí tiene acceso a sus archivos, su memoria, sus reglas, sus documentos y todas las herramientas locales —no solo lo que se conecta por API. El dispositivo ya lo pagaste, y cuando algo se rompe lo arreglas con teclado y mouse en vez de entrar por SSH a un servidor sin interfaz. Su ejemplo favorito: le instaló Linux a un computador chico, el teleprompter no encendía, le pidió a Claude Code que revisara, y al rato la cámara se prendió sola. Probablemente le creó un driver.
“Lo lindo es que uno vuelve a hablar con su computador, como cuando lo abrías de chico y le cambiabas todo. Ahora se siente igual: lo estás hackeando con tu vida.” — Rodrigo
El modelo a seguir que menciona Rodrigo es Peter Levels (@levelsio), el solo entrepreneur con unas 50 mini startups que trabaja en producción desde el celular, escribiéndole instrucciones a su Claude Code en el servidor. La distinción que queda: que tú des la instrucción y el agente haga la parte técnica.
El cierre: por qué necesitas un plan de contingencia
El mensaje con el que cierran los tres apunta al mismo lugar. Para Rodrigo, el desafío de fondo no es tecnológico sino de introspección: si no tienes claros tus procesos —qué tarea, con qué datos, qué esperas de salida—, da igual que instales OpenClaw o Claude Code, no vas a saber qué pedirle. Y advierte una separación que se viene: los modelos más potentes como Fable o el modo Sol de GPT van a vivir en las cuentas más caras, así que el que no se prepare ahora va a quedar lejos cuando la inteligencia de punta deje de estar en el plan de 20 dólares.
Cristian cierra con su obsesión de siempre: plan de contingencia sobre plan de contingencia. La orden de EE.UU. sobre Mythos y Fable 5 fue no dárselos a quienes no fueran estadounidenses; como separarlo era imposible, simplemente lo cortaron para todos. Tu negocio depende hoy de los modelos, los harness y la forma en que aprovechas la tecnología. Si mañana te bloquean uno, más vale tener con qué seguir.
Tabla comparativa
| Modelo | Dónde brilla según el episodio | El matiz |
|---|
| GLM 5.2 (Z.ai) | Abierto y a nivel de frontera de hace meses; corre en Ollama y NVIDIA | Correrlo a velocidad de API cuesta ~US$500.000 en hardware |
| MiniMax M3 | Trabajo agéntico y procesos de n8n; “el chino con personalidad”, cercano a Opus | MiniMax Code todavía es flojo; pierde puntos técnicos contra GPT |
| Kimi 2.7 (Moonshot) | Kimi Code con enjambre de agentes, hasta 15× más barato | Cristian estuvo a punto de cambiarse, pero se quedó en MiniMax |
| Nemotron 3 (NVIDIA) | Planificación larga overnight en el DGX Spark (~80 GB de RAM) | Lento; Cristian admite no haber medido la velocidad exacta, solo lo usa para tareas asincrónicas |
| Diffusion Gemma (Google) | Velocidad: 50-60 tokens/seg local, más rápido que por API | Arquitectura de difusión, no transformer; ideal en MacBook con RAM |
| Fable 5 (Anthropic) | Lo más potente del momento en modo agéntico | Bloqueado para no estadounidenses; vivirá en la cuenta más cara |
Capítulos del episodio
- 00:00 — Apertura: el terremoto de Venezuela y la alerta de Google
- 02:00 — Las cinco herramientas de IA que Rodrigo usa a diario
- 05:10 — Diego: Hermes en Slack y el CRM que se llena solo
- 08:14 — “El SaaS ha muerto”: el CRM sin dashboard de Cristian
- 12:38 — La tesis del episodio: ¿el bloqueo de EE.UU. es un autogol?
- 17:14 — Anthropic acusa a Alibaba de destilación
- 18:12 — GLM 5.2, Z.ai +30% en bolsa y la frontera que se acorta
- 20:10 — “Abierto no es gratis”: los 500 mil dólares de hardware
- 23:42 — Plan B y modelos demasiado restrictivos
- 25:13 — MiniMax vs Claude: el caso de los correos
- 29:02 — Del token-maxing a medir impacto real
- 38:00 — Diffusion Gemma: generar texto por difusión
- 44:00 — ¿Agentes en la nube o en local? La confesión de Cristian
- 51:36 — Peter Levels y trabajar en producción desde el celular
- 56:46 — Cierre: identifica tus procesos y ten plan de contingencia
Preguntas frecuentes
¿Por qué bloquear a China en inteligencia artificial es un autogol?
Porque los modelos de IA mejoran cuando mucha gente los usa, y cerrar el acceso produce el efecto contrario al buscado. Al frenar el hardware de Nvidia y los modelos de frontera, EE.UU. empujó a China a potenciar su propio ecosistema, que además es abierto: modelos como GLM 5.2 o MiniMax se usan a centavos en todo el mundo. China ya cubre el 60% de su hardware de IA con Huawei. El argumento de defensa existe, pero el efecto neto acelera al rival.
¿Es verdad que los modelos chinos abiertos son gratis?
No. Que un modelo sea de código abierto significa que puedes descargarlo y correrlo, no que sea barato hacerlo. Cristian calculó que correr GLM 5.2 a la misma velocidad que te da OpenRouter exige alrededor de medio millón de dólares en hardware. Una versión cuantizada de 2 bits baja a unos 256 GB de VRAM (8-10 mil dólares) pero entrega solo 2-3 tokens por segundo, útil para tareas overnight, no para chatear.
¿Qué modelo chino conviene según la tarea?
Del episodio sale un mapa práctico: MiniMax M3 para trabajo agéntico y automatizaciones de n8n —el favorito de Cristian y Diego—, Kimi 2.7 si quieres un harness con enjambre de agentes mucho más barato, GLM 5.2 cuando necesitas un abierto a nivel de frontera, y Nemotron 3 o un Qwen local para planificación asincrónica. Para redacción y casos en español conviene probar con el benchmark propio, porque el que gana en inglés no siempre gana en español.
¿Conviene tener los agentes de IA en la nube o en tu propio computador?
Depende de para qué. La nube sirve si necesitas que el agente esté disponible junto a tus servicios remotos. Pero los tres hosts coinciden en el valor del agente local: vive en tu computador con acceso directo a tus archivos, memoria y herramientas, lo pagaste una vez, y arreglarlo cuando se rompe es mucho más simple. Cristian cerró todos sus agentes en la nube y volvió a correr Hermes en cada máquina.
Recursos mencionados
- OpenClaw — el agente personal 24/7 que dio origen al podcast
- Hermes (Nous Research) — el agente que Cristian corre local en cada máquina
- MiniMax — M3 para trabajo agéntico; MiniMax Code todavía flojo
- Z.ai — la empresa detrás de GLM 5.2, +30% en bolsa al liberarlo
- Qwen — el 3.6 de Alibaba, uno de los locales de Cristian
- Ollama y OpenRouter — dos formas de correr o acceder a modelos abiertos
- Granola — grabación de reuniones que alimenta el CRM
- Twenty — el CRM open source que Cristian usó antes de la base sin dashboard
- Claude Code — desde donde Cristian rutea sus subagentes
- Benchmark de IA para emprendedores — casos en español; edición de julio con Fable 5, GLM 5.2 y Kimi 2.7
- Blog de Cristian Tala — donde está el cálculo del hardware para correr GLM 5.2
🌐 eslahoradeaprender.com · 🎧 Spotify · 📺 YouTube
Accesibilidad: activa los subtítulos en el reproductor de YouTube para leer la conversación completa.