Thumbnail del episodio: Crisis Anthropic: ¿Qué hacer cuando se cae Claude? Modelos alternativos y IA local
Episodio 8 64:00

Crisis Anthropic: ¿Qué hacer cuando se cae Claude? Modelos alternativos y IA local

Anthropic canceló la membresía Max para OpenClaw y los modelos están saturados. Cristian, Diego y Rodrigo analizan alternativas: Qwen3.5, Gemini 4, modelos open source, IA local vs APIs, optimización de costos y estrategias para empresas que dependen de IA.

Temas tratados

Crisis Anthropic Claude Modelos alternativos IA Qwen3.5 OpenRouter Gemini 4 open source IA local vs APIs

Capítulos del episodio

13 saltos · abre en YouTube

  1. 00:01 Bienvenida y qué han estado jugando esta semana
  2. 03:48 Benchmark de 8 modelos para el pipeline de noticias de Cristian
  3. 05:09 Qué pasó con Anthropic: mail del sábado y cancelación del uso con agentes
  4. 10:06 Gemma 4: funciona increíble local, lentísimo en la nube
  5. 14:03 Por qué Meta usa Claude para desarrollar Llama (y qué pasó con Llama 4)
  6. 21:05 Cristian compró un NVIDIA DGX Spark y se lo cancelaron desde Chile
  7. 27:49 Debate: MiniMax 2.7 vs Opus en costo/beneficio
  8. 29:35 Gemma 26B corriendo local en mini-PC a 15 tokens/seg
  9. 33:32 Cuándo conviene IA local: datos sensibles, IoT, visión computacional
  10. 39:42 Solo el 6% usa IA activamente: la brecha con el mainstream
  11. 50:37 Dos reencarnaciones de Sheldon: documentar como estrategia de migración
  12. 55:51 El problema de incentivos en Meta: $5M/mes por persona en tokens
  13. 1:00:42 Próximos proyectos: instancia óptima de OpenClaw sin Anthropic

Anthropic mandó un correo el sábado diciendo que sus sistemas no están optimizados para uso con agentes externos como OpenClaw, solo para Claude y Claude Code. Si quieres seguir conectando Opus o Sonnet a tu propio agente, pagas por token. Cristian calcula que eso es la diferencia entre $200 al mes (plan Max) y $100 por día. En este episodio, los tres hosts documentan en vivo cómo están migrando: qué modelos alternativos funcionan, qué pasa con la latencia de los modelos open source en la nube, cuándo tiene sentido correr modelos locales y por qué la documentación es la única estrategia que escala entre migraciones.

Lo que vas a aprender

  • Qué cambió exactamente con Anthropic y cuál es el impacto real en costos (spoiler: 15x)
  • Cómo evaluar alternativas a Opus y Sonnet: Qwen 3.5, Gemma 4, MiniMax 2.7 y modelos locales
  • Por qué un modelo open source en la nube puede ser más lento que correrlo en tu Mac Mini
  • Cuándo conviene hardware local (DGX Spark, Mac Studio, mini-PC) versus seguir pagando APIs
  • Cómo documentar tu forma de trabajar para no perder meses de setup entre cambios de framework

¿Qué cambió con Anthropic y por qué duele tanto?

El mail del viernes fue claro: la suscripción Max de $200 deja de alimentar agentes externos. Anthropic dice que sus sistemas están optimizados para las aplicaciones propias (Claude y Claude Code), no para que OpenClaw u otros agentes las consuman por detrás. El uso “extra” ahora se factura por token directamente.

La aritmética que Cristian puso sobre la mesa:

  • Antes (plan Max): $200/mes, uso ilimitado de Opus y Sonnet desde OpenClaw
  • Ahora (API directa): ~$100/día con el mismo volumen de uso
  • Diferencia neta: ~15x más caro al mes

En paralelo hay un problema de calidad: los propios modelos empezaron a responder peor mientras Anthropic optimiza capacidad. Hay días con servicio parcial, días con latencia alta, días con respuestas más tontas. Rodrigo mostró la página pública de status de Claude: en los últimos 90 días, Claude.ai está en ~98% de uptime, la API en ~99%, y Claude Code tiene errores parciales casi diarios.

“Nosotros ya estamos en el mundo en que dije: bacán, puedo usar mis agentes de IA para sustituir trabajo operativo. ¿Y nos hacen más tontas las IAs? ¿En serio?” — Cristian Tala

Hay buena noticia en medio: Anthropic anunció ampliación de capacidad con servidores de Google. Se espera que mejore en semanas.

¿Qué modelos alternativos están funcionando de verdad?

Cuatro alternativas reales para uso agéntico en 2026: Qwen 3.5 vía OpenRouter (excelente tool use, ~100x más barato que Sonnet, con bug si activás thinking), Kimi K2/2.6 (contexto largo, 6x más barato que Opus), MiniMax 2.7 (default de Diego por buen uso de herramienta y bajo consumo de tokens) y Gemma 4 de Google (abierto, corre local en mini-PC). Cristian corrió benchmark con 8 modelos contra los mismos 20 inputs: varios igualaron o superaron a Sonnet con precios 20-100 veces menores.

  • Qwen 3.5 (vía OpenRouter) — Funciona excelente con OpenClaw para tool use. ~100x más barato que Sonnet. Tiene un bug reportado: cuando el modo thinking está activado, no recibe la lista de herramientas. Cristian perdió horas en ese bug.
  • Kimi K2 / Kimi 2.6 — Contexto largo, 6x más barato que Opus. Buen candidato para tareas pesadas en contexto.
  • MiniMax 2.7 — Muy buen uso de herramienta, comportamiento agéntico sólido. Diego lo está usando como default porque consume menos tokens.
  • Gemma 4 (Google, open source) — Salió a fines de la semana pasada. Nivel comparable a GPT-4o y Gemini 2.5 de hace dos años. Corre bien local (Android, Mac, mini-PC) pero en la nube de Google está brutalmente lento: tareas de 10 segundos local se demoran 1 minuto por API.

La conclusión operativa del trío: no existe un reemplazo 1:1 de Opus. Lo que existe es una estrategia de modelos mezclados — el modelo caro para lo que realmente lo necesita, el modelo barato para el resto.

¿Cuándo conviene correr modelos locales en lugar de API?

Cuatro escenarios donde correr local gana a la API: datos sensibles (salud, banca, data personal — en Chile la Ley de Protección de Datos entra en vigencia en diciembre de 2026), latencia crítica (IoT, visión computacional, clasificación de volumen alto), recursos ociosos (una startup puede usar MacBooks del equipo para tokens gratis) y prevalidación (el modelo local filtra qué llega al modelo caro). Rodrigo corre Gemma 26B en un mini-PC AMD Ryzen 7 de 64 GB RAM (~1.000 USD) a 15 tokens/seg para clasificación editorial antes de pasar a GPT-5.4.

Los casos donde correr local tiene sentido claro:

  • Datos sensibles — Salud, banca, data personal. En Chile, la Ley de Protección de Datos Personales entra en vigencia en diciembre de 2026. Para muchos rubros, el modelo nunca puede salir del datacenter.
  • Latencia crítica — IoT con sensores, visión computacional en tiempo real, clasificación de contenido a volumen alto.
  • Recursos ociosos — En una startup todos tienen un MacBook capaz de correr modelos locales aceptables en paralelo a su trabajo. Tokens gratis si los gestionas bien.
  • Prevalidación — Filtrar qué llega a un modelo caro. El local hace el gate; el modelo grande hace el trabajo fino.

Un ejemplo de Rodrigo (con actores cambiados para proteger al cliente): una empresa que dependía de la calidad del agua tenía a una persona mirando un tanque 24/7. Sensores baratos + modelo local que corre en una cajita IoT + alerta por internet cuando hay anomalía. La persona deja de hacer la tarea; interviene solo cuando el sistema dispara.

¿Qué hardware conviene para correr modelos locales en 2026?

La demanda global de RAM por IA disparó precios y esperas. Los tres hosts compararon opciones en vivo:

OpciónPrecio aproximadoDisponibilidadPara qué conviene
Mini-PC AMD Ryzen + 64 GB RAM~$1.000 USDInmediataModelos 7B-26B, tareas específicas, clasificación, prevalidación
NVIDIA DGX SparkAlto, rango developerSolo EE.UU.; Cristian intentó y le cancelaron la orden desde ChileDesarrollo IA, múltiples modelos en paralelo, arquitectura de servidores NVIDIA a escala personal
Mac Studio M3 Ultra (512 GB RAM)Top de gama4–5 meses de espera; Apple ya solo vende el de 256 GBModelos grandes, velocidad de tokens alta, setup silencioso
Mac Mini 64 GBMedioMejor que el M3 Ultra hoyTokens/seg aceptables, footprint bajo, conectable a OpenClaw

La regla pragmática que salió: si puedes esperar 3–4 meses, espera. Viene Mac Studio M5, probablemente un DGX Spark 2, y la crisis de RAM debería aflojar. Si no puedes esperar, un mini-PC bien configurado con Gemma o Qwen local te deja operativo hoy por ~$1.000.

¿Por qué el incentivo de “quemar más tokens” está roto?

Diego mencionó una conversación con un contacto en Meta: la política interna es gastar ~$5 millones al mes por ingeniero en tokens. Tienen un dashboard público — el “Claude Board” o similar — mostrando quién consumió más. Apple, según la misma fuente, tiene un tope muy inferior y una estrategia más dirigida.

“¿Qué estás optimizando? ¿Tokens porque sí? ¿Son tokens de exploración y aprendizaje? ¿O son tokens para llenar la barra y ganarle al resto? No sé si ese es el incentivo correcto.” — Rodrigo Rojo

La crítica de los tres fue unánime: maximizar tokens consumidos es el incentivo equivalente a que un CEO se premie por facturación y no por margen. Termina vendiendo bajo costo, cobrando bono y desangrando a la empresa. Los tokens tienen que traducirse en output con valor medible — ingreso, código útil, decisiones mejores, tiempo ahorrado.

¿Qué pasa con la madurez de adopción en el mercado real?

Cristian tiró un dato crudo: solo ~6% de las personas usan IA activamente hoy. El 94% restante está atrás. Rodrigo lo complementó desde sus talleres: hasta hace meses, la pregunta era “¿cómo funciona esto?”. Ahora es “¿cómo hago este documento específico?” — la gente quiere recetas, no clases de prompting.

Esto tiene dos implicancias:

  • Para early adopters: la ventaja competitiva sigue creciendo, no disminuyendo. Mientras otros preguntan cómo prender la herramienta, tú estás documentando agentes.
  • Para empresas: el plan de adopción no puede ser “metan las manos en Claude Code”. Necesitas habilitación masiva con la herramienta más simple (Copilot Chat gratis en Microsoft, Gemini en Google Workspace), capacitación de prompting, programa de Champions internos, y recién ahí proyectos específicos con agentes.

¿Cómo documentar para sobrevivir a la próxima migración?

Rodrigo llevaba dos “reencarnaciones” de su agente Sheldon antes de este episodio. La lección que sacó: la única forma de migrar sin perder meses es documentar todo en formatos livianos que la IA pueda leer.

“Le digo a mi agente: ‘creemos este procedimiento, documéntalo’. Si después cambio de framework o de agente, le paso la documentación y dice ‘acá está el way of work, lo adapto’. Lo mismo con un computador: si muere, agarro otro, pongo Dropbox y sigo.” — Rodrigo Rojo

El patrón aplica también a empresas. Documentar procesos en Markdown, Obsidian, Notion — cualquier formato que el agente pueda ingerir — es lo que te permite cambiar de OpenClaw a GenSpark, de Claude a Qwen, o de un framework a otro sin reescribir todo desde cero. Si tu conocimiento vive solo en la cabeza de las personas, cada cambio de herramienta te cuesta semanas.

Preguntas frecuentes

¿Por qué Anthropic cortó el uso de Opus con OpenClaw si pagué el plan Max?

La explicación oficial es que sus servidores no están optimizados para ese patrón de consumo — agentes externos que mantienen sesiones largas, múltiples tool calls por tarea, y contexto grande persistente. El uso esperado del plan Max es desde Claude.ai y Claude Code, donde Anthropic controla cliente y servidor. Si quieres seguir usando Opus o Sonnet desde OpenClaw, tienes que pagar tokens directamente por API — lo que para uso agéntico intensivo resulta ~15x más caro.

¿Qué alternativa real tengo si Sonnet ya no me conviene por costo?

MiniMax 2.7 y Qwen 3.5 son los dos más mencionados por la comunidad para uso agéntico con OpenClaw en 2026. MiniMax tiene mejor uso de herramienta out-of-the-box. Qwen 3.5 es 100x más barato que Sonnet vía OpenRouter, pero tiene un bug conocido: si activas el modo thinking, no le pasa la lista de herramientas. Si necesitas escritura larga con calidad alta, GPT-5.4 o Gemini 3.1 son razonables. Para tareas sensibles a privacidad, Gemma 26B corre bien local en un mini-PC de ~$1.000.

¿Vale la pena comprarme hardware para correr modelos locales?

Depende del volumen y la sensibilidad. Si estás pagando más de ~$300 al mes en APIs de IA para tareas que podrían correr en un modelo 7B-26B (clasificación, prevalidación, resúmenes cortos, generación de descripciones), el mini-PC se paga solo en 3-4 meses. Si además manejas datos sensibles (salud, banca, data personal), el argumento de compliance vale más que el ahorro. Lo que no conviene hoy es comprar hardware top (Mac Studio M3 Ultra, DGX Spark) solo por curiosidad — espera 3-4 meses a que salga la próxima generación y ceda la crisis de RAM.

¿Cómo sé si una empresa está usando mal los incentivos de tokens?

Pregunta qué está optimizando. Si el KPI visible es “tokens consumidos por persona” sin una métrica de output real — código mergeado, clientes atendidos, decisiones acertadas, tiempo ahorrado medido — el incentivo está desalineado. Los tokens son insumo, no resultado. La pregunta correcta es: “¿ese gasto en tokens cuánto ingreso, cuánto ahorro o cuánta velocidad me devolvió?” Si no hay respuesta clara, estás quemando plata con un dashboard bonito.

¿Qué es lo mínimo que debo documentar para sobrevivir a la próxima migración?

Cuatro cosas, todas en Markdown plano: (1) tu way of work — cómo abordas las tareas habituales, (2) las herramientas que usas y por qué, (3) tus reglas de negocio internas — criterios editoriales, políticas de respuesta, tono, (4) las integraciones activas — qué servicios externos tocas, con qué credenciales, qué hacen. Si tu agente puede leer esos cuatro archivos, puedes cambiar de framework en un fin de semana en lugar de dos meses.

Recursos mencionados


🌐 eslahoradeaprender.com · 🎧 Spotify · 📺 YouTube

Accesibilidad: activa los subtítulos en el reproductor de YouTube para leer la conversación completa.

← Episodio 7 Ver todos → Episodio 9 →