Episodio 8 64:00

Crisis Anthropic: ¿Qué hacer cuando se cae Claude? Modelos alternativos y IA local

Anthropic canceló la membresía Max para OpenClaw y los modelos están saturados. Cristian, Diego y Rodrigo analizan alternativas: Qwen3.5, Gemini 4, modelos open source, IA local vs APIs, optimización de costos y estrategias para empresas que dependen de IA.

Temas tratados

Crisis Anthropic Claude Modelos alternativos IA Qwen3.5 OpenRouter Gemini 4 open source IA local vs APIs

YouTube Spotify

Capítulos del episodio

13 saltos · abre en YouTube

Anthropic mandó un correo el sábado diciendo que sus sistemas no están optimizados para uso con agentes externos como OpenClaw, solo para Claude y Claude Code. Si quieres seguir conectando Opus o Sonnet a tu propio agente, pagas por token. Cristian calcula que eso es la diferencia entre $200 al mes (plan Max) y $100 por día. En este episodio, los tres hosts documentan en vivo cómo están migrando: qué modelos alternativos funcionan, qué pasa con la latencia de los modelos open source en la nube, cuándo tiene sentido correr modelos locales y por qué la documentación es la única estrategia que escala entre migraciones.

Lo que vas a aprender

Qué cambió exactamente con Anthropic y cuál es el impacto real en costos (spoiler: 15x)
Cómo evaluar alternativas a Opus y Sonnet: Qwen 3.5, Gemma 4, MiniMax 2.7 y modelos locales
Por qué un modelo open source en la nube puede ser más lento que correrlo en tu Mac Mini
Cuándo conviene hardware local (DGX Spark, Mac Studio, mini-PC) versus seguir pagando APIs
Cómo documentar tu forma de trabajar para no perder meses de setup entre cambios de framework

¿Qué cambió con Anthropic y por qué duele tanto?

El mail del viernes fue claro: la suscripción Max de $200 deja de alimentar agentes externos. Anthropic dice que sus sistemas están optimizados para las aplicaciones propias (Claude y Claude Code), no para que OpenClaw u otros agentes las consuman por detrás. El uso “extra” ahora se factura por token directamente.

La aritmética que Cristian puso sobre la mesa:

Antes (plan Max): $200/mes, uso ilimitado de Opus y Sonnet desde OpenClaw
Ahora (API directa): ~$100/día con el mismo volumen de uso
Diferencia neta: ~15x más caro al mes

En paralelo hay un problema de calidad: los propios modelos empezaron a responder peor mientras Anthropic optimiza capacidad. Hay días con servicio parcial, días con latencia alta, días con respuestas más tontas. Rodrigo mostró la página pública de status de Claude: en los últimos 90 días, Claude.ai está en ~98% de uptime, la API en ~99%, y Claude Code tiene errores parciales casi diarios.

“Nosotros ya estamos en el mundo en que dije: bacán, puedo usar mis agentes de IA para sustituir trabajo operativo. ¿Y nos hacen más tontas las IAs? ¿En serio?” — Cristian Tala

Hay buena noticia en medio: Anthropic anunció ampliación de capacidad con servidores de Google. Se espera que mejore en semanas.

¿Qué modelos alternativos están funcionando de verdad?

Cuatro alternativas reales para uso agéntico en 2026: Qwen 3.5 vía OpenRouter (excelente tool use, ~100x más barato que Sonnet, con bug si activás thinking), Kimi K2/2.6 (contexto largo, 6x más barato que Opus), MiniMax 2.7 (default de Diego por buen uso de herramienta y bajo consumo de tokens) y Gemma 4 de Google (abierto, corre local en mini-PC). Cristian corrió benchmark con 8 modelos contra los mismos 20 inputs: varios igualaron o superaron a Sonnet con precios 20-100 veces menores.

Qwen 3.5 (vía OpenRouter) — Funciona excelente con OpenClaw para tool use. ~100x más barato que Sonnet. Tiene un bug reportado: cuando el modo thinking está activado, no recibe la lista de herramientas. Cristian perdió horas en ese bug.
Kimi K2 / Kimi 2.6 — Contexto largo, 6x más barato que Opus. Buen candidato para tareas pesadas en contexto.
MiniMax 2.7 — Muy buen uso de herramienta, comportamiento agéntico sólido. Diego lo está usando como default porque consume menos tokens.
Gemma 4 (Google, open source) — Salió a fines de la semana pasada. Nivel comparable a GPT-4o y Gemini 2.5 de hace dos años. Corre bien local (Android, Mac, mini-PC) pero en la nube de Google está brutalmente lento: tareas de 10 segundos local se demoran 1 minuto por API.

La conclusión operativa del trío: no existe un reemplazo 1:1 de Opus. Lo que existe es una estrategia de modelos mezclados — el modelo caro para lo que realmente lo necesita, el modelo barato para el resto.

¿Cuándo conviene correr modelos locales en lugar de API?

Cuatro escenarios donde correr local gana a la API: datos sensibles (salud, banca, data personal — en Chile la Ley de Protección de Datos entra en vigencia en diciembre de 2026), latencia crítica (IoT, visión computacional, clasificación de volumen alto), recursos ociosos (una startup puede usar MacBooks del equipo para tokens gratis) y prevalidación (el modelo local filtra qué llega al modelo caro). Rodrigo corre Gemma 26B en un mini-PC AMD Ryzen 7 de 64 GB RAM (~1.000 USD) a 15 tokens/seg para clasificación editorial antes de pasar a GPT-5.4.

Los casos donde correr local tiene sentido claro:

Datos sensibles — Salud, banca, data personal. En Chile, la Ley de Protección de Datos Personales entra en vigencia en diciembre de 2026. Para muchos rubros, el modelo nunca puede salir del datacenter.
Latencia crítica — IoT con sensores, visión computacional en tiempo real, clasificación de contenido a volumen alto.
Recursos ociosos — En una startup todos tienen un MacBook capaz de correr modelos locales aceptables en paralelo a su trabajo. Tokens gratis si los gestionas bien.
Prevalidación — Filtrar qué llega a un modelo caro. El local hace el gate; el modelo grande hace el trabajo fino.

Un ejemplo de Rodrigo (con actores cambiados para proteger al cliente): una empresa que dependía de la calidad del agua tenía a una persona mirando un tanque 24/7. Sensores baratos + modelo local que corre en una cajita IoT + alerta por internet cuando hay anomalía. La persona deja de hacer la tarea; interviene solo cuando el sistema dispara.

¿Qué hardware conviene para correr modelos locales en 2026?

La demanda global de RAM por IA disparó precios y esperas. Los tres hosts compararon opciones en vivo:

Opción	Precio aproximado	Disponibilidad	Para qué conviene
Mini-PC AMD Ryzen + 64 GB RAM	~$1.000 USD	Inmediata	Modelos 7B-26B, tareas específicas, clasificación, prevalidación
NVIDIA DGX Spark	Alto, rango developer	Solo EE.UU.; Cristian intentó y le cancelaron la orden desde Chile	Desarrollo IA, múltiples modelos en paralelo, arquitectura de servidores NVIDIA a escala personal
Mac Studio M3 Ultra (512 GB RAM)	Top de gama	4–5 meses de espera; Apple ya solo vende el de 256 GB	Modelos grandes, velocidad de tokens alta, setup silencioso
Mac Mini 64 GB	Medio	Mejor que el M3 Ultra hoy	Tokens/seg aceptables, footprint bajo, conectable a OpenClaw

La regla pragmática que salió: si puedes esperar 3–4 meses, espera. Viene Mac Studio M5, probablemente un DGX Spark 2, y la crisis de RAM debería aflojar. Si no puedes esperar, un mini-PC bien configurado con Gemma o Qwen local te deja operativo hoy por ~$1.000.

¿Por qué el incentivo de “quemar más tokens” está roto?

Diego mencionó una conversación con un contacto en Meta: la política interna es gastar ~$5 millones al mes por ingeniero en tokens. Tienen un dashboard público — el “Claude Board” o similar — mostrando quién consumió más. Apple, según la misma fuente, tiene un tope muy inferior y una estrategia más dirigida.

“¿Qué estás optimizando? ¿Tokens porque sí? ¿Son tokens de exploración y aprendizaje? ¿O son tokens para llenar la barra y ganarle al resto? No sé si ese es el incentivo correcto.” — Rodrigo Rojo

La crítica de los tres fue unánime: maximizar tokens consumidos es el incentivo equivalente a que un CEO se premie por facturación y no por margen. Termina vendiendo bajo costo, cobrando bono y desangrando a la empresa. Los tokens tienen que traducirse en output con valor medible — ingreso, código útil, decisiones mejores, tiempo ahorrado.

¿Qué pasa con la madurez de adopción en el mercado real?

Cristian tiró un dato crudo: solo ~6% de las personas usan IA activamente hoy. El 94% restante está atrás. Rodrigo lo complementó desde sus talleres: hasta hace meses, la pregunta era “¿cómo funciona esto?”. Ahora es “¿cómo hago este documento específico?” — la gente quiere recetas, no clases de prompting.

Esto tiene dos implicancias:

Para early adopters: la ventaja competitiva sigue creciendo, no disminuyendo. Mientras otros preguntan cómo prender la herramienta, tú estás documentando agentes.
Para empresas: el plan de adopción no puede ser “metan las manos en Claude Code”. Necesitas habilitación masiva con la herramienta más simple (Copilot Chat gratis en Microsoft, Gemini en Google Workspace), capacitación de prompting, programa de Champions internos, y recién ahí proyectos específicos con agentes.

¿Cómo documentar para sobrevivir a la próxima migración?

Rodrigo llevaba dos “reencarnaciones” de su agente Sheldon antes de este episodio. La lección que sacó: la única forma de migrar sin perder meses es documentar todo en formatos livianos que la IA pueda leer.

“Le digo a mi agente: ‘creemos este procedimiento, documéntalo’. Si después cambio de framework o de agente, le paso la documentación y dice ‘acá está el way of work, lo adapto’. Lo mismo con un computador: si muere, agarro otro, pongo Dropbox y sigo.” — Rodrigo Rojo

El patrón aplica también a empresas. Documentar procesos en Markdown, Obsidian, Notion — cualquier formato que el agente pueda ingerir — es lo que te permite cambiar de OpenClaw a GenSpark, de Claude a Qwen, o de un framework a otro sin reescribir todo desde cero. Si tu conocimiento vive solo en la cabeza de las personas, cada cambio de herramienta te cuesta semanas.

Preguntas frecuentes

¿Por qué Anthropic cortó el uso de Opus con OpenClaw si pagué el plan Max?

La explicación oficial es que sus servidores no están optimizados para ese patrón de consumo — agentes externos que mantienen sesiones largas, múltiples tool calls por tarea, y contexto grande persistente. El uso esperado del plan Max es desde Claude.ai y Claude Code, donde Anthropic controla cliente y servidor. Si quieres seguir usando Opus o Sonnet desde OpenClaw, tienes que pagar tokens directamente por API — lo que para uso agéntico intensivo resulta ~15x más caro.

¿Qué alternativa real tengo si Sonnet ya no me conviene por costo?

MiniMax 2.7 y Qwen 3.5 son los dos más mencionados por la comunidad para uso agéntico con OpenClaw en 2026. MiniMax tiene mejor uso de herramienta out-of-the-box. Qwen 3.5 es 100x más barato que Sonnet vía OpenRouter, pero tiene un bug conocido: si activas el modo thinking, no le pasa la lista de herramientas. Si necesitas escritura larga con calidad alta, GPT-5.4 o Gemini 3.1 son razonables. Para tareas sensibles a privacidad, Gemma 26B corre bien local en un mini-PC de ~$1.000.

¿Vale la pena comprarme hardware para correr modelos locales?

Depende del volumen y la sensibilidad. Si estás pagando más de ~$300 al mes en APIs de IA para tareas que podrían correr en un modelo 7B-26B (clasificación, prevalidación, resúmenes cortos, generación de descripciones), el mini-PC se paga solo en 3-4 meses. Si además manejas datos sensibles (salud, banca, data personal), el argumento de compliance vale más que el ahorro. Lo que no conviene hoy es comprar hardware top (Mac Studio M3 Ultra, DGX Spark) solo por curiosidad — espera 3-4 meses a que salga la próxima generación y ceda la crisis de RAM.

¿Cómo sé si una empresa está usando mal los incentivos de tokens?

Pregunta qué está optimizando. Si el KPI visible es “tokens consumidos por persona” sin una métrica de output real — código mergeado, clientes atendidos, decisiones acertadas, tiempo ahorrado medido — el incentivo está desalineado. Los tokens son insumo, no resultado. La pregunta correcta es: “¿ese gasto en tokens cuánto ingreso, cuánto ahorro o cuánta velocidad me devolvió?” Si no hay respuesta clara, estás quemando plata con un dashboard bonito.

¿Qué es lo mínimo que debo documentar para sobrevivir a la próxima migración?

Cuatro cosas, todas en Markdown plano: (1) tu way of work — cómo abordas las tareas habituales, (2) las herramientas que usas y por qué, (3) tus reglas de negocio internas — criterios editoriales, políticas de respuesta, tono, (4) las integraciones activas — qué servicios externos tocas, con qué credenciales, qué hacen. Si tu agente puede leer esos cuatro archivos, puedes cambiar de framework en un fin de semana en lugar de dos meses.

Recursos mencionados

OpenClaw — Framework open source de agentes, base de muchos de los setups comentados.
OpenRouter — Ruteo unificado para consumir modelos open source como Qwen, Gemma, Kimi.
Gemma 4 (Google) — Nuevo modelo open source de Google, corre local en Android, Mac, mini-PC.
NVIDIA DGX Spark — Hardware para desarrolladores de IA, arquitectura server en formato personal.
Mac Studio — Top de gama Apple para correr modelos grandes local.
Ollama — Runtime simple para correr LLMs open source en tu computador.
LM Studio — Interfaz gráfica para probar modelos open source local.
Episodio anterior: EP07 — Se cayó Claude y no pude trabajar
Episodio siguiente: EP09 — Estrategia de IA según el tamaño de tu empresa

🌐 eslahoradeaprender.com · 🎧 Spotify · 📺 YouTube

Accesibilidad: activa los subtítulos en el reproductor de YouTube para leer la conversación completa.

← Episodio 7 Ver todos → Episodio 9 →