ES LA HORA DE APRENDER

Cristian Diego Rodrigo

YouTube Spotify

Thumbnail del episodio: Fable 5: qué modelo de IA usar para cada tarea (y cuánto cuesta)

Episodio 15 1:06:55

Fable 5: qué modelo de IA usar para cada tarea (y cuánto cuesta)

Anthropic lanzó Fable 5, el primer modelo de su nueva línea Mythos, y los tres hosts lo destripan: qué es, por qué cuesta el doble que Opus 4.8, y cuándo de verdad vale la pena. De ahí sale la guía completa del episodio: qué modelo usar si pagas suscripción, cuál si pagas por API, y por qué un modelo chino puede hacer el mismo trabajo 100 veces más barato. En el camino, Cristian cuenta cómo DeepSeek le alucinó noticias durante 24 horas por un detalle de temperatura, y Rodrigo cierra con el caso Copilot: la herramienta importa tanto como el modelo.

Temas tratados

Fable 5 y Mythos 5: la nueva línea de modelos de Anthropic Cuánto cuesta Fable 5 y cuándo vale la pena Qué modelo usar según tu caso: suscripción vs API El incidente de temperatura: DeepSeek alucinando noticias por 24 horas Qué es la temperatura de un modelo y por qué importa

YouTube Spotify

Capítulos del episodio

15 saltos · abre en YouTube

Anthropic lanzó Fable 5, el primer modelo de su nueva línea Mythos, y el episodio entero se ordena alrededor de una sola pregunta: ¿necesitas el modelo más caro del mercado para lo que tú haces? Cristian, Diego y Rodrigo recorren precios reales, pruebas propias y un incidente de alucinaciones que dejó un sitio de noticias publicando inventos durante 24 horas. Si alguna vez dudaste entre Claude, GPT, Qwen o MiniMax, esta es la guía que querías.

Lo que vas a aprender

Qué es Fable 5, qué relación tiene con Mythos 5, y por qué está en tu suscripción solo hasta el 22 de junio
La heurística para elegir modelo: cuándo usar el flagship y cuándo un modelo 100 veces más barato hace el mismo trabajo
Qué es la temperatura de un modelo y cómo el mismo valor (0.7) que funcionaba con Qwen hizo alucinar a DeepSeek
Cómo Cristian pasó de hacer cursos a mano a supervisar un equipo de agentes que los produce
Por qué el caso Copilot demuestra que la herramienta — skills, conectores, modos agénticos — importa tanto como el modelo

¿Qué es Fable 5 y por qué todos hablan de él?

Anthropic acaba de estrenar una línea nueva sobre su escalera de nombres conocida — Haiku (poema corto), Sonnet (soneto), Opus (la magna obra) — y la coronó con Mythos, el modelo más grande, y Fable, una variación de Mythos disponible para el público general. Rodrigo explica el contexto: Mythos era el modelo que se había filtrado un mes antes bajo el proyecto Glasswing, donde grandes compañías recibieron acceso para ciberseguridad, corrección de bugs y mitigación de riesgos. Ahora Anthropic lanzó ambos: Mythos 5 para esas organizaciones y Fable 5 para los mortales con suscripción.

Hay un detalle de calendario que cambia cómo usarlo: Fable 5 está incluido en los planes de suscripción ($20, $100 o $200 al mes) solo hasta el 22 de junio. Después de esa fecha seguirá disponible, pero consumiendo créditos pagados aparte. ¿La razón? Anthropic quiere estimar la demanda real antes de definir qué límites diarios o semanales puede dar en cada plan, porque es un modelo intensivo en recursos. “Hambriento, goloso”, lo resume Rodrigo.

¿Y se nota la diferencia? A nivel de percepción, sí: Rodrigo cita a desarrolladores que comparten experimentos en Twitter, como uno que llevaba meses optimizando la velocidad de su modelo en un 6-10% con Opus y GPT-5.5, lo dejó corriendo una noche con Fable 5, y despertó con un bug corregido y un 17% de mejora. También mejora la calidad del código — menos slop, ese código que funciona pero está sucio.

“Lo paso mejor hablando con Claude cuando es Fable que cuando es Opus.” — Rodrigo

¿Cuánto cuesta Fable 5 — y cuándo vale la pena?

El token de Fable cuesta aproximadamente el doble que Opus 4.8, que ya era la insignia. En el episodio recordaban precios del orden de $50 por millón de tokens de salida y unos $25 de entrada. Cristian lo aterriza con una cuenta que pone los pies en la tierra: si todo lo que él consume con su suscripción Max de $200 al mes lo pagara por API con Opus 4.8, estaría gastando unos $18.500 mensuales. Lo mismo con Fable: unos $36.000 al mes.

Rodrigo le pone un asterisco importante: como Fable necesita menos tokens para resolver la misma tarea, la matemática no es lineal — en el neto termina siendo más un 1.8x o 1.9x que un 2x. Pero el punto se sostiene: el flagship se paga, y la pregunta es si tu tarea lo amerita.

La heurística de Rodrigo para quien paga suscripción es simple:

Si no estás llegando a los límites de tu plan, usa el modelo más poderoso que tengas, con razonamiento activado. Son tus tokens de mayor inteligencia: si no los ocupas, los pierdes.
Si estás tocando los límites, optimiza: Sonnet 4.6 con pensamiento para el día a día, Opus 4.8 para tareas complejas, y Fable solo para las que de verdad lo exigen. En ChatGPT, GPT-5.5 con Thinking jugando con el nivel de esfuerzo.
Si pagas por API (automatizaciones, features de IA en tu producto), ahí los modelos baratos brillan: un Haiku clasifica y traduce muy bien por una fracción del costo.

“Es como cuando en los videojuegos ibas juntando las moneditas y llegabas al jefe final sin haber comprado ningún ítem. No le tengan miedo a los tokens: si no los estás ocupando, los estás perdiendo.” — Rodrigo

Cristian aporta su propia evidencia. Probó Opus 4.8 contra Fable 5 desde Claude Code, dándoles sus más de cien workflows productivos de n8n para encontrar problemas, vulnerabilidades y bugs: Fable encontró más, demorándose casi lo mismo. Pero la conclusión no es “usa Fable para todo” — es la contraria. Para las noticias de su medio, Cristian pasó de gastar entre $800 y $1.000 al mes generándolas con Sonnet a unos $100 con modelos chinos, imágenes incluidas.

“Si la calidad es igual de buena, ¿por qué vas a usar el flagship?” — Cristian

Y un matiz que los benchmarks gringos no capturan: el benchmark propio de Cristian mide casos de uso de emprendedores en español — redacción, encontrar una aguja en un pajar con contexto grande — y ahí los resultados cambian. A Opus 4.7, por ejemplo, le iba peor que a un modelo chino encontrando una clave en contexto largo en español. Moraleja: el modelo que arrasa en inglés no necesariamente es el mejor para tu caso en español.

¿Qué es la temperatura y cómo rompió un sitio de noticias por 24 horas?

La historia de la semana de Cristian es una clase entera de LLMs en producción. Su sitio de noticias generaba contenido con Qwen 3.5 a través de Ollama, con temperatura 0.7 — un valor que llevaba meses funcionando. Cambió el modelo a DeepSeek V4 Flash porque en todas sus pruebas salía mejor: mejor SEO, mejor redacción, mejor todo. Lo que no probó fue qué pasaba cuando al modelo le faltaba información. La respuesta: inventaba. Resultado, unas 24 horas de noticias con alucinaciones y un fin de semana escribiendo un script con sus agentes para corregirlas. Bajó la temperatura a 0.4-0.5 y el problema desapareció.

Rodrigo pausa el episodio para explicar el concepto desde cero: la temperatura es un índice (típicamente de 0 a 1, o de 0 a 2 según la plataforma) que regula cuán predecible es el modelo. En 0, ante el mismo prompt responde casi siempre lo mismo: preciso, pero plano y aburrido. Más cerca de 1 baja la probabilidad de las palabras obvias y se vuelve más creativo — y más propenso a inventar. En herramientas como ChatGPT o Claude no la controlas tú: viene fijada por el proveedor, habitualmente entre 0.5 y 0.7. Cristian lo ilustra con el ejemplo de su curso: con temperatura 1, una pizza pasa a ser “lava flamante”, y 2+2 puede ser “pez”, como en Los Padrinos Mágicos.

La lección que Cristian se lleva — y que aplica a cualquiera que tenga un LLM en producción: no des por hecho que todos los modelos funcionan igual con la misma temperatura. La temperatura depende del modelo, y el cambio de cerebro exige re-probar los casos borde, incluyendo qué hace cuando le falta información.

¿Qué modelo chino para qué tarea?

La conversación deja un mapa bastante concreto de la liga no-gringa:

Modelo	Dónde brilla según el episodio	El matiz
Fable 5 (Anthropic)	Tareas muy complejas en modo agéntico (Claude Code / Cowork), repositorios gigantes	El doble de caro que Opus 4.8; en suscripción solo hasta el 22 de junio
Opus 4.8	El flagship anterior; 1 millón de tokens de contexto	Para el 95% de las tareas diarias ya era más que suficiente
Sonnet 4.6	El día a día si llegas a los límites del plan	La recomendación por defecto de Rodrigo y la experiencia del equipo de Diego
MiniMax M3	Trabajo agéntico y código; “el modelo chino con personalidad”	En redacción pierde contra Qwen 3.5
Qwen 3.5	Redacción en producción	Cristian lo prefiere incluso sobre las versiones 3.6 y 3.7 más nuevas
DeepSeek V4 Flash	SEO y redacción de noticias	Alucina cuando le falta información si no le bajas la temperatura
Devstral (Mistral AI)	Código en repositorios chicos — le gana a Sonnet y Opus en el benchmark de Cristian	Solo 64 mil tokens de contexto

Dos datos curiosos de esa zona del episodio. Primero, MiniMax Code: detecta tus patrones de trabajo y, en vez de generar skills, te genera agentes reusables automáticamente — una idea que a Cristian le parece tan buena que admite que, cuando funcione al 100% (hoy se cuelga seguido), podría dejar Claude Code. Segundo, Diego usa el “Team de Agentes” de MiniMax para tareas profundas: le pidió un documento con skills, prompts y automatizaciones aplicables a su empresa y recibió unas 40 páginas con la bajada de cada una.

Y la pregunta de fondo la deja Rodrigo: con modelos así de buenos, ¿qué tan complejo es realmente lo que haces tú a diario? Para una presentación, Opus ya era excelente. Para automatizaciones simples, Qwen alcanza.

“Quizás ya nos superó la IA.” — Rodrigo

¿Cómo están usando agentes los tres hosts esta semana?

El bloque de aprendizajes deja tres setups distintos en producción:

Rodrigo divide sus dos computadores entre Hermes y OpenClaw. OpenClaw es su Chief of Staff: procesa reuniones, tareas, propuestas comerciales, CRM, calendario y morning brief. Hermes está dedicado al conocimiento: lee lo que Rodrigo guarda en Obsidian (artículos, videos, materiales de cursos), crea notas entrelazadas — una wiki interna de lo que le interesó — y alimenta una skill de “mesa editorial” que le entrega el documento base de su newsletter con links y opiniones, dejándole a él la escritura, que es la parte que disfruta. El siguiente paso: reactivar su sitio de noticias de IA con Hermes como editor.

Cristian simplificó: eliminó uno de sus dos Hermes, dejó el que corre en su OpenClaw entre modelos locales y MiniMax, y migró la mayoría de su trabajo directamente a Claude Code. A Hermes lo usa para algo específico: pivotear ideas. Alguien con quien conversar, lanzar una hipótesis, pedirle research, y volver del almuerzo con un avance listo para publicar. Su salto mayor es otro: pasó dos o tres semanas construyendo un equipo de agentes que produce cursos completos — desde detectar dolores de mercado y la investigación, pasando por el diseño instruccional, hasta la grabación. La distinción que le importa: ya no está en la etapa de pedirle cosas a la IA, sino en la de supervisar y validar lo que un equipo produce solo.

Diego organizó su trabajo en Telegram por canales para mandarle varios pedidos en paralelo a su agente sin esperar turnos de conversación, y dentro de su empresa (unas 50 personas) está montando automatizaciones para la operación de cursos masivos: inscripciones, respuestas de correos y WhatsApp, filtrado y seguimiento — trabajo que antes hacían personas desbordadas respondiendo a mano. Cristian le sube el precio a lo que Diego cuenta como si fuera poco: le está dando a toda su empresa una herramienta para trabajar de forma autónoma sin depender del cuello de botella de TI.

¿La herramienta o el modelo? El caso Copilot

La tesis con la que cierra el bloque empresarial es de Rodrigo, y es de las que reordenan decisiones de compra: estamos llegando a un punto donde los modelos exceden las tareas diarias de la mayoría, y lo que desbloquea productividad ya no es el modelo — son las capacidades de la herramienta. Skills, conectores, tool use, modos agénticos. Claude lo hizo bien fusionando chat, Claude Code y Cowork en una misma experiencia; ChatGPT tiene Codex como aplicación aparte (ya anunciaron que las fusionarán); y Gemini ni siquiera tiene su modo agente disponible fuera de Estados Unidos.

El ejemplo perfecto es Copilot. Microsoft lo puso gratis en todos los Office, pero esa versión usa un selector automático que tiende al modelo más barato y rápido — y la experiencia decepciona. Con dos clicks (activar Think Deeper, que usa GPT-5.5) funciona “maravilloso”, e incluso el administrador puede habilitar modelos de Claude dentro de Copilot. El problema de Microsoft no es el producto: es que nadie le enseña a la gente esos dos clicks, nadie encuentra el valor, y entonces nadie paga la versión de pago. Mientras tanto, las empresas que lo compraron por defecto alimentan los memes de licencias sin uso.

De ahí salen las reglas prácticas para empresas que los tres comparten:

Nunca pagues una herramienta de entrada. Prueba la versión gratuita, valida que resuelve tu problema, y recién entonces paga para acceder a los modelos y funciones avanzadas.
TI no debe elegir las herramientas de innovación. TI optimiza que nada se rompa; si esperas que te diga dónde innovar, vas a llegar tarde. TI guarda la llave de seguridad, otro perfil explora.
Los casos de uso están abajo, no arriba. Rodrigo cuenta el clásico: una empresa gasta millones en su “Jarvis interno” con toda la documentación de la compañía, lo lanza con bombos y platillos, y la tasa de uso es del 0,5% — porque nadie tenía ese problema. Parte por las tareas más tediosas de tu equipo, las que duelen, y los proyectos con impacto van a surgir solos.
El contraste también existe: KPMG le dio acceso a Claude a sus 276.000 empleados. Depende del tipo de corporación — si la herramienta ya resuelve y todos la usan, no la cambies.

Diego suma el ingrediente del time to value: la herramienta compite contra el statu quo — contra hacer la tarea a mano porque hay apuro. Si el equipo necesita horas para configurar contexto y prompts, nunca va a invertirlas. Su solución: dejar contexto de empresa, propuestas de valor y skills pre-armadas para que usar IA sea más rápido que no usarla.

El cierre: la hora de aprender

Cristian termina con el mensaje que da nombre al podcast: sí, esto exige estudiar, y es contraintuitivo, pero ese tiempo invertido en aprender te devuelve más tiempo. Su ejemplo favorito de la semana: un amigo hizo uno de los cursos de su comunidad — pensado para emprender — y lo usó para automatizar el envío de su currículum a distintas empresas. No era para eso, y no importa: el conocimiento es el que habilita.

El método de Rodrigo es directo: bloquea dos horas a la semana en tu calendario con un nombre cualquiera (“trabajar en reporte”), defiende ese bloque como si fuera una reunión, y úsalo para probar algo nuevo o resolver un problema con IA. Esa inversión hace más eficientes todas las demás horas de la semana.

Capítulos del episodio

00:01 — Apertura: 48 horas de locura — Fable 5, Siri con Gemini y OpenAI rumbo a la bolsa
02:04 — Rodrigo en talleres: ya todos usan IA, pero pocos saben explotarla
04:45 — OpenClaw como Chief of Staff y Hermes como base de conocimiento en Obsidian
09:47 — El incidente: DeepSeek alucinó noticias durante 24 horas
11:04 — ¿Qué es la temperatura de un modelo? La explicación de Rodrigo
17:08 — Equipos de agentes que crean cursos: el antes y después de Cristian
28:03 — Fable 5 y Mythos 5: qué son, el proyecto Glasswing y la fecha del 22 de junio
31:01 — Cuánto cuesta: el doble que Opus 4.8 y los $36.000 al mes por API
34:48 — La heurística: qué modelo usar si pagas suscripción
38:50 — La prueba de Cristian: Fable 5 vs Opus 4.8 sobre 100+ workflows de n8n
40:08 — El benchmark en español para emprendedores
46:11 — MiniMax M3, MiniMax Code y Qwen 3.5: cuál para qué
50:32 — ¿Ya nos superó la IA? Devstral y el 95% de las tareas
54:51 — Herramienta vs modelo: el caso Copilot y el time to value
1:03:51 — Cierre: bloquea dos horas a la semana para aprender

Preguntas frecuentes

¿Qué es Fable 5 y en qué se diferencia de Mythos 5?

Fable 5 es el primer modelo de la nueva línea Mythos de Anthropic, un escalón por encima de Opus. Mythos 5 es el modelo completo, disponible para organizaciones aprobadas (las mismas que tuvieron acceso anticipado vía el proyecto Glasswing, enfocado en ciberseguridad); Fable 5 es la variación disponible para el público general con suscripción. Está incluido en los planes de pago solo hasta el 22 de junio; después se usa con créditos aparte mientras Anthropic calibra límites por plan.

¿Cuánto cuesta usar Fable 5?

El token cuesta aproximadamente el doble que Opus 4.8 — en el episodio recordaban cifras del orden de $50 por millón de tokens de salida. Como referencia, Cristian calculó que replicar por API el uso que le da a su suscripción de $200/mes costaría unos $18.500 con Opus 4.8 y unos $36.000 con Fable. El matiz de Rodrigo: Fable resuelve la misma tarea con menos tokens, así que el costo neto real es más cercano a 1.8-1.9x que a 2x.

¿Qué es la temperatura de un modelo de IA?

Es el índice que regula cuán predecible o creativo es el modelo al generar texto, típicamente de 0 a 1 (o 0 a 2 según la plataforma). En 0, el modelo responde casi siempre lo mismo ante el mismo prompt: preciso pero plano. Cerca de 1 se vuelve más creativo y más propenso a alucinar. En el episodio quedó la lección práctica: el mismo valor se comporta distinto según el modelo — 0.7 funcionaba bien con Qwen 3.5 y hacía inventar noticias a DeepSeek V4 Flash.

¿Qué modelo de IA me conviene usar en el día a día?

La heurística del episodio: si pagas suscripción y no llegas a los límites, usa el modelo más poderoso disponible con razonamiento activado. Si llegas a los límites, baja a Sonnet 4.6 (o GPT-5.5 ajustando el esfuerzo) para el día a día y reserva el flagship para tareas complejas. Y si pagas por API — automatizaciones, soporte, clasificación — los modelos baratos o abiertos (Haiku, Qwen, MiniMax) suelen dar la misma calidad por una fracción del precio.

Recursos mencionados

Fable 5 y Mythos 5 (Anthropic) — el anuncio oficial de la nueva línea de modelos
Probé Fable 5 contra Opus 4.8 — el blog post de Cristian con el detalle de la prueba sobre sus workflows de n8n
Benchmark de IA para emprendedores — casos de uso reales en español, actualizado cada mes
Claude Code — desde donde Cristian corrió la comparativa
OpenClaw — el Chief of Staff de Rodrigo
Hermes (Nous Research) — el agente de conocimiento de Rodrigo y compañero de pivoteo de Cristian
Obsidian — la base de notas que alimenta la mesa editorial de Rodrigo
MiniMax — M3 para trabajo agéntico, MiniMax Code y el Team de Agentes que usa Diego
Qwen — el modelo de redacción en producción de Cristian
DeepSeek — V4 Flash, protagonista del incidente de temperatura
Mistral AI — creadores de Devstral, el europeo que gana en código con contexto chico

← Episodio 14 Ver todos → Episodio 16 →