How much does prompt caching actually save?

It depends on how much of your prompt is reused and how often you hit the cache. Cached input tokens are read at roughly 10% of the normal input price on Claude and about 25-50% on GPT and Gemini. If 80-90% of your input is a fixed system prompt or document context that repeats on every call, prompt caching commonly cuts total input cost by 50-90%. The savings are largest for high-volume apps with a big, stable context (RAG, agents, long instructions) and near zero for one-off prompts that never repeat.

Does prompt caching cost extra to write the cache?

On Anthropic Claude, writing a cache entry costs about 25% more than a normal input token (a one-time premium), but every later read is ~90% cheaper, so it pays off after just a couple of hits. On OpenAI, caching is automatic with no write surcharge — cached input is simply billed at a lower rate. Gemini context caching has cheaper reads plus a small per-hour storage fee for the cached content.

Calculadora rápida de ahorro en almacenamiento en caché: Claude, GPT y Gemini (2026)

¿Qué es el almacenamiento en caché rápido?

La mayoría de las aplicaciones LLM envían el el mismo gran fragmento de texto en cada llamada — un mensaje largo del sistema, definiciones de herramientas, una guía de estilo o documentos recuperados en un proceso RAG. Normalmente, pagas el precio total de entrada por esos tokens cada vez. Almacenamiento en caché rápido permite al proveedor almacenar ese prefijo fijo después de la primera llamada y cobrar una tarifa con un gran descuento por reutilizarlo. En Claude, un token almacenado en caché se lee aproximadamente 10% del precio normal de los insumos; en GPT y la entrada en caché de Gemini es aproximadamente 25–50% más económico. El único requisito es que la parte almacenada en caché permanezca Idéntico y al frente. del mensaje: coloque la parte variable (la pregunta del usuario) al final.

Cómo funcionan las matemáticas

La calculadora divide cada solicitud en dos partes. El tokens de aviso reutilizados se puede almacenar en caché: en un caché golpear facturan a la tarifa de lectura barata, en un extrañar facturan a la tasa de escritura (un poco más cara) para actualizar el caché. El fichas frescas (la entrada real del usuario que es diferente cada vez) siempre paga el precio total de la entrada y no se puede almacenar en caché. Su tasa de aciertos de caché decide la combinación: los cachés caducan después de unos minutos de inactividad (el TTL predeterminado de Anthropic es ~5 minutos), por lo que las aplicaciones de alto tráfico constante mantienen el caché caliente y alcanzan el 90%+, mientras que las aplicaciones con ráfagas o de bajo volumen se actualizan con más frecuencia y llegan menos. Intente reducir la tasa de aciertos al 50% y observe cómo se reducen los ahorros: el almacenamiento en caché principalmente recompensas volumen y un prefijo estable.

Cuándo vale la pena el almacenamiento en caché (y cuándo no)

El almacenamiento en caché resulta más rentable cuando un contexto grande e inmutable se repite en muchas llamadas: Chatbots de RAG que reenvían los mismos documentos, agentes que reproducen largos historiales y definiciones de herramientas, o cualquier producto con un gran aviso del sistema. En esos casos se corta rutinariamente aporte costo entre un 50% y un 90%. lo hace nada para mensajes únicos que nunca se repiten, y poco si el prefijo reutilizado es pequeño. Tampoco toca producción Costo del token: el almacenamiento en caché solo descuenta la entrada. Para modelar la imagen completa, incluida la salida, utilice el Estimador de costos de aplicaciones de IA o el por modelo claudio / GPT-4o / Géminis calculadoras.

Preguntas frecuentes

¿Cuánto ahorra realmente el almacenamiento en caché de avisos?

Si entre el 80% y el 90% de la entrada es un mensaje fijo o un contexto que se repite, el almacenamiento en caché normalmente reduce el costo total de la entrada entre un 50% y un 90%. Los ahorros aumentan con el volumen y la estabilidad del prefijo reutilizado, y son cercanos a cero para las indicaciones que nunca se repiten.

¿Tiene un costo adicional escribir el caché?

En Claude, escribir el caché cuesta aproximadamente un 25 % más que un token de entrada normal una vez, pero cada lectura posterior es aproximadamente un 90 % más barata: se amortiza después de aproximadamente dos visitas. El almacenamiento en caché de OpenAI es automático sin recargo por escritura. Gemini agrega una pequeña tarifa de almacenamiento por hora para el contenido almacenado en caché.

¿Qué es una tasa de aciertos de caché?

La proporción de solicitudes que encuentran su aviso ya almacenado. Los cachés caducan después de unos minutos de inactividad, por lo que las aplicaciones con mucho tráfico los mantienen activos (más del 90 %), mientras que las aplicaciones con ráfagas o de bajo volumen se actualizan con más frecuencia y funcionan con menos frecuencia.

¿El almacenamiento en caché reduce el costo del token de salida?

No. El almacenamiento en caché rápido sólo descuenta el aporte (rápido) lado. Los tokens de salida/completación siempre se facturan a la tarifa normal, por lo que una aplicación comunicativa y de respuestas largas ahorra menos en general que una de contexto pesado y de respuestas cortas.

Herramientas y guías relacionadas

Estimador de costos de aplicaciones de IA · Calculadora de costos RAG · calculadora de costos claude · Calculadora de costos GPT-4o · Precios de OpenAI, Claude y Gemini · Los costes API que duplican tu factura

Calculadora de ahorro de almacenamiento en caché rápida

Cada modelo, clasificado por costo con almacenamiento en caché

¿Qué es el almacenamiento en caché rápido?

Cómo funcionan las matemáticas

Cuándo vale la pena el almacenamiento en caché (y cuándo no)

Preguntas frecuentes

Herramientas y guías relacionadas