Tasa de aciertos = proporción de solicitudes que encuentran el mensaje ya almacenado en caché. Las aplicaciones de gran volumen y larga duración se sitúan entre el 85% y el 98%.
costo de entrada / mes (sin almacenamiento en caché)
con almacenamiento en caché
guardas / mes
reducción de costos

Cada modelo, clasificado por costo con almacenamiento en caché

Misma carga de trabajo, todos los modelos uno al lado del otro. "Lectura en caché" es el precio de un token reutilizado; "escribir" es el costo único para almacenarlo.

ModeloAporteLectura en cachéSin caché /mesCon caché /mesGuardado
⚠️ Estimación utilizando tasas de referencia por millón de tokens (junio de 2026). Los precios reales cambian con frecuencia y varían según el modelo, nivel y región exactos. Anthropic cobra una prima de escritura de ~25 % en la creación de caché, pero lecturas ~90 % más baratas; El almacenamiento en caché de OpenAI es automático sin recargo por escritura; Gemini agrega una pequeña tarifa de almacenamiento por hora que no se modela aquí. Confirme siempre en la página de precios oficial de cada proveedor.

¿Qué es el almacenamiento en caché rápido?

La mayoría de las aplicaciones LLM envían el el mismo gran fragmento de texto en cada llamada — un mensaje largo del sistema, definiciones de herramientas, una guía de estilo o documentos recuperados en un proceso RAG. Normalmente, pagas el precio total de entrada por esos tokens cada vez. Almacenamiento en caché rápido permite al proveedor almacenar ese prefijo fijo después de la primera llamada y cobrar una tarifa con un gran descuento por reutilizarlo. En Claude, un token almacenado en caché se lee aproximadamente 10% del precio normal de los insumos; en GPT y la entrada en caché de Gemini es aproximadamente 25–50% más económico. El único requisito es que la parte almacenada en caché permanezca Idéntico y al frente. del mensaje: coloque la parte variable (la pregunta del usuario) al final.

Cómo funcionan las matemáticas

La calculadora divide cada solicitud en dos partes. El tokens de aviso reutilizados se puede almacenar en caché: en un caché golpear facturan a la tarifa de lectura barata, en un extrañar facturan a la tasa de escritura (un poco más cara) para actualizar el caché. El fichas frescas (la entrada real del usuario que es diferente cada vez) siempre paga el precio total de la entrada y no se puede almacenar en caché. Su tasa de aciertos de caché decide la combinación: los cachés caducan después de unos minutos de inactividad (el TTL predeterminado de Anthropic es ~5 minutos), por lo que las aplicaciones de alto tráfico constante mantienen el caché caliente y alcanzan el 90%+, mientras que las aplicaciones con ráfagas o de bajo volumen se actualizan con más frecuencia y llegan menos. Intente reducir la tasa de aciertos al 50% y observe cómo se reducen los ahorros: el almacenamiento en caché principalmente recompensas volumen y un prefijo estable.

Cuándo vale la pena el almacenamiento en caché (y cuándo no)

El almacenamiento en caché resulta más rentable cuando un contexto grande e inmutable se repite en muchas llamadas: Chatbots de RAG que reenvían los mismos documentos, agentes que reproducen largos historiales y definiciones de herramientas, o cualquier producto con un gran aviso del sistema. En esos casos se corta rutinariamente aporte costo entre un 50% y un 90%. lo hace nada para mensajes únicos que nunca se repiten, y poco si el prefijo reutilizado es pequeño. Tampoco toca producción Costo del token: el almacenamiento en caché solo descuenta la entrada. Para modelar la imagen completa, incluida la salida, utilice el Estimador de costos de aplicaciones de IA o el por modelo claudio / GPT-4o / Géminis calculadoras.

Preguntas frecuentes

¿Cuánto ahorra realmente el almacenamiento en caché de avisos?

Si entre el 80% y el 90% de la entrada es un mensaje fijo o un contexto que se repite, el almacenamiento en caché normalmente reduce el costo total de la entrada entre un 50% y un 90%. Los ahorros aumentan con el volumen y la estabilidad del prefijo reutilizado, y son cercanos a cero para las indicaciones que nunca se repiten.

¿Tiene un costo adicional escribir el caché?

En Claude, escribir el caché cuesta aproximadamente un 25 % más que un token de entrada normal una vez, pero cada lectura posterior es aproximadamente un 90 % más barata: se amortiza después de aproximadamente dos visitas. El almacenamiento en caché de OpenAI es automático sin recargo por escritura. Gemini agrega una pequeña tarifa de almacenamiento por hora para el contenido almacenado en caché.

¿Qué es una tasa de aciertos de caché?

La proporción de solicitudes que encuentran su aviso ya almacenado. Los cachés caducan después de unos minutos de inactividad, por lo que las aplicaciones con mucho tráfico los mantienen activos (más del 90 %), mientras que las aplicaciones con ráfagas o de bajo volumen se actualizan con más frecuencia y funcionan con menos frecuencia.

¿El almacenamiento en caché reduce el costo del token de salida?

No. El almacenamiento en caché rápido sólo descuenta el aporte (rápido) lado. Los tokens de salida/completación siempre se facturan a la tarifa normal, por lo que una aplicación comunicativa y de respuestas largas ahorra menos en general que una de contexto pesado y de respuestas cortas.

Herramientas y guías relacionadas

Estimador de costos de aplicaciones de IA · Calculadora de costos RAG · calculadora de costos claude · Calculadora de costos GPT-4o · Precios de OpenAI, Claude y Gemini · Los costes API que duplican tu factura