Tabela de preços completa – sua carga de trabalho
Referência de tokens de $/1 milhão (junho de 2026), custo mensal nos números acima.
| Provedor | Modelo | Em US$/1 milhão | Fora $/1 milhão | Custo / mês |
|---|
Mais barato por caso de uso
- Alto volume/simples (classificação, extração, roteamento): Gemini 2.0 Flash ou GPT-4o mini – centavos por mil solicitações.
- Bots de bate-papo e suporte: GPT-4o mini ou Gemini 2.5 Flash – barato, rápido, bom o suficiente; veja o calculadora de custos do chatbot.
- RAG/contexto longo: Gemini 2.5 Flash ou Pro (o baixo preço de entrada ajuda quando você preenche os pedaços recuperados); veja o Calculadora de custos RAG.
- Raciocínio/codificação difícil: Claude Soneto 4 ou GPT-4o; Claude Opus / o3 somente quando você realmente precisa.
- Precisa de um nível gratuito: Gemini (AI Studio) é o único dos três com uma cota gratuita genuína.
Como realmente escolher
A fidelidade à marca é o hábito mais caro da IA. Os três fornecedores superam-se constantemente, e a verdadeira diferença de custo vem de duas coisas que você controla: o camada de modelo você escolhe e como prolongar suas saídas são. Um modelo de fronteira com respostas curtas pode ser mais barato do que um modelo "barato" com respostas incoerentes. Avalie a carga de trabalho, não o logotipo – a tabela acima faz exatamente isso com base em seus próprios números.
Analise um fornecedor com o Calculadora GPT-4o, o Calculadora Cláudio ou o Calculadora de Gêmeos, compare todos os modelos de uma vez no calculadora completa de custos da API AI, ou estimar um produto inteiro com o Estimador de custos de aplicativos de IA.
Perguntas frequentes
Qual é o mais barato no geral? Para um Flash capaz, mas barato, Gemini 2.0 e GPT-4o mini. Para carros-chefe, é mais próximo e depende da carga de trabalho.
O modelo mais barato significa menor custo total? Nem sempre – um modelo um pouco mais caro que responda com menos tokens pode vencer. Compare suas contagens reais de tokens.