Comparação de Preço: Claude vs Gemini vs GPT-4o
Compare os custos reais de usar Claude (Anthropic), Gemini (Google) e GPT-4o (OpenAI) com base no seu volume mensal de tokens. A fórmula é direta mas os resultados surpreendem: Custo mensal (USD) = (Tokens de entrada em milhões × Preço entrada por MTok) + (Tokens de saída em milhões × Preço saída por MTok). Tokens de saída custam sempre mais do que os de entrada — Claude Sonnet cobra $3/MTok de entrada mas $15/MTok de saída (proporção 5:1). Um pipeline com mais resposta do que prompt pode custar até 5× mais do que a estimativa inicial. Use esta calculadora antes de escolher um modelo para produção, para comparar alternativas com o seu ratio real de tokens, ou para montar o modelo financeiro de um produto de IA.
Quando usar esta calculadora
- Estimar o gasto mensal em API para um chatbot de suporte que processa ~10M tokens de entrada e ~3M de saída antes de comprometer com um modelo em produção.
- Comparar o custo por consulta entre Claude Sonnet e Gemini Pro para um pipeline de classificação de documentos com 500M tokens/mês.
- Avaliar se a janela de contexto de 2M tokens do Gemini Pro justifica o preço em comparação ao Claude Sonnet (200k tokens, tarifa fixa) para tarefas de resumo de documentos longos.
- Calcular o impacto orçamentário de migrar um volume existente de um provedor para outro, ou de combinar modelos baratos para tarefas simples com modelos caros para casos complexos.
Exemplo real: Claude Sonnet com 10M tokens entrada + 5M tokens saída
- Custo de entrada: 10M tokens × $3,00/MTok = $30,00
- Custo de saída: 5M tokens × $15,00/MTok = $75,00
- Custo mensal total: $30,00 + $75,00 = $105,00
Como funciona
2 min de leituraComo se calcula
Todos os provedores principais faturam por tokens com duas tarifas separadas: entrada (input) e saída (output). A saída é sempre mais cara porque exige geração sequencial token a token, enquanto a entrada é processada em paralelo. A fórmula usada nesta calculadora:
Custo Mensal (USD) =
(Tokens_Entrada_M × Preço_Entrada_por_MTok)
+ (Tokens_Saída_M × Preço_Saída_por_MTok)
Exemplo — Claude Sonnet com 10M entrada + 5M saída:
Entrada: 10M × $3,00/MTok = $30,00
Saída: 5M × $15,00/MTok = $75,00
Total: $105,00/mêsO mesmo volume no Gemini Pro:
Entrada: 10M × $3,50/MTok = $35,00
Saída: 5M × $10,50/MTok = $52,50
Total: $87,50/mêsAinda que o Gemini Pro cobre mais por token de entrada ($3,50 vs. $3,00), seu menor preço de saída ($10,50 vs. $15,00) o torna mais barato para workloads onde a saída supera a entrada. O ponto de equilíbrio depende do seu ratio input/output.
---
Tabela de preços de referência
Preços utilizados nesta calculadora (USD por milhão de tokens):
| Modelo | Entrada $/MTok | Saída $/MTok | Contexto máx. |
|---|---|---|---|
| Claude Sonnet | $3,00 | $15,00 | 200k tokens |
| Claude Opus | $15,00 | $75,00 | 200k tokens |
| Gemini Pro | $3,50 | $10,50 | 2M tokens |
| Gemini Ultra | $7,00 | $21,00 | 1M tokens |
| GPT-4o | $5,00 | $15,00 | 128k tokens |
Os preços podem mudar. Verifique sempre nas páginas oficiais de cada provedor antes de fechar um orçamento de produção.
---
Por que os tokens de saída custam 3–5× mais?
Tokens de entrada são processados em paralelo pelo mecanismo de atenção — o modelo lê o prompt inteiro de uma vez. Tokens de saída exigem decodificação autorregressiva sequencial: o modelo gera um token por vez, e cada passo depende de todos os anteriores. Este processo é fundamentalmente mais intensivo em computação, o que justifica que Claude Sonnet cobre $3/MTok de entrada mas $15/MTok de saída (proporção 5:1).
---
Erros comuns ao estimar custos de LLMs
1. Assumir preço único por token. Calcule sempre entrada e saída separadamente — em uma relação 1:1 input/output, a saída domina a fatura.
2. Não contabilizar o system prompt em cada chamada. Um system prompt de 1.500 tokens enviado em cada request soma 1,5M tokens de entrada por cada milhão de chamadas.
3. Ignorar o acúmulo do histórico em chatbots. Cada turno reenvia o histórico completo. Na 10ª mensagem de um chat de 500 tokens por turno, você já envia 5.000 tokens de entrada só de contexto — o custo cresce quadraticamente, não linearmente.
4. Não ativar Batch API para workloads offline. A Anthropic oferece 50% de desconto na Batch API (respostas em até 24h). Claude Sonnet cai de $3,00/$15,00 para $1,50/$7,50 por MTok sem nenhuma mudança na qualidade de saída.
5. Comparar janelas de contexto sem checar tiers de preço. A janela de 2M tokens do Gemini Pro pode parecer melhor que os 200k do Claude, mas os preços variam por faixa de uso — verifique sempre em ai.google.dev/pricing.
Perguntas frequentes
Qual modelo é mais barato: Claude, Gemini ou GPT-4o?
Depende do seu ratio de tokens entrada/saída. Para workloads com muita saída (respostas longas), Gemini Pro ($10,50/MTok saída) supera Claude Sonnet ($15,00/MTok saída). Para workloads com pouca saída e muita entrada, Claude Sonnet ($3,00/MTok entrada) e Gemini Pro ($3,50/MTok entrada) são comparáveis. GPT-4o ($5,00/$15,00) raramente é a opção mais barata em escala — sua vantagem está no ecossistema OpenAI e em capacidades multimodais específicas.
O que conta como token de entrada e token de saída?
Tokens de entrada são tudo que você envia ao modelo em cada chamada: o system prompt, o histórico da conversa, documentos recuperados em pipelines RAG e a mensagem atual do usuário. Tokens de saída são apenas a resposta gerada pelo modelo. Ambos são faturados separadamente, e a saída custa tipicamente 3–5× mais por token.
Como estimo o volume mensal de tokens antes de desenvolver?
Use esta fórmula: Tokens/mês = (tokens médios por request) × (requests por dia) × 30. Para estimar tokens a partir de texto: 1 milhão de tokens ≈ 750.000 palavras em inglês. Use o tokenizador da Anthropic em console.anthropic.com ou o método countTokens da API do Gemini para contar tokens exatos dos seus prompts reais antes de extrapolar para volume mensal.
Quando vale a pena usar Claude Opus em vez de Claude Sonnet, mesmo custando 5× mais?
Claude Opus ($15/$75 por MTok) se justifica quando a complexidade da tarefa é genuinamente alta e erros são caros: análise jurídica de múltiplas etapas, arquitetura de código complexa, cadeias de raciocínio onde Sonnet comete erros detectáveis. Para classificação, resumo ou extração de dados estruturados em alto volume, Claude Sonnet entrega 95%+ da qualidade do Opus a uma fração do custo. Faça benchmark com suas tarefas reais antes de assumir que precisa do Opus.
Como a janela de contexto de 200k tokens do Claude se compara à janela de 2M do Gemini Pro?
Gemini Pro tem uma janela de contexto maior (2M tokens vs. 200k do Claude Sonnet), o que é vantajoso para análise de documentos muito longos sem necessidade de dividir o texto em partes. Porém, Claude Sonnet tem preço fixo de $3,00/MTok independente do tamanho do prompt, enquanto os preços do Gemini variam por faixa — verifique sempre em ai.google.dev/pricing. Para a maioria dos casos reais (documentos jurídicos, repositórios de código, chats longos), 200k tokens é suficiente.
Existe camada gratuita nas APIs do Claude e do Gemini?
O Google oferece camada gratuita para Gemini 1.5 Flash e Gemini 2.0 Flash via Google AI Studio, com limites de velocidade (15 requests/minuto, 1.500 requests/dia em 2025). A Anthropic não tem camada gratuita permanente na API — contas novas recebem um crédito inicial de teste (geralmente $5), após o qual todo uso é cobrado. Ambos oferecem apps de consumidor gratuitos (claude.ai e gemini.google.com) com cotas limitadas.
O que é a Batch API da Anthropic e quanto economiza?
A Batch API da Anthropic processa requests de forma assíncrona — resultados são devolvidos em até 24 horas — a exatamente 50% do preço padrão. Claude Sonnet cai de $3,00/$15,00 para $1,50/$7,50 por MTok. Para qualquer workload que não exige resposta em tempo real (enriquecimento noturno, processamento de documentos, classificação em massa), a Batch API reduz pela metade a fatura do Claude sem nenhuma mudança na qualidade de saída.
O tokenizador do Claude e do Gemini é o mesmo?
Não. Claude usa um tokenizador byte-pair encoding (BPE) similar ao do GPT-4. Gemini usa SentencePiece unigram. Para o mesmo texto em inglês, a contagem de tokens pode diferir entre 5% e 15%. Código, scripts não latinos e conteúdo com muito markdown mostram maiores diferenças. Sempre faça benchmark com seus prompts/respostas reais usando a ferramenta de tokenização de cada provedor antes de fechar projeções de orçamento.
Como calculo o custo por consulta em vez do custo mensal?
Divida o custo mensal pela quantidade de chamadas. Se você envia 100.000 chamadas/mês com média de 1.000 tokens de entrada e 500 de saída: total = 100M entrada + 50M saída. No Claude Sonnet: (100 × $3,00) + (50 × $15,00) = $300 + $750 = $1.050/mês ÷ 100.000 chamadas = $0,0105 por consulta. Este custo por consulta é o que você precisa para precificar um produto de usuário final com modelo por consulta ou assinatura.
GPT-4o é competitivo em preço contra Claude e Gemini?
Em geral, não para workloads de alto volume. GPT-4o custa $5,00/MTok de entrada e $15,00/MTok de saída — mais caro que Claude Sonnet na entrada e igual na saída, com janela de contexto máxima de 128k (menor que as outras opções). Sua vantagem real está na integração com o ecossistema OpenAI (Assistants API, plugins, Azure) e em capacidades multimodais específicas. Para workloads puramente de texto em escala, Claude Sonnet ou Gemini Pro costumam ser mais econômicos.