HomeAPIs › Abraçando o Rosto

API Hugging Face – preços, nível gratuito e como obter um token

Hugging Face hospeda centenas de milhares de modelos abertos e permite executá-los através do API de inferência sem servidor, dedicado Pontos finais de inferência, ou Espaços. Veja quanto custa, o nível gratuito e como obter seu token de acesso.

Preço do Hugging Face (referência, junho de 2026)

Plano/produtoPreçoO que você ganha
Conta gratuita nível gratuito$0Créditos mensais limitados sem servidor, inferência com taxa limitada, espaços de CPU gratuitos
PRÓ~$9/mêsMais créditos sem servidor, limites de taxa mais altos, ZeroGPU Spaces
Terminais de inferência (CPU)de ~$0,03/hDedicado, com escalonamento automático e cobrado por hora
Terminais de inferência (GPU)a partir de ~$0,50/horaGPU pequena; GPUs maiores escalam para vários dólares/hora
Equipe / Empresaa partir de ~$20/usuário/mêsSSO, hub privado, suporte, controles
⚠️ Preços de referência, junho de 2026 — Hugging Face altera créditos, taxas de hardware e nomes de planos com frequência. Confirmar em huggingface.co/pricing. As chamadas sem servidor roteadas para provedores de inferência terceirizados são cobradas de acordo com a taxa por token desse provedor.

O nível gratuito

Uma conta gratuita do Hugging Face inclui um pequeno crédito mensal para a API Serverless Inference além de acesso com taxa limitada a muitos modelos hospedados e acesso gratuito Espaços de CPU para demonstrações. Basta prototipar e testar modelos. Para um tráfego constante, você pode atualizar para PRO (~$9/mês) para créditos e limites maiores, ou crie um dedicado Ponto final de inferência cobrado por hora por hardware.

Como obter um token Hugging Face (passo a passo)

1. Crie uma conta em huggingface.co.
2. Vá para Configurações → Tokens de acesso.
3. Clique Novo token, escolha um refinado escopo (ou simples leitura/gravação), nomeie-o.
4. Copie o ah_… token uma vez – trate-o como uma senha.

Chame um modelo hospedado:

# replace $HF_TOKEN and the model id
curl https://api-inference.huggingface.co/models/google/flan-t5-base \
-H "Autorização: Portador $HF_TOKEN" \
-H "Tipo de conteúdo: aplicativo/json" \
-d '{"inputs":"Traduzir para francês: Olá"}'

Opções mais baratas/alternativas

Se você deseja uma API hospedada e paga por token em vez de gerenciar modelos, compare Juntos IA, Replicar, Groq e OpenRouter — todos executam modelos abertos com cobrança simples por token. Para modelos de fronteira fechada, consulte OpenAI e Antrópico. Para estimar qualquer um deles para seu uso, use o Calculadora de custos de IA.

Perguntas frequentes

Hugging Face tem um nível gratuito?

Sim — uma conta gratuita com créditos mensais limitados sem servidor, inferência com taxa limitada e espaços de CPU gratuitos. O uso mais pesado muda para PRO (~$9/mês) ou Endpoints de Inferência por hora.

Como obtenho um token de acesso Hugging Face?

Conta → Configurações → Tokens de acesso → Novo token. Escolha um escopo refinado ou de leitura/gravação e copie o token hf_ uma vez.

Qual é a diferença entre inferência sem servidor e endpoints de inferência?

O serverless é executado de forma compartilhada, com taxa limitada e é ótimo para testes. Os endpoints de inferência são implantações dedicadas e com escalonamento automático, cobradas por hora pelo hardware escolhido, previsíveis para o tráfego de produção.

Não afiliado ao Hugging Face. Os preços são estimativas de referência – verifique sempre na página oficial de preços.