HomeAPIs › Umarmendes Gesicht

Hugging Face API – Preise, kostenloses Kontingent und wie man ein Token erhält

Hugging Face beherbergt Hunderttausende offener Modelle und lässt Sie diese durch das laufen lassen Serverlose Inferenz-API, gewidmet Inferenzendpunkte, oder Räume. Hier erfahren Sie, was es kostet, das kostenlose Kontingent und wie Sie Ihr Zugriffstoken erhalten.

Hugging Face-Preise (Referenz, Juni 2026)

Plan / ProduktPreisWas Sie bekommen
Kostenloses Konto Kostenlose Stufe$0Begrenzte monatliche serverlose Credits, ratenbegrenzte Inferenz, freie CPU-Speicherplätze
PRO~9 $/MonatMehr serverlose Credits, höhere Ratenlimits, ZeroGPU Spaces
Inferenzendpunkte (CPU)ab ca. 0,03 $/StdDediziert, automatische Skalierung, Abrechnung pro Stunde
Inferenzendpunkte (GPU)ab ca. 0,50 $/StdKleine GPU; Größere GPUs lassen sich auf mehrere US-Dollar pro Stunde skalieren
Team / Unternehmenab ~20 $/Benutzer/MonatSSO, privater Hub, Support, Kontrollen
⚠️ Referenzpreise, Juni 2026 – Hugging Face ändert häufig Guthaben, Hardwaretarife und Plannamen. Bestätigen Sie am Huggingface.co/pricing. Serverlose Anrufe, die an Inferenzanbieter von Drittanbietern weitergeleitet werden, werden zum Token-Tarif dieses Anbieters abgerechnet.

Die kostenlose Stufe

Ein kostenloses Hugging Face-Konto beinhaltet a kleines monatliches Guthaben für die Serverless Inference API plus gebührenbegrenztem Zugriff auf viele gehostete Modelle und kostenlos CPU-Speicherplätze für Demos. Es reicht aus, Prototypen zu erstellen und Modelle zu testen. Für stabilen Datenverkehr können Sie entweder auf upgraden PRO (~9 $/Monat) für größere Credits und Limits, oder richten Sie ein eigenes Konto ein Inferenzendpunkt Abrechnung pro Stunde nach Hardware.

So erhalten Sie einen Hugging Face-Token (Schritt für Schritt)

1. Erstellen Sie ein Konto unter Huggingface.co.
2. Gehe zu Einstellungen → Zugriffstoken.
3. Klicken Neuer Token, wähle a feinkörnig Geben Sie einen Namen für den Geltungsbereich (oder einfaches Lesen/Schreiben) ein.
4. Kopieren Sie die hf_… Einmaliges Token – behandeln Sie es wie ein Passwort.

Rufen Sie ein gehostetes Modell auf:

# replace $HF_TOKEN and the model id
Curl https://api-inference.huggingface.co/models/google/flan-t5-base \
-H „Autorisierung: Inhaber $HF_TOKEN“ \
-H „Inhaltstyp: application/json“ \
-d '{"inputs":"Ins Französische übersetzen: Hallo"}'

Günstigere / alternative Optionen

Wenn Sie eine gehostete Pay-per-Token-API anstelle der Verwaltung von Modellen wünschen, vergleichen Sie Gemeinsam KI, Replizieren, Groq Und OpenRouter – alle nutzen offene Modelle mit einfacher Abrechnung pro Token. Für Closed-Frontier-Modelle siehe OpenAI Und Anthropisch. Um diese für Ihre Nutzung abzuschätzen, verwenden Sie die KI-Kostenrechner.

FAQ

Gibt es für Hugging Face eine kostenlose Stufe?

Ja – ein kostenloses Konto mit begrenzten monatlichen Serverless-Credits, ratenbegrenzter Inferenz und kostenlosen CPU-Speicherplätzen. Bei stärkerer Nutzung wird auf PRO (~9 $/Monat) oder Inferenzendpunkte pro Stunde umgestellt.

Wie erhalte ich ein Hugging Face-Zugriffstoken?

Konto → Einstellungen → Zugriffstoken → Neues Token. Wählen Sie einen feingranularen oder Lese-/Schreibbereich und kopieren Sie das hf_-Token einmal.

Was ist der Unterschied zwischen serverloser Inferenz und Inferenzendpunkten?

Serverless wird gemeinsam genutzt, ist ratenbegrenzt und eignet sich hervorragend zum Testen. Bei Inference Endpoints handelt es sich um dedizierte, automatisch skalierende Bereitstellungen, die pro Stunde nach der von Ihnen ausgewählten Hardware abgerechnet werden – vorhersehbar für den Produktionsverkehr.

Nicht mit Hugging Face verbunden. Bei den Preisen handelt es sich um Richtwerte – überprüfen Sie diese stets auf der offiziellen Preisseite.