Die echten Kosten eines AI SaaS 2026 — Vollstandige Infrastrukturanalyse

16. Juni 2026 · 13 Min. Lesezeit · APICalculators Blog

Jeder redet uber das Potenzial von AI SaaS. Aber kaum jemand spricht uber die tatsachlichen Betriebskosten. Dieser Leitfaden liefert echte monatliche Dollar-Zahlen fur alle wichtigen Infrastrukturkomponenten — LLM-APIs, Vektordatenbanken, Authentifizierung, Hosting, Zahlungsabwicklung und serverlose Funktionen — auf drei Produktionsstufen: Startup (1.000 Nutzer), Wachstum (10.000 Nutzer) und Skalierung (100.000 Nutzer).

Alle Preise stammen aus offiziellen Anbieter-Dokumentationen (Stand: Juni 2026). Unser Anwendungsmodell: Ein AI SaaS, bei dem Nutzer 5 Anfragen pro aktivem Tag stellen, jede Anfrage einen LLM-Aufruf (500 Prompt-Token + 300 Ausgabe-Token) und eine Vektordatenbank-Suche erfordert. Erlbsmodell: 3% Conversion zu einem 29$/Monat-Plan.

Kurzfassung: Ein schlankes AI SaaS kostet bei 1.000 Nutzern 51–143 USD/Monat. Bei 10.000 Nutzern: 432–1.313 USD/Monat. Bei 100.000 Nutzern: 4.201–14.488 USD/Monat. Der 3-fache Unterschied zwischen Budget- und Premium-Stack kommt fast ausschliesslich aus drei Entscheidungen: Modellwahl, Auth-Anbieter und Vektordatenbank-Deployment.

1. LLM-API-Kosten

LLM-API-Ausgaben sind der grosste und variabelste Kostenposten in jedem AI SaaS. Das gewahlte Modell schafft einen 15-fachen Kostenmultiplikator zwischen der gunstigsten und leistungsfahigsten Option. Bei Skalierung bestimmt diese einzige Entscheidung, ob die Infrastruktur profitabel oder untragbar wird.

SkalierungTagliche aktive NutzerMonatliche AnfragenGPT-5.4 nano (0,20$/1M)Claude Sonnet 4.6 (3,00$/1M)
Startup (1K)10015.0007$/Mo90$/Mo
Wachstum (10K)1.000150.00071$/Mo900$/Mo
Skalierung (100K)10.0001.500.000713$/Mo9.000$/Mo

Der kluge Ansatz: 80% der Anfragen an GPT-5.4 nano (einfache Abfragen, Formatierung, FAQ-Antworten) und 20% an Sonnet 4.6 (komplexes Reasoning, Code-Generierung, Analyse) weiterleiten. Bei Skalierung kostet dieser gemischte Ansatz ca. 1.942$/Monat — 78% gunstiger als reines Sonnet 4.6, mit minimalem Qualitatatsverlust fur Routineabfragen.

Modelliere deine spezifischen Token-Verhaltnisse mit dem LLM-API-Kostenrechner.

2. Vektordatenbank-Kosten

Vektordatenbanken speichern und durchsuchen die Wissensbasis deiner KI. Die Kosten wachsen mit der Vektorzahl (Corpus-Grosse) und dem Abfragevolumen. Wir schatzen die Corpus-Grosse proportional zur Nutzerzahl: 1K Nutzer → 1M Vektoren, 10K → 5M, 100K → 50M (1.536 Dimensionen, OpenAI text-embedding-3-small Format).

SkalierungVektorenPinecone ServerlessSelf-hosted Qdrant (Hetzner)
Startup (1K)1M~4$/Mo5$/Mo (CX22)
Wachstum (10K)5M~15$/Mo9$/Mo (CX32)
Skalierung (100K)50M~100$/Mo20$/Mo (CX42)

Hetzner CX42 (8 vCPU, 16 GB RAM, 19,90$/Mo) bealtigt 50M Vektoren problemlos ohne Kosten pro Abfrage. Die Einrichtung von Qdrant mit Docker Compose dauert unter 2 Stunden. Deutsche Entwicklerteams profitieren zusatzlich von Hetzners Rechenzentren in Nurnberg und Falkenstein mit hervorragenden Latenzen innerhalb Europas.

Vergleiche alle Optionen im Vektordatenbank-Kostenrechner.

3. Authentifizierungskosten

Authentifizierung ist die haufigste Quelle fur Infrastrukturkostenuberterschungen. Clerk ist bis 10.000 MAU kostenlos — aber der Sprung bei Skalierung ist dramatisch. Supabase Auth ist bis 50.000 MAU kostenlos, und der Pro-Plan enthalt 100.000 MAU fur einen Pauschalpreis von 25$/Monat.

SkalierungMAUClerkSupabase Auth
Startup (1K)1.0000$ (kostenlos <10K)0$ (kostenlos <50K)
Wachstum (10K)10.00025$/Mo (Pro, 10K enthalten)0$ (kostenlos <50K)
Skalierung (100K)100.0001.825$/Mo (25$+90K×0,02$)25$/Mo (Pro)

Bei 100.000 MAU ist Supabase Auth 73x gunstiger als Clerk. Empfehlung fur deutsche Entwickler: Nutze Supabase Auth auch fur DSGVO-Konformitat — Supabase bietet EU-Rechenzentren in Frankfurt an, was die Datenverarbeitung innerhalb der EU vereinfacht.

Plane deine MAU-Trajektorie mit dem Auth-Kostenrechner.

4. Hosting-Kosten

Fur ein AI SaaS, das HTTP-Anfragen bearbeitet, ist ein VPS oder eine Container-Plattform der Standard. Wir vergleichen Hetzner Cloud (europaischer Anbieter mit starkem Preis-Leistungs-Verhaltnis) mit AWS EC2 (Standard-Unternehmenslosung).

SkalierungHetzner CloudAWS EC2 (equivalent)
Startup (1K)4,50$/Mo (CX22, 2 vCPU, 4 GB)15$/Mo (t3.small)
Wachstum (10K)8,80$/Mo (CX32, 4 vCPU, 8 GB)30$/Mo (t3.medium)
Skalierung (100K)19,90$/Mo (CX42, 8 vCPU, 16 GB)120$/Mo (t3.xlarge)

Hetzner bietet bei Web-Server-Workloads ein 3-6x besseres Preis-Leistungs-Verhaltnis als AWS EC2. Fur deutsche DSGVO-konforme Deployments ist Hetzner mit Rechenzentren in Deutschland die naturliche Wahl — ohne den Aufwand, AWS-Regionen fur Datenschutzanforderungen zu konfigurieren. Vergleiche alle Provider im Cloud-VPS-Vergleichsrechner.

5. Zahlungsabwicklungskosten

Zahlungsabwicklungsgebuhren skalieren direkt mit dem Umsatz. Wir rechnen mit: 3% Nutzer-Conversion zu 29$/Monat-Planen. Startup: 30 zahlende × 29$ = 870$ MRR. Wachstum: 300 × 29$ = 8.700$ MRR. Skalierung: 3.000 × 29$ = 87.000$ MRR.

SkalierungUmsatzStripe (2,9% + 0,30$)Paddle (5,0% + 0,50$)
Startup (1K)870$34$/Mo58$/Mo
Wachstum (10K)8.700$342$/Mo585$/Mo
Skalierung (100K)87.000$3.423$/Mo5.850$/Mo

Fur deutsche AI SaaS-Produkte mit EU-Kunden ist Paddle als Merchant of Record besonders relevant: Paddle ubernimmt die gesamte europaische Mehrwertsteuer-Konformitat automatisch. Das 2,1%-Aufschlag kann sich rechnen, wenn man die Kosten fur Steuerberatung, Umsatzsteuer-Voranmeldungen in verschiedenen EU-Landern und potenzielle Prufrisiiken einrechnet. Berechne deinen Breakeven im Zahlungsabwicklungs-Gebuhrrechner.

6. Serverless-Funktionskosten

SkalierungMonatliche AufrufeAWS LambdaCloudflare Workers
Startup (1K)30K<1$/Mo (Freitier)0$ (Freitier)
Wachstum (10K)300K~1$/Mo0$ (Freitier)
Skalierung (100K)3M~20$/Mo5$/Mo (Bezahlplan)

Serverless-Kosten sind im Verhaltnis zu LLM- und Auth-Ausgaben auf jeder Skalierungsstufe vernachlassigbar. Cloudflare Workers eignet sich besonders fur kurze, latenzarme Aufgaben wie Webhook-Verarbeitung und einfache Transformationen. Vergleiche Konfigurationen im Serverless-Kostenrechner.

7. Gesamtkostenubersicht

Zwei Stacks: Budget — GPT-5.4 nano, Self-hosted Qdrant auf Hetzner, Supabase Auth, Hetzner VPS, Stripe, AWS Lambda. Premium — Claude Sonnet 4.6, Pinecone Serverless, Clerk, AWS EC2, Stripe, Lambda.

KomponenteStartup BudgetStartup PremiumWachstum BudgetWachstum PremiumSkalierung BudgetSkalierung Premium
LLM API7$90$71$900$713$9.000$
Vektordatenbank5$4$9$15$20$100$
Auth0$0$0$25$25$1.825$
Hosting5$15$9$30$20$120$
Zahlungsabwicklung34$34$342$342$3.423$3.423$
Serverless<1$<1$1$1$20$20$
GESAMT / MONAT51$143$432$1.313$4.201$14.488$

8. Die Infrastrukturkosten halbieren

Die vier wirkungsvollsten Optimierungen, nach Impact sortiert:

1. Modell-Tiering — 60-90% Einsparung bei LLM-Kosten. Prufe deine Anfragetypen. Die meisten AI SaaS-Workloads verteilen sich so: 70% Retrieval-Augmentierung (Nano-Modell ausreichend), 20% Zusammenfassung/Formatierung (Mini-Modell ausreichend), 10% komplexes Reasoning (Frontier-Modell notwendig). Implementiere einen Classifier, der zur gunstigsten geeigneten Option weiterleitet. Allein das reduziert LLM-Kosten bei Skalierung von 9.000$/Monat auf unter 2.000$/Monat.

2. Auth-Anbieter vor dem Limit wechseln — 1.800$/Monat Einsparung bei 100K Nutzern. Die Migration von Clerk zu Supabase dauert 3-5 Arbeitstage. Plane dies vor Erreichen von 10K MAU, nicht danach — unter Druck steigen Migrationsrisiko und technische Schulden drastisch.

3. Vektordatenbank selbst hosten — 80-200$/Monat Einsparung. Qdrant auf einem Hetzner CX42 (20$/Monat) bealtigt 50M Vektoren ohne Kosten pro Abfrage. Die Einrichtung mit Docker Compose dauert unter 2 Stunden. Fur Teams, die bereits Container verwalten, ist dies die hochste Rendite aller Infrastrukturanderungen.

4. Prompt-Caching fur wiederholte Kontexte aktivieren — 40-90% Einsparung bei gecachten Token. Wenn dein System-Prompt gross ist (500+ Token) und die App mehrere aufeinanderfolgende Nachrichten pro Nutzersitzung verarbeitet, reduziert Anthropics Prompt-Caching (gecachte Token mit 90% Rabatt nach dem ersten Aufruf) die Kosten pro Sitzung erheblich.

Haufig gestellte Fragen

Was kostet ein AI SaaS bei 1.000 Nutzern?+

Ein schlankes AI SaaS kostet bei 1.000 Nutzern ca. 51-143 USD/Monat. GPT-5.4 nano halt LLM-Kosten unter 10$/Monat; Claude Sonnet 4.6 kostet 90$/Monat. Hosting (Hetzner 4,50$), Auth (Supabase Auth bis 50K MAU kostenlos) und Serverless (praktisch kostenlos bei diesem Volumen) fugen minimale Kosten hinzu.

Was ist der grosste Kostentreiber bei AI SaaS?+

LLM-API-Kosten dominieren auf jeder Stufe mit 60-80% der Infrastrukturausgaben. Die Modellwahl schafft einen 15-fachen Multiplikator. Bei 100K Nutzern variiert allein der LLM-Posten zwischen 713$/Monat und 9.000$/Monat. Der zweitgroesste Kostentreiber bei Skalierung ist Clerk Auth: 1.825$/Monat bei 100K MAU.

Pinecone oder selbst gehostetes Qdrant — was ist gunstiger?+

Self-hosted Qdrant auf Hetzner ist auf jeder Stufe deutlich gunstiger. Bei 100K Nutzern (50M Vektoren) kostet Pinecone ca. 100$/Monat. Qdrant auf Hetzner CX42 (19,90$) bealtigt dieselbe Last ohne Abfragekosten. Einrichtung per Docker Compose: unter 2 Stunden.

Clerk oder Supabase Auth — was soll ich wahlen?+

Bei den Kosten gewinnt Supabase Auth klar. Bei 100K MAU kostet Clerk 1.825$/Monat; Supabase Auth Pro kostet 25$/Monat fur bis zu 100K MAU — 73x gunstiger. Wahle Clerk nur fur die vorgefertigten React/Next.js-Komponenten bei dauerhaft unter 10K MAU.

Stripe oder Paddle fur ein AI SaaS in Deutschland?+

Fur rein deutsche Vertriebe ist Stripe gunstiger (2,9% + 0,30$). Fur europaische Verbraucherprodukte mit EU-Mehrwertsteuer ubernimmt Paddle als Merchant of Record die Steuerkonformitat automatisch. Bei 10K EUR MRR kostet Paddle ca. 210 EUR mehr pro Monat als Stripe.

Wie kann ich meine AI SaaS-Kosten halbieren?+

Die vier wirkungsvollsten Optimierungen: (1) 80% der Anfragen an Nano/Mini-Modelle — 60-90% LLM-Einsparung. (2) Vor 10K MAU zu Supabase Auth wechseln — 1.800$/Monat Einsparung bei 100K Nutzern. (3) Qdrant selbst auf Hetzner hosten — 80-200$/Monat Einsparung. (4) Prompt-Caching aktivieren — 40-90% Einsparung bei gecachten Token.