Die echten Kosten eines AI SaaS 2026 — Vollstandige Infrastrukturanalyse
16. Juni 2026 · 13 Min. Lesezeit · APICalculators Blog
Jeder redet uber das Potenzial von AI SaaS. Aber kaum jemand spricht uber die tatsachlichen Betriebskosten. Dieser Leitfaden liefert echte monatliche Dollar-Zahlen fur alle wichtigen Infrastrukturkomponenten — LLM-APIs, Vektordatenbanken, Authentifizierung, Hosting, Zahlungsabwicklung und serverlose Funktionen — auf drei Produktionsstufen: Startup (1.000 Nutzer), Wachstum (10.000 Nutzer) und Skalierung (100.000 Nutzer).
Alle Preise stammen aus offiziellen Anbieter-Dokumentationen (Stand: Juni 2026). Unser Anwendungsmodell: Ein AI SaaS, bei dem Nutzer 5 Anfragen pro aktivem Tag stellen, jede Anfrage einen LLM-Aufruf (500 Prompt-Token + 300 Ausgabe-Token) und eine Vektordatenbank-Suche erfordert. Erlbsmodell: 3% Conversion zu einem 29$/Monat-Plan.
Kurzfassung: Ein schlankes AI SaaS kostet bei 1.000 Nutzern 51–143 USD/Monat. Bei 10.000 Nutzern: 432–1.313 USD/Monat. Bei 100.000 Nutzern: 4.201–14.488 USD/Monat. Der 3-fache Unterschied zwischen Budget- und Premium-Stack kommt fast ausschliesslich aus drei Entscheidungen: Modellwahl, Auth-Anbieter und Vektordatenbank-Deployment.
1. LLM-API-Kosten
LLM-API-Ausgaben sind der grosste und variabelste Kostenposten in jedem AI SaaS. Das gewahlte Modell schafft einen 15-fachen Kostenmultiplikator zwischen der gunstigsten und leistungsfahigsten Option. Bei Skalierung bestimmt diese einzige Entscheidung, ob die Infrastruktur profitabel oder untragbar wird.
| Skalierung | Tagliche aktive Nutzer | Monatliche Anfragen | GPT-5.4 nano (0,20$/1M) | Claude Sonnet 4.6 (3,00$/1M) |
|---|---|---|---|---|
| Startup (1K) | 100 | 15.000 | 7$/Mo | 90$/Mo |
| Wachstum (10K) | 1.000 | 150.000 | 71$/Mo | 900$/Mo |
| Skalierung (100K) | 10.000 | 1.500.000 | 713$/Mo | 9.000$/Mo |
Der kluge Ansatz: 80% der Anfragen an GPT-5.4 nano (einfache Abfragen, Formatierung, FAQ-Antworten) und 20% an Sonnet 4.6 (komplexes Reasoning, Code-Generierung, Analyse) weiterleiten. Bei Skalierung kostet dieser gemischte Ansatz ca. 1.942$/Monat — 78% gunstiger als reines Sonnet 4.6, mit minimalem Qualitatatsverlust fur Routineabfragen.
Modelliere deine spezifischen Token-Verhaltnisse mit dem LLM-API-Kostenrechner.
2. Vektordatenbank-Kosten
Vektordatenbanken speichern und durchsuchen die Wissensbasis deiner KI. Die Kosten wachsen mit der Vektorzahl (Corpus-Grosse) und dem Abfragevolumen. Wir schatzen die Corpus-Grosse proportional zur Nutzerzahl: 1K Nutzer → 1M Vektoren, 10K → 5M, 100K → 50M (1.536 Dimensionen, OpenAI text-embedding-3-small Format).
| Skalierung | Vektoren | Pinecone Serverless | Self-hosted Qdrant (Hetzner) |
|---|---|---|---|
| Startup (1K) | 1M | ~4$/Mo | 5$/Mo (CX22) |
| Wachstum (10K) | 5M | ~15$/Mo | 9$/Mo (CX32) |
| Skalierung (100K) | 50M | ~100$/Mo | 20$/Mo (CX42) |
Hetzner CX42 (8 vCPU, 16 GB RAM, 19,90$/Mo) bealtigt 50M Vektoren problemlos ohne Kosten pro Abfrage. Die Einrichtung von Qdrant mit Docker Compose dauert unter 2 Stunden. Deutsche Entwicklerteams profitieren zusatzlich von Hetzners Rechenzentren in Nurnberg und Falkenstein mit hervorragenden Latenzen innerhalb Europas.
Vergleiche alle Optionen im Vektordatenbank-Kostenrechner.
3. Authentifizierungskosten
Authentifizierung ist die haufigste Quelle fur Infrastrukturkostenuberterschungen. Clerk ist bis 10.000 MAU kostenlos — aber der Sprung bei Skalierung ist dramatisch. Supabase Auth ist bis 50.000 MAU kostenlos, und der Pro-Plan enthalt 100.000 MAU fur einen Pauschalpreis von 25$/Monat.
| Skalierung | MAU | Clerk | Supabase Auth |
|---|---|---|---|
| Startup (1K) | 1.000 | 0$ (kostenlos <10K) | 0$ (kostenlos <50K) |
| Wachstum (10K) | 10.000 | 25$/Mo (Pro, 10K enthalten) | 0$ (kostenlos <50K) |
| Skalierung (100K) | 100.000 | 1.825$/Mo (25$+90K×0,02$) | 25$/Mo (Pro) |
Bei 100.000 MAU ist Supabase Auth 73x gunstiger als Clerk. Empfehlung fur deutsche Entwickler: Nutze Supabase Auth auch fur DSGVO-Konformitat — Supabase bietet EU-Rechenzentren in Frankfurt an, was die Datenverarbeitung innerhalb der EU vereinfacht.
Plane deine MAU-Trajektorie mit dem Auth-Kostenrechner.
4. Hosting-Kosten
Fur ein AI SaaS, das HTTP-Anfragen bearbeitet, ist ein VPS oder eine Container-Plattform der Standard. Wir vergleichen Hetzner Cloud (europaischer Anbieter mit starkem Preis-Leistungs-Verhaltnis) mit AWS EC2 (Standard-Unternehmenslosung).
| Skalierung | Hetzner Cloud | AWS EC2 (equivalent) |
|---|---|---|
| Startup (1K) | 4,50$/Mo (CX22, 2 vCPU, 4 GB) | 15$/Mo (t3.small) |
| Wachstum (10K) | 8,80$/Mo (CX32, 4 vCPU, 8 GB) | 30$/Mo (t3.medium) |
| Skalierung (100K) | 19,90$/Mo (CX42, 8 vCPU, 16 GB) | 120$/Mo (t3.xlarge) |
Hetzner bietet bei Web-Server-Workloads ein 3-6x besseres Preis-Leistungs-Verhaltnis als AWS EC2. Fur deutsche DSGVO-konforme Deployments ist Hetzner mit Rechenzentren in Deutschland die naturliche Wahl — ohne den Aufwand, AWS-Regionen fur Datenschutzanforderungen zu konfigurieren. Vergleiche alle Provider im Cloud-VPS-Vergleichsrechner.
5. Zahlungsabwicklungskosten
Zahlungsabwicklungsgebuhren skalieren direkt mit dem Umsatz. Wir rechnen mit: 3% Nutzer-Conversion zu 29$/Monat-Planen. Startup: 30 zahlende × 29$ = 870$ MRR. Wachstum: 300 × 29$ = 8.700$ MRR. Skalierung: 3.000 × 29$ = 87.000$ MRR.
| Skalierung | Umsatz | Stripe (2,9% + 0,30$) | Paddle (5,0% + 0,50$) |
|---|---|---|---|
| Startup (1K) | 870$ | 34$/Mo | 58$/Mo |
| Wachstum (10K) | 8.700$ | 342$/Mo | 585$/Mo |
| Skalierung (100K) | 87.000$ | 3.423$/Mo | 5.850$/Mo |
Fur deutsche AI SaaS-Produkte mit EU-Kunden ist Paddle als Merchant of Record besonders relevant: Paddle ubernimmt die gesamte europaische Mehrwertsteuer-Konformitat automatisch. Das 2,1%-Aufschlag kann sich rechnen, wenn man die Kosten fur Steuerberatung, Umsatzsteuer-Voranmeldungen in verschiedenen EU-Landern und potenzielle Prufrisiiken einrechnet. Berechne deinen Breakeven im Zahlungsabwicklungs-Gebuhrrechner.
6. Serverless-Funktionskosten
| Skalierung | Monatliche Aufrufe | AWS Lambda | Cloudflare Workers |
|---|---|---|---|
| Startup (1K) | 30K | <1$/Mo (Freitier) | 0$ (Freitier) |
| Wachstum (10K) | 300K | ~1$/Mo | 0$ (Freitier) |
| Skalierung (100K) | 3M | ~20$/Mo | 5$/Mo (Bezahlplan) |
Serverless-Kosten sind im Verhaltnis zu LLM- und Auth-Ausgaben auf jeder Skalierungsstufe vernachlassigbar. Cloudflare Workers eignet sich besonders fur kurze, latenzarme Aufgaben wie Webhook-Verarbeitung und einfache Transformationen. Vergleiche Konfigurationen im Serverless-Kostenrechner.
7. Gesamtkostenubersicht
Zwei Stacks: Budget — GPT-5.4 nano, Self-hosted Qdrant auf Hetzner, Supabase Auth, Hetzner VPS, Stripe, AWS Lambda. Premium — Claude Sonnet 4.6, Pinecone Serverless, Clerk, AWS EC2, Stripe, Lambda.
| Komponente | Startup Budget | Startup Premium | Wachstum Budget | Wachstum Premium | Skalierung Budget | Skalierung Premium |
|---|---|---|---|---|---|---|
| LLM API | 7$ | 90$ | 71$ | 900$ | 713$ | 9.000$ |
| Vektordatenbank | 5$ | 4$ | 9$ | 15$ | 20$ | 100$ |
| Auth | 0$ | 0$ | 0$ | 25$ | 25$ | 1.825$ |
| Hosting | 5$ | 15$ | 9$ | 30$ | 20$ | 120$ |
| Zahlungsabwicklung | 34$ | 34$ | 342$ | 342$ | 3.423$ | 3.423$ |
| Serverless | <1$ | <1$ | 1$ | 1$ | 20$ | 20$ |
| GESAMT / MONAT | 51$ | 143$ | 432$ | 1.313$ | 4.201$ | 14.488$ |
8. Die Infrastrukturkosten halbieren
Die vier wirkungsvollsten Optimierungen, nach Impact sortiert:
1. Modell-Tiering — 60-90% Einsparung bei LLM-Kosten. Prufe deine Anfragetypen. Die meisten AI SaaS-Workloads verteilen sich so: 70% Retrieval-Augmentierung (Nano-Modell ausreichend), 20% Zusammenfassung/Formatierung (Mini-Modell ausreichend), 10% komplexes Reasoning (Frontier-Modell notwendig). Implementiere einen Classifier, der zur gunstigsten geeigneten Option weiterleitet. Allein das reduziert LLM-Kosten bei Skalierung von 9.000$/Monat auf unter 2.000$/Monat.
2. Auth-Anbieter vor dem Limit wechseln — 1.800$/Monat Einsparung bei 100K Nutzern. Die Migration von Clerk zu Supabase dauert 3-5 Arbeitstage. Plane dies vor Erreichen von 10K MAU, nicht danach — unter Druck steigen Migrationsrisiko und technische Schulden drastisch.
3. Vektordatenbank selbst hosten — 80-200$/Monat Einsparung. Qdrant auf einem Hetzner CX42 (20$/Monat) bealtigt 50M Vektoren ohne Kosten pro Abfrage. Die Einrichtung mit Docker Compose dauert unter 2 Stunden. Fur Teams, die bereits Container verwalten, ist dies die hochste Rendite aller Infrastrukturanderungen.
4. Prompt-Caching fur wiederholte Kontexte aktivieren — 40-90% Einsparung bei gecachten Token. Wenn dein System-Prompt gross ist (500+ Token) und die App mehrere aufeinanderfolgende Nachrichten pro Nutzersitzung verarbeitet, reduziert Anthropics Prompt-Caching (gecachte Token mit 90% Rabatt nach dem ersten Aufruf) die Kosten pro Sitzung erheblich.
Deinen Stack berechnen
Haufig gestellte Fragen
Ein schlankes AI SaaS kostet bei 1.000 Nutzern ca. 51-143 USD/Monat. GPT-5.4 nano halt LLM-Kosten unter 10$/Monat; Claude Sonnet 4.6 kostet 90$/Monat. Hosting (Hetzner 4,50$), Auth (Supabase Auth bis 50K MAU kostenlos) und Serverless (praktisch kostenlos bei diesem Volumen) fugen minimale Kosten hinzu.
LLM-API-Kosten dominieren auf jeder Stufe mit 60-80% der Infrastrukturausgaben. Die Modellwahl schafft einen 15-fachen Multiplikator. Bei 100K Nutzern variiert allein der LLM-Posten zwischen 713$/Monat und 9.000$/Monat. Der zweitgroesste Kostentreiber bei Skalierung ist Clerk Auth: 1.825$/Monat bei 100K MAU.
Self-hosted Qdrant auf Hetzner ist auf jeder Stufe deutlich gunstiger. Bei 100K Nutzern (50M Vektoren) kostet Pinecone ca. 100$/Monat. Qdrant auf Hetzner CX42 (19,90$) bealtigt dieselbe Last ohne Abfragekosten. Einrichtung per Docker Compose: unter 2 Stunden.
Bei den Kosten gewinnt Supabase Auth klar. Bei 100K MAU kostet Clerk 1.825$/Monat; Supabase Auth Pro kostet 25$/Monat fur bis zu 100K MAU — 73x gunstiger. Wahle Clerk nur fur die vorgefertigten React/Next.js-Komponenten bei dauerhaft unter 10K MAU.
Fur rein deutsche Vertriebe ist Stripe gunstiger (2,9% + 0,30$). Fur europaische Verbraucherprodukte mit EU-Mehrwertsteuer ubernimmt Paddle als Merchant of Record die Steuerkonformitat automatisch. Bei 10K EUR MRR kostet Paddle ca. 210 EUR mehr pro Monat als Stripe.
Die vier wirkungsvollsten Optimierungen: (1) 80% der Anfragen an Nano/Mini-Modelle — 60-90% LLM-Einsparung. (2) Vor 10K MAU zu Supabase Auth wechseln — 1.800$/Monat Einsparung bei 100K Nutzern. (3) Qdrant selbst auf Hetzner hosten — 80-200$/Monat Einsparung. (4) Prompt-Caching aktivieren — 40-90% Einsparung bei gecachten Token.