Der KI-Stack, den wir tatsächlich in der Produktion betreiben

Die Tools, Frameworks und Plattformen, die aktuell in den Systemen unserer Kunden laufen. Gegliedert nach Ebene, mit ehrlichen Hinweisen zum Thema „Wann was einsetzen". Nicht die glänzende Liste — sondern die funktionierende.

50+ Produktivsysteme Sprache · Chat · Agenten API-gehostet oder selbst betrieben Kosten pro Deployment modelliert

Warum eine Technologie-Stack-Seite — und warum genau diese.

Agenturen listen Stacks auf, um glaubwürdig zu wirken. Wir listen unseren, um zu filtern — wenn Sie darüber nachdenken, einen Sprachagenten auf einer Plattform aufzubauen, mit der wir nicht arbeiten können, sagen wir das lieber vorab als 40 Minuten in einem Erstgespräch.

Alles Folgende läuft gerade in der Produktion. Nicht „wir sind begeistert davon" oder „wir evaluieren das gerade". Wenn wir es gelistet haben, haben wir es ausgeliefert. Wenn wir etwas von der Liste entfernt haben, sind wir an eine Grenze gestoßen und weitergezogen.

Für jedes Tool beschreiben wir, wann es einzusetzen ist — den tatsächlichen Entscheidungsrahmen. Die meisten dieser Kategorien haben mehrere gute Optionen; die richtige hängt vom Anwendungsfall, der Skalierung und den Rahmenbedingungen ab.

Plattformen für Sprachagenten.

Drei starke Optionen mit unterschiedlichen Stärken.

Verwaltete Plattform

Vapi

Gehostete Sprach-KI. Schnellste Zeit bis zum MVP — ein funktionierender eingehender Agent ist an einem Nachmittag einsatzbereit. Geeignet für: Unternehmen in der Frühphase, die Sprach-KI vor der Skalierung validieren; Einzelstandort-Deployments, bei denen Betriebseffizienz wichtiger ist als die Kosten pro Anruf.

Verwaltete Plattform

Retell AI

Gehostete Sprach-KI mit starken Enterprise-Funktionen — Anrufweiterleitung, mehrstufige Gesprächsführung und Analyse-Dashboards ohne Aufwand. Geeignet für: mittelständische Deployments, bei denen der Kunde ein ausgefeiltes Produkt erwartet, kein Framework.

Selbst gehostetes Framework

LiveKit

Open-Source-Sprach-Infrastruktur. Selbst gehostet oder über deren Cloud. Geringste Kosten pro Anruf bei Skalierung, vollständige Kontrolle über die Audio-Pipeline. Geeignet für: HIPAA-konforme Stacks, hochvolumige Deployments, benutzerdefiniertes Sprach-Routing. Unser Standard für Gastronomie- und Zahnarzt-Kunden.

Telefonie

Twilio

Die Rufnummern- und Anrufsteuerungsebene unter den meisten Sprachagenten. Wir verwenden Twilio Programmable Voice für PSTN-Zugang und Twilio Flex bei der Integration in eine bestehende Contact-Center-Infrastruktur.

Latenz-Ebene

Daily.co · Agora

Alternative Echtzeit-Audio-Infrastruktur für spezialisierte Anwendungsfälle — insbesondere Mehrparteien-Gespräche und internationale Telefonie, bei denen die Preisgestaltung oder Latenz von Twilio nicht passt.

Entscheidungsbaum

Unser Entscheidungsrahmen

Schnelles MVP, ein Standort → Vapi. Mittelstand, ausgefeilte UX, mehrere Standorte → Retell. HIPAA, hohes Volumen oder kostensensible Wirtschaftlichkeit → LiveKit. Den tatsächlichen Kompromiss besprechen wir im Erstgespräch.

Speech-to-Text und Text-to-Speech.

Die Sprachqualität, die Ihre Kunden tatsächlich hören.

STT

Deepgram

Unser Standard-STT. Echtzeit-Transkription mit geringer Latenz und starker Anpassung an Fachvokabular. Besonders gut bei störenden Hintergrundgeräuschen — Gastronomie, Praxen, Anrufe vom Mobiltelefon.

STT

Whisper

OpenAIs STT. Beste Genauigkeit bei langen Aufnahmen und stark akzentierter Sprache. Wir verwenden Whisper für asynchrone Pipelines (Anrufanalyse, QA-Bewertung) und Deepgram für Echtzeit.

TTS

ElevenLabs

Die Stimme, die die meisten meinen, wenn sie sagen „KI, die nicht roboterhaft klingt". Die Enterprise-Stufe ist durch BAA für HIPAA-Stacks abgedeckt. Unser Standard, wenn Sprachqualität das entscheidende Differenzierungsmerkmal ist.

TTS

Cartesia

TTS mit der geringsten Latenz in der Produktion heute. Erste-Audio-Zeit unter 100 ms. Unser Standard, wenn Latenz das Anruf-Erlebnis entscheidend beeinflusst — was bei den meisten Sprachagenten der Fall ist.

TTS

PlayHT · OpenAI TTS

Starke Alternativen für bestimmte Stimmen oder Kostenstufen. PlayHT, wenn wir einen mehrsprachigen Katalog über ElevenLabs hinaus benötigen; OpenAI TTS, wenn das Konto bereits über OpenAI-Verträge verfügt.

Entscheidungsbaum

Unser Entscheidungsrahmen

Latenz ist entscheidend → Cartesia. Sprachqualität ist entscheidend → ElevenLabs. HIPAA → ElevenLabs Enterprise unter BAA oder selbst gehostetes Open-Weight-TTS. Stark akzentierte Sprache → Whisper auf der Eingabeseite.

LLMs — API, privat oder selbst gehostet.

Auswahl gesteuert durch Latenz, Kosten, Compliance und Datenresidenz.

Allgemein

GPT-4o · GPT-4o-mini

OpenAIs Arbeitspferde. GPT-4o für logisch anspruchsvolle Agenten-Workflows und Tool-Nutzung. GPT-4o-mini für hochvolumige Sprach- und Chat-Deflection, bei der die Kosten pro Token relevant sind.

Allgemein

Claude 3.5 Sonnet · Haiku

Anthropics Modelle. Sonnet für Langkontext-Reasoning und sorgfältiges Handeln. Haiku für kostensensible Konversations-Workloads. Besonders stark bei Aufgaben, bei denen Halluzinationen zu vermeiden sind.

Enterprise-Hosting

Azure OpenAI · AWS Bedrock

Dieselben Modelle, gehostet innerhalb Ihrer Cloud-Umgebung mit Enterprise-Verträgen. Unser Standard für Kunden aus dem Finanzdienstleistungs- und Gesundheitsbereich, deren Beschaffungsprozess keinen direkten OpenAI-Vertrag erlaubt.

Selbst gehostet

Llama 3.3 · Mistral · Qwen

Open-Weight-Modelle, die wir aus Gründen der Datenresidenz und Kostenoptimierung selbst betreiben. Llama 3.3 für allgemeines Reasoning, Mistral für kleinere/schnellere Anwendungen, Qwen für mehrsprachige Workloads.

Embeddings

OpenAI Embeddings · Cohere · bge

OpenAI text-embedding-3 als Standard für Qualität; Cohere für mehrsprachige Anwendungen; bge für selbst gehostete RAG-Stacks, bei denen keine externen Aufrufe möglich sind.

Entscheidungsbaum

Unser Entscheidungsrahmen

Höchste Reasoning-Qualität → Claude Sonnet. Geringste Latenz/Kosten bei hohem Volumen → GPT-4o-mini oder Haiku. Datenresidenz- oder Compliance-Anforderungen → Azure OpenAI / Bedrock / selbst gehostet. Wird im Erstgespräch explizit besprochen — keine Glaubensfrage.

Chatbot-Plattformen und Agenten-Frameworks.

Wann kaufen, wann bauen, wann wrappen.

Chatbot-Plattform

Botpress · Voiceflow

Visuelle Chatbot-Builder mit solider Bedienoberfläche für Betreiber. Wir setzen diese ein, wenn das Nicht-Technik-Team des Kunden nach dem Launch eigenständig Gesprächsabläufe verwalten soll.

Chatbot-Plattform

ManyChat

Das Standardwerkzeug für WhatsApp-, Instagram- und Messenger-Marketing-Automatisierungen. Wir verbinden individuelle Backends mit ManyChat für Kunden, die bereits darauf standardisiert sind.

Agenten-Orchestrierung

LangGraph

Unser Standard für zustandsbehaftete mehrstufige Agenten-Workflows. Dauerhafter Zustand, inspizierbarer Graph, menschliche Kontrollpunkte.

Agenten-Orchestrierung

LangChain

Bausteine für einfachere Pipelines, bei denen ein DAG überdimensioniert wäre. Wir wählen und kombinieren gezielt, statt alles zu übernehmen.

Agenten-Orchestrierung

OpenAI Assistants API · CrewAI

Assistants API für abgegrenzte Einzelzweck-Assistenten. CrewAI, wenn rollenbasierte Multi-Agenten-Komposition zum Workflow passt (Recherche/Schreiben/Prüfen-Muster).

Workflow-Integration

n8n · Make · Zapier

Visuelle Automatisierungsebene zur Verbindung von Agenten mit Drittanbieter-Diensten. n8n für selbst gehostete Anwendungsfälle mit Datenresidenz-Anforderungen; Make oder Zapier, wenn der Kunde bereits eine der Plattformen nutzt.

Vector Stores und RAG-Infrastruktur.

Wo Ihre Dokumente tatsächlich gespeichert sind.

Verwaltet

Pinecone

Verwaltete Vector DB, schnellste Inbetriebnahme, leistungsfähig bei Skalierung. Unser Standard, wenn betrieblicher Aufwand der begrenzende Faktor ist.

Selbst gehostet

Qdrant

Open-Source-Vector-DB, Rust-basiert, läuft in Ihrer Cloud. Unser Standard, wenn Datenresidenz oder Kosten bei Skalierung der begrenzende Faktor sind.

Postgres-nativ

pgvector

Vektorsuche innerhalb von Postgres. Unser Standard, wenn das RAG-Volumen moderat ist und der Kunde bereits Postgres betreibt — spart den Betrieb eines zweiten Datenspeichers.

Dokumentenverarbeitung

Unstructured.io · Textract · Custom OCR

Dokument-zu-Text-Pipelines für PDFs, Scans und strukturierte Formulare. Unstructured für allgemeine Zwecke; Textract bei AWS-nativen Umgebungen; individuelle OCR für stark formatierte Fachddokumente.

Backend

FastAPI · Node · Postgres · Redis

Die Basis unter jedem Agenten — API-Endpunkte, dauerhafter Workflow-Zustand, Job-Queues, Rate-Limiter. Bewusst unspektakulär.

Infrastruktur

Docker · AWS · GCP · Railway

Containerisierte Deployments. AWS und GCP für Enterprise- und Compliance-intensive Kunden; Railway und Fly.io für Startup-Deployments, bei denen Betriebseinfachheit den Ausschlag gibt.

CRM-Integrationen und Beobachtbarkeit.

CRM

HubSpot · Salesforce · Zoho · GHL

Standardintegrationen mit abgegrenzten API-Schlüsseln, Berechtigungsgrenzen und Rückschreiben von Gesprächsdaten in Datensätze. Außerdem Pipedrive, Close, ActiveCampaign, Intercom und individuelle CRM-Systeme.

Help Desk

Intercom · Zendesk · Help Scout · Front

Kontexterhaltende Übergabe von KI an Mensch — nicht „Hallo, können Sie mir noch einmal sagen, was Sie dem Bot gerade erklärt haben".

Beobachtbarkeit

LangSmith

Unser Standard für Agenten-Beobachtbarkeit. Jeder Tool-Aufruf, Modell-Aufruf und jede Entscheidung ist mit Ein- und Ausgabe nachvollziehbar. Wir setzen dies bei jedem Produktions-Agenten-Deployment voraus.

Beobachtbarkeit

Helicone

LLM-spezifisches Monitoring — Kosten, Latenz, Cache-Trefferquote, Analysen pro Modell. Ergänzt LangSmith auf der Infrastrukturseite.

Archivierung / Compliance

S3 WORM · Smarsh · Global Relay

Compliance-gerechte Speicherung für Anrufaufzeichnungen, Transkripte und Aufsichtsartefakte. Eingesetzt in Deployments im Gesundheitswesen und bei Finanzdienstleistern.

Analyse

Segment · Amplitude · PostHog · Klaviyo

Event- und Kundendaten-Stacks, in die wir Agenten integrieren — für Onboarding-Trigger, Abwanderungssignale und Retention-Kampagnen-Orchestrierung.

Wie wir auswählen — die Kurzversion.

Drei Variablen bestimmen 80 % unserer Stack-Entscheidungen für ein gegebenes Projekt: Latenz-Budget, Datenresidenz-Anforderungen und das Volumen im stabilen Betrieb.

Geringe Latenzanforderungen, keine Residenzpflicht, geringes Volumen → gehostete Plattformen (Vapi / Pinecone / OpenAI API) gewinnen. Hohes Volumen, strenge Residenzpflicht oder HIPAA → selbst gehostete Stacks (LiveKit / Qdrant / Llama) gewinnen bei Gesamtkosten und Compliance. Mittelweg → hybride Architektur (gehostete Sprache, selbst gehosteter Vektorspeicher, Enterprise-gehostete Modelle).

Im Erstgespräch modellieren wir die konkreten Zahlen — Kosten pro Anruf, Kosten pro Gespräch, p95-Latenz-Ziele, Residenzpflichten — und die Stack-Wahl ergibt sich aus den Zahlen. In den meisten Fällen gibt es für ein gegebenes Projekt eine klar richtige Antwort; gelegentlich gibt es keine, und wir erläutern den Kompromiss.

Möchten Sie eine Stack-Empfehlung für Ihr konkretes Projekt?

Ein technisches Gespräch von 20 Minuten. Wir hören Ihren Anwendungsfall, Ihre Skalierungsanforderungen und Ihre Datenresidenz-Rahmenbedingungen und erläutern, womit wir bauen würden und warum. Wenn wir der Meinung sind, dass Sie etwas einsetzen sollten, mit dem wir nicht arbeiten, sagen wir das ebenfalls.