KI-Telefonassistent Entwicklung
Produktionsreife Voice Agents entwickelt auf Vapi, Retell und LiveKit — einsatzbereit in 4 bis 8 Wochen, abgerechnet pro Anruf zu 0,05–0,15 $, ab Tag eins in Ihr bestehendes CRM integriert.
Ein echtes Telefongespräch. Kein Web-Widget, kein Chatbot mit Sprachausgabe.
Ein KI Voice Agent ist Software, die Telefongespräche für Sie annimmt oder tätigt. Der Anrufende wählt eine Nummer. Der Agent nimmt ab. Er hört zu, verarbeitet die Eingabe und antwortet in Echtzeit mit einer Latenz unter einer Sekunde. Er bucht Termine, qualifiziert Interessenten, bestätigt Bestellungen, beantwortet häufige Fragen und übergibt an einen Menschen, wenn das Gespräch den vorgesehenen Rahmen verlässt.
Unter der Haube ist ein Voice Agent eine Pipeline. Das Audio des Anrufenden wird an ein Spracherkennungsmodell wie Deepgram oder Whisper übertragen. Das Transkript geht an ein Sprachmodell (GPT-4o, Claude) mit Ihrem Unternehmenskontext und einem System-Prompt. Die Antwort durchläuft ein Text-zu-Sprache-Modell wie ElevenLabs oder Cartesia, das in natürlicher Stimme antwortet. Die Orchestrierung erfolgt auf einer Plattform — Vapi, Retell oder LiveKit.
Der Unterschied zwischen einem Voice Agent, der roboterhaft klingt, und einem, der menschlich wirkt, liegt nicht am Sprachmodell. Er liegt am Turn-Taking-Modell, der Wahl der Sprachsynthese und dem Latenz-Budget. Genau hier scheitern die meisten Implementierungen.
Wir entwickeln produktionsreife Voice Agents seit 2023, beginnend mit internen Deployments bei einem iGaming-Betreiber mit über 10 Millionen Spielern. Wir wissen, wo sie versagen.
Sechs Typen von Voice Agents, die wir entwickeln.
Ausgewählt nach Ihrem Anrufvolumen, Ihrem Gesprächsmuster und Ihrem Compliance-Profil. Nicht danach, was für uns am einfachsten ist.
Inbound-Support Voice Agents
24/7-Telefonabdeckung für häufige Fragen, Bestellstatus, Terminänderungen und grundlegende Fehlersuche. Übergabe an einen Menschen, wenn die Absicht des Anrufenden außerhalb des trainierten Bereichs liegt.
Typische Deflection: 70–85 % der Inbound-Anrufe ohne Übergabe gelöstOutbound Lead-Qualifizierungsagenten
Ruft Inbound-Web-Leads innerhalb von 60 Sekunden an, qualifiziert sie in unter drei Minuten und bucht ein Verkaufsgespräch in Ihrem Kalender.
Typische Steigerung: 3–5x Kontaktrate vs. manuellem Anwählen, zu einem Bruchteil der Kosten pro qualifiziertem LeadKI-Empfangsdamen für Kliniken & Dienstleistungsunternehmen
Empfangsvertretung für medizinische, zahnärztliche, tierärztliche und juristische Büros. Bucht Termine, erfasst Versicherungsdaten, bestätigt Absagen und leitet Notfälle weiter. HIPAA-konform auf selbst gehostetem oder konformem Cloud-System.
Referenz-Deployment: 100 % Annahmequote, +28 % Buchungen in 90 TagenReservierungs- & Buchungsagenten
Restaurants, Hotels, Salons, Fitnessstudios. Der Agent übernimmt neue Buchungen, Änderungen, Wartelisten und Nachverfolgung bei Nichterscheinen — 24 Stunden am Tag, in über 10 Sprachen.
Milina-Deployment: 50+ Anrufe/Wochenendnacht zu 0,09 $/AnrufErinnerungs- & Verlängerungsagenten
Versicherungsverlängerungen, Zahlungserinnerungen, Abonnement-Rückgewinnung. Telefongespräche erzielen in unseren Produktionsdaten eine 3–4-fach höhere Konversionsrate als SMS, bei vergleichbaren Kosten pro Kontakt.
3–4x höhere Konversion als SMS bei ähnlichen Kosten pro KontaktVoice-gestützte interne Assistenten
Ein Voice Agent, den Ihr Vertriebs- oder Operations-Team tagsüber anruft: „Zeig mir die Pipeline des letzten Monats nach Stufen. Buche eine Demo mit dem Miller-Kunden." Sprachoberfläche auf HubSpot, Salesforce oder GoHighLevel.
Eingesetzt auf: HubSpot · Salesforce · GHL · ZohoWelche Voice-Plattform sollten Sie verwenden?
Drei Plattformen dominieren produktionsreifes Voice AI im Jahr 2026: Vapi, Retell und LiveKit. Sie sind nicht austauschbar.
Verwaltete Infrastruktur, Drag-and-drop-Flows, vorintegrierte Telefonie. Ein funktionierender Prototyp ist innerhalb eines Tages möglich. Wir empfehlen Vapi für einfache Single-Intent-Agents (FAQ, einfache Buchung) und für Teams, die in zwei Wochen ohne Infrastrukturaufwand liefern müssen.
Das proprietäre Turn-Taking-Modell liefert eine Antwortlatenz von ca. 600 ms — der aktuelle Produktionsmaßstab. SOC 2 Type II macht es zur Standardwahl für US-amerikanische Kunden im Gesundheits- und Finanzbereich, die Zertifizierungen benötigen, aber kein Self-Hosting betreiben können.
Open-Source, selbst hostbarer Stack. Unser Milina-Deployment läuft bei 0,09 $ pro 3-minütigem Anruf. Die einzige sinnvolle Option für großvolumige Deployments, bei denen Minutengebühren erheblich ins Gewicht fallen. Kompromiss: Entwicklungsaufwand — Sie wählen und verbinden Ihre eigenen STT-, LLM- und TTS-Anbieter.
Wir sind plattformagnostisch. Im Discovery Workshop prüfen wir Ihren Anwendungsfall, Ihr Compliance-Profil und Ihre Anrufökonomie — und empfehlen den passenden Stack, nicht denjenigen mit dem besten Partnerprogramm.
Wie Produktion tatsächlich aussieht.
Drei Deployments. Echte Kennzahlen. Keine dieser Angaben existiert nur auf einer Demo-Folie.
Reservierungs- und Anfragebearbeitung. 0,09 $ pro Anruf, 91 % Abschlussrate.
LiveKit + Deepgram STT + GPT-4o-mini + Cartesia TTS. Bearbeitet 50+ Anrufe pro Wochenendnacht. 91 % Abschlussrate — das Ziel des Anrufenden wurde ohne menschliche Übergabe erreicht. Während des Shadow-Modes merkten Anrufende in der Regel nicht, dass sie mit einer KI sprachen, bis wir es ihnen mitteilten.
HIPAA KI-Empfangsdame. 100 % Annahmequote, 28 % mehr Buchungen.
HIPAA-konformes Deployment auf selbst gehostetem LiveKit im VPC des Kunden. 100 % Annahmequote bei Inbound-Anrufen, zuvor 62 %. Der Rest ging zur Voicemail und ging verloren. 28 % mehr gebuchte Termine in den ersten 90 Tagen.
QA-Bewertungssystem. 66 % → 91 % Genauigkeit, 2 % → 25 % Abdeckung.
Kein Voice Agent, aber erwähnenswert, weil die Methodik zählt. Wir haben ein Live-QA-Auditsystem von 66 % auf 91 % Genauigkeit gebracht, indem wir von direktem Prompting auf schemageleitetes Schlussfolgern umgestellt haben. Das ist das Niveau an Sorgfalt, das wir bei jedem Voice-Deployment anlegen.
Voice-KI-Projekte haben drei Formen.
Keine Stundenabrechnung für die Entwicklung. Keine überraschenden Rechnungen. Wenn wir auf einen unerwarteten technischen Blocker stoßen, der mehr Aufwand erfordert, ist das unser Risiko — dafür gibt es den Discovery Workshop.
| Leistung | Umfang | Preis | Zeitrahmen |
|---|---|---|---|
| Discovery Workshop | Anwendungsfall-Audit, Architekturdokument, Festpreisangebot | 1.500–3.000 $ | 1 Woche |
| Voice Agent MVP | Einzelner Anwendungsfall, ein Kanal, Kern-CRM-Integration | 6.000–12.000 $ | 3–4 Wochen |
| Produktionsreifer Voice Agent | Mehrsprachig, Multi-Intent, vollständige CRM- + Analytik-Integration | 15.000–30.000 $ | 6–10 Wochen |
| Monatliches Retainer | Betrieb, Prompt-Optimierung, neue Intents, Observability | 2.000–8.000 $/Monat | Nach Launch |
Die Produktionskosten pro Anruf liegen je nach Anrufdauer, LLM-Tier und Voice-Plattform zwischen 0,05 und 0,15 $. Wir modellieren dies für Sie im Discovery Workshop, damit Sie Ihre Stückkosten kennen, bevor Sie sich zur Entwicklung verpflichten.
Von der Entdeckung bis zur Produktion in 4–8 Wochen.
Keine wochenlangen „Wir arbeiten daran"-Funkstillen. Wöchentliche Demos mit echten Daten ab Woche eins.
Discovery Workshop
Ein einwöchiges kostenpflichtiges Audit. Sie erhalten ein Architekturdokument, eine Stack-Empfehlung, ein Stückkostenmodell und ein Festpreisangebot. Falls Sie nicht mit uns fortfahren, behalten Sie das Dokument.
Entwicklung
Täglicher Slack-Zugang und wöchentliche Demos mit echten Daten aus Ihren Systemen. Keine wochenlangen Funkstillen. Fester Umfang, fester Preis.
Shadow-Mode
Der Voice Agent läuft parallel zu Ihrem menschlichen Team. Wir messen Abschlussrate, Übergaberate, Anruferzufriedenheit und Kosten pro Anruf gegenüber der realen Ausgangslage.
Produktion
Live-Traffic mit vollständigen Observability-Dashboards (LangSmith oder Helicone), die an Ihr Team übergeben werden. Ein 30-tägiges Fenster nach dem Launch für Prompt- und Flow-Anpassungen ist inbegriffen.
Optionales Retainer. Etwa 70 % unserer Voice-Kunden setzen auf ein monatliches Retainer für Betrieb, neue Intents und Prompt-Optimierung. Optional — wenn Ihr internes Team bereit ist zu übernehmen, übergeben wir sauber.
Vertikales Know-how, kein Template.
Jede Branche hat ihr eigenes Gesprächsmuster, Compliance-Profil und ihre eigenen Schwachstellen. Wir passen uns Ihren an.
Fragen zu Voice Agents, die wir in jedem Discovery-Call beantworten.
Wie lange dauert die Entwicklung eines produktionsreifen KI Voice Agents?
Was sind die realistischen Kosten pro Anruf?
Können Ihre Voice Agents als menschlich durchgehen?
Übernehmen Sie HIPAA-, GDPR- und andere Compliance-Anforderungen?
Kann der Voice Agent in unser bestehendes CRM integriert werden?
Was passiert, wenn die KI eine Anfrage nicht versteht?
Gehören Code und Infrastruktur uns?
Können Sie neben unserem internen Entwicklungsteam arbeiten?
Bereit, einen Voice Agent zu entwickeln, der wirklich funktioniert?
Ein 20-minütiges Gespräch. Keine Präsentation. Wir sagen Ihnen, ob Ihr Anwendungsfall realistisch ist, welche Plattform zu Ihrer Ökonomie passt, und eine grobe Zahl. Falls wir nicht passen, empfehlen wir Ihnen jemanden, der passt.