OpenAI: Neue Sprachagenten der KI

Was ist neu?

OpenAI hat neue Sprach-zu-Text- und Text-zu-Sprache-Audiomodelle in der API vorgestellt. Diese sollen noch leistungsfähiger sein als alle bisherigen Lösungen und sollen künftig beispielsweise in Kunden-Callcentern oder bei der Transkription von Besprechungsnotizen unterstützen können.

Hierbei können Entwicklerinnen und Entwickler erstmalig das Text-to-Speech-Modell, das auf einem gpt-4o-mini-tts-Modell basiert, anweisen, auf eine bestimmte Art zu sprechen. So können sie beispielsweise Anweisungen geben wie: „Sprich wie ein sympathischer Kundendienstmitarbeiter“. So sollen die Sprachagenten noch individueller einsetzbar sein, wie beispielsweise als empathische Kundendienstmitarbeitende oder ausdrucksstarke Geschichtenerzähler.

Auch an neuen Sprache-zu-Text-Modellen wurde gearbeitet, die von OpenAI als gpt-4o-transcribe und gpt-4o-mini-transcribe vorgestellt wurden. Sie weisen deutlich verbesserte Wortfehlerraten und eine bessere Spracherkennung und Genauigkeit im Vergleich zu den ursprünglichen Whisper-Modellen auf. So können die neuen Sprache-zu-Text-Modelle Nuancen der Sprache besser erfassen, Fehleinschätzungen wurden reduziert, insbesondere bei Akzenten, lauten Umgebungen und unterschiedlichen Sprechgeschwindigkeiten.

Wer kann die neuen Features bereits nutzen?

Zunächst sind die neuen Audiomodelle ab sofort nur für Entwicklerinnen und Entwickler innerhalb der API nutzbar. So können sie ihre eigenen Sprachagenten erstellen und testen.

Wann genau auch alle anderen Nutzerinnen und Nutzer die personalisierten Sprachagenten nutzen können, ist derzeit noch nicht bekannt.

Ausprobieren können alle interessierte Nutzerinnen und Nutzer unter openai.fm allerdings bereits einige mögliche Szenarien und Sprecher.

Montag bis Donnerstag	von 08.00 Uhr bis 17.00 Uhr
Freitag	von 08.00 Uhr bis 14.00 Uhr

Montag bis Donnerstag	von 09.00 Uhr bis 16.00 Uhr
Freitag	von 09.00 Uhr bis 12.00 Uhr

OpenAI: Neue Sprachagenten der KI

Was ist neu?

Wer kann die neuen Features bereits nutzen?

Über die Autorin

Servicezeiten gerade nicht aktiv