Was ist neu?
OpenAI hat neue Sprach-zu-Text- und Text-zu-Sprache-Audiomodelle in der API vorgestellt. Diese sollen noch leistungsfähiger sein als alle bisherigen Lösungen und sollen künftig beispielsweise in Kunden-Callcentern oder bei der Transkription von Besprechungsnotizen unterstützen können.
Hierbei können Entwicklerinnen und Entwickler erstmalig das Text-to-Speech-Modell, das auf einem gpt-4o-mini-tts-Modell basiert, anweisen, auf eine bestimmte Art zu sprechen. So können sie beispielsweise Anweisungen geben wie: „Sprich wie ein sympathischer Kundendienstmitarbeiter“. So sollen die Sprachagenten noch individueller einsetzbar sein, wie beispielsweise als empathische Kundendienstmitarbeitende oder ausdrucksstarke Geschichtenerzähler.
Auch an neuen Sprache-zu-Text-Modellen wurde gearbeitet, die von OpenAI als gpt-4o-transcribe und gpt-4o-mini-transcribe vorgestellt wurden. Sie weisen deutlich verbesserte Wortfehlerraten und eine bessere Spracherkennung und Genauigkeit im Vergleich zu den ursprünglichen Whisper-Modellen auf. So können die neuen Sprache-zu-Text-Modelle Nuancen der Sprache besser erfassen, Fehleinschätzungen wurden reduziert, insbesondere bei Akzenten, lauten Umgebungen und unterschiedlichen Sprechgeschwindigkeiten.
Wer kann die neuen Features bereits nutzen?
Zunächst sind die neuen Audiomodelle ab sofort nur für Entwicklerinnen und Entwickler innerhalb der API nutzbar. So können sie ihre eigenen Sprachagenten erstellen und testen.
Wann genau auch alle anderen Nutzerinnen und Nutzer die personalisierten Sprachagenten nutzen können, ist derzeit noch nicht bekannt.
Ausprobieren können alle interessierte Nutzerinnen und Nutzer unter openai.fm allerdings bereits einige mögliche Szenarien und Sprecher.