Der Beitrag KI-generierte Podcasts: Wenn Gespräche niemals stattgefunden haben von Valerie Wagner erschien zuerst auf BASIC thinking. Über unseren Newsletter bleibst du immer aktuell.
Verschiedene Tools wandeln mithilfe Künstlicher Intelligenz (KI) Text in Ton oder Ton in Text um und erzeugen synthetische Stimmen. Damit lassen sich Podcast-Gespräche erstellen, die nie stattgefunden haben. Doch KI-generierte Podcasts offenbaren neben Chancen auch Risiken.
Im November 2023 veröffentlichte Seven.One Audio die Podcast-Serie „Gebrüder Glittch“, eine vollständig KI-generierte Produktion. Ziel des Experiments war es, die Potenziale von KI auch in der Vermarktung zu nutzen. Während im ARD Audiolab KI Wetter- und Verkehrsmeldungen testweise vorhersagt werden, läuft „The Rock – Radio Helgoland“ komplett KI-gesteuert.
KI in der MedienproduktionKI-generierten Podcast: Wenn Gespräche niemals stattgefunden haben
Ein Beispiel für KI-gestützte Kreativität ist der Podcast Sheldon County von James Ryan, Doktorand an der University of California in Santa Cruz, der schon 2018 online ging. Hier übernimmt KI sämtliche Aufgaben: Sie schreibt Geschichten, spricht sie mit der realistisch klingenden Computerstimme „Justine“ (Amazon AWS) ein und bietet Nutzer:innenn individualisierte, endlose Podcasts. Die Simulation bildet eine amerikanische Kleinstadt mit komplexen Charakteren und Sozialstrukturen ab, die sich immer neu kombinieren lassen. Ryan sieht darin einen Vorgeschmack auf eine Zukunft, in der Computer Romane und TV-Serien erschaffen.
Seven.One Audio experimentiert mit Gebrüder Glittch (2023) einem KI-generierten Märchen-Podcast. Die KI übernimmt Storytelling, Sprachsynthese und sogar die Covergestaltung. Dennoch betont das Unternehmen, dass KI den kreativen Funken des Menschen nicht ersetzen kann. Besonders bei Stimmen bleibt oft ein Gefühl der Fremdheit. Nützlich ist KI vor allem im Brainstorming und in der Vermarktung: So individualisiert Seven. One mit KI Werbekampagnen, etwa für Automobilhersteller, die 300 verschiedene Spots für lokale Märkte erstellen.
In der Schweiz hat die Digitalagentur Netgen mit AI Minutes einen fast vollständig KI-generierten Podcast entwickelt. Das Team um Dennis Oswald und Amar Delić setzt zahlreiche KI-Tools ein: von der Konzeption über die Textgenerierung bis zur synthetischen Moderatorinnenstimme „Lily“. Ein maßgeschneiderter GPT-Assistent, Midjourney für visuelle Elemente und Python zur Automatisierung runden das Projekt ab. Der wöchentliche Podcast bietet seit Dezember 2023 einen Rückblick auf KI-Entwicklungen und regt zur Diskussion über soziale und moralische Grenzen an.
Ein Pionierprojekt ist The Rock – Radio Helgoland, das Thore Laufenberg betreibt. Nach dem Weggang der Mitarbeiter entwickelte er ein KI-System, das Themen recherchiert, Texte schreibt und diese mit geklonten Stimmen ehemaliger Moderatoren präsentiert. Sogar die Stimme eines verstorbenen Kollegen ist – mit Zustimmung der Angehörigen – wieder zu hören. Die Helgoländer reagieren gemischt: Während einige das Konzept begrüßen, kritisieren andere die Steuerung aus Bremerhaven. Laufenberg sieht in der KI Chancen, aber auch Risiken, etwa für Arbeitsplätze. Emotionen oder originelle Inhalte könne die Technologie jedoch noch nicht erzeugen.
KI verändert die Podcast-Produktion
Transkriptionen, die früher Stunden dauerten, erledigen Tools wie Whisper oder Aiko heute schneller – präzise und mit korrekter Zeichensetzung. Auch bei Recherche, Themenfindung und Skripterstellung unterstützt Künstliche Intelligenz. Sie formuliert Interviewfragen, erstellt Gesprächsleitfäden und schlägt Episodenstrukturen vor.
In der Audioproduktion optimieren Tools wie Auphonic mit KI die Tonqualität, entfernen Rauschen, passen Lautstärken an und eliminieren Pausen oder Füllwörter. Zudem erstellt sie Übersetzungen, Untertitel, Audiogramme und Marketingmaterial. So können auch Laien Podcasts produzieren. Für Produktionsfirmen und Marketingteams senkt KI die Kosten, beschleunigt Prozesse und macht Aufnahmestudios oft überflüssig.
Aktuelle KI-Tools für Audiogenerierung
Tools wie Speechify, Play.ht, Descript und NotebookLM unterstützen die Podcast-Produktion auf unterschiedliche Weise. Während Speechify, Play.ht und Descript auf Sprachsynthese spezialisiert sind, fokussiert sich NotebookLM auf Textverständnis und Wissensmanagement. Alle vier Dienste sind cloudbasiert und bieten Abo-Modelle.
Gemeinsamkeiten von Speechify, Play. ht und Descript:
- KI-gestützte Text-zu-Sprache-Technologie
- Bibliotheken mit verschiedenen Stimmen
- Anpassungsoptionen für Stimmen
Unterschiede:
- Speechify: Entwickelt für Menschen mit Leseschwierigkeiten, bietet OCR-Technologie und ist als App, Browser-Erweiterung und Desktop-Anwendung verfügbar.
- ht: Spezialisiert auf Voiceovers für Marketing und Medien, ermöglicht Stimmklonen.
- Descript: Umfassende Audio- und Videobearbeitungssoftware mit Funktionen wie Overdub und textbasierter Audiobearbeitung.
NotebookLM, ein KI-Tool von Google, erlaubt es Nutzer:innen, Inhalte wie Textdateien, PDFs oder Audiodateien hochzuladen und durchsuchbar zu machen. Sie fasst komplexe Materialien zusammen, beantwortet Fragen mit Quellenangaben und verwandelt Rohdaten in strukturierte Formate wie Studienführer, chronologische Übersichten oder Audio-Zusammenfassungen. Zielgruppe sind Forscher, Studenten und Wissensarbeiter.
Text-to-Speech und Voice Cloning
Text-to-Speech wandelt Texte in gesprochene Sprache um. Dabei unterscheidet man zwischen Sprachwiedergabe, die auf eingesprochenen Aufnahmen basiert, und Sprachsynthese, die Sprache rein rechnerisch erzeugt. Moderne Systeme kombinieren Natural Language Processing (NLP) zur Textanalyse mit Digital Signal Processing (DSP) zur Sprachausgabe.
So entstehen natürlich klingende Stimmen. Voice Cloning kopiert Stimmen digital und reproduziert sie täuschend echt – selbst aus kurzen Sprachaufnahmen. Diese Technologie findet Anwendung in der Filmindustrie und zunehmend im Podcasting.
Chancen von KI-generierten Podcasts
Künstliche Intelligenz unterstützt Laien aber auch Profis bei der Podcast-Produktion. Tools transkribieren Audiodateien in kürzester Zeit zu Text und machen Podcasts damit zugänglicher – für Menschen, aber auch für Suchmaschinen. Wichtig: Das Transkript sollte in einen strukturierten Artikel umgewandelt werden, eine Bleiwüste liest sich niemand durch, auch keine Suchmaschine.
KI hilft bei der Recherche, findet Themen für neue Inhalte, strukturiert, formuliert Fragen, verbessert die Audioqualität und stellt Marketingmaterial zur Verfügung. Das alles auf Knopfdruck und aus bestehenden Inhalten und Dokumenten. Damit senkt KI Kosten und beschleunigt Prozesse.
Mithilfe von KI können fiktive Gesprächspartner erschaffen werden, die mit Fachwissen glänzen. Oder es lassen sich historische Persönlichkeiten „zum Leben erwecken“. NotebookLM, zum Beispiel, liefert die Audiodateien standardmäßig nur auf englisch aus, mit einem Prompt kann es die Tondatei auch auf deutsch oder jede andere Sprache übersetzen.
Das macht einen Podcast zugänglicher und damit können weitere Zielgruppen erreicht werden. Künstliche Intelligenz braucht keine Pause, keinen Urlaub, kein Essen, sie kann Audio-Content 24/7 erstellen.
Risiken von KI-generierten Podcasts
Doch NotebookLM erstellt auch Gespräche, die so nie stattgefunden haben. Ich habe neulich für einen Bericht in der Lokalzeitung ein Interview geführt. Das Tool hat daraus einen 13-minütigen Podcast kreiert, den ich nie aufgenommen habe.
Eingangs habe ich von Bildern von Frauen in Kleidern aus Katzen erzählt, auch das sind Abbildungen, die es nicht gibt. Sie sind erfunden, denn KI halluziniert.
Viele Podcast-Produzenten sprechen davon, dass du mit einem Podcast direkt ins Ohr deiner Hörer kommst. Und so ist es. Guter Ton ist wesentlich für gute Podcasts. Wenn der Ton nicht stimmt, es zischt und knirscht, die Gesprächspartner klingen, als hätten sie in eine Blechbüchse gesprochen, brechen Hörer ab. Dasselbe gilt für monotone Erzähler. Künstliche Stimmen haben keine Höhen und Tiefen, kein Stocken, kein Atmen, keine Pausen. Nichts menschliches.
Den Podcast „Gebrüder Glittch“ konnte ich mir nicht vollständig anhören, die künstliche Stimme hat mich gestört. Jeder der schon mal länger mit Alexa, Siri oder Cortana gesprochen hat, kennt das. Es hört sich einfach künstlich an, die eindimensionale Stimme, die Antwort „Das habe ich nicht verstanden“. Erst im März kündigte Amazon an, die Sprachbefehle künftig in der Cloud zu speichern, statt bisher lokal.
Die Begründung: „Da wir die Fähigkeiten von Alexa mit generativen KI-Funktionen erweitern, die auf der Rechenleistung der sicheren Cloud von Amazon basieren, haben wir beschlossen, diese Funktion nicht mehr zu unterstützen.“. Was da nicht steht: Und um vermutlich die KI mit den Kundenstimmen zu trainieren. Privatsphäre und Recht am eigenen Wort adé!
Wir Menschen erkennen uns am Klang unserer Stimmen, und unsere Gespräche haben einen menschlichen Ton – auch im Internet. Künstliche Intelligenz bietet viele Chancen, besonders in der Audiobearbeitung. Doch sie birgt auch Risiken wie das Voice Cloning. Diese Technologien können zu Missbrauch, Spam und Phishing führen und mehr Schaden als Nutzen bringen. Es spricht nichts dagegen, Künstliche Intelligenz zu nutzen, aber sie muss gekennzeichnet sein und wohlwollend eingesetzt werden.
Auch interessant:
- Künstliche Intelligenz: 7 KI-Podcasts, die du kennen solltest
- HART: Neue KI erzeugt realistische Bilder – schneller als je zuvor
- KI-Token: Die kleinste sprachliche Einheit von Künstlicher Intelligenz
- Künstliche Fotosynthese: Neues Verfahren gewinnt Energie aus Abfällen
Der Beitrag KI-generierte Podcasts: Wenn Gespräche niemals stattgefunden haben von Valerie Wagner erschien zuerst auf BASIC thinking. Folge uns auch auf Google News und Flipboard.