(Deep)Fake-Pop von Milli Vanilli bis Drake
von Tomy Brautschek
30.4.2024

Du weißt, es ist wahr.

Die Geschichte der Popmusik wird derzeit von zwei besonderen Umständen geprägt. Auf der einen Seite ist ein kontroverser Techologie-Diskurs um jene Produktionen entfacht worden, die mit Hilfe von Künstlicher Intelligenz generiert werden. Ein prominentes Beispiel ist zweifellos der letzte Beatles-Song »Now and Then«, bei dem der Gesang von John Lennon von einem alten Demo-Band mittels KI-Technik isoliert wurde. Auf der anderen Seite kreiert eine Verkettung von Ereignissen einen bedeutsamen Gedenkmoment: das 35-jährige Jubiläum des Duos Milli Vanilli und der Tod von Frank Farian am 23. Januar 2024, ihr Produzent.

Aktuell erinnern der Kinofilm Girl You Know Itʼs True von Simon Verhoeven und eine Dokumentation von Luke Korem neben zahlreichen anderen Medienbeiträgen an das Pop-Phänomen. Eklatant ist bei Milli Vanilli bekanntlich der Playback-Skandal – dass sie nie wirklich selbst auf den Liedern zu hören sind, mit denen man die beiden Tänzer Fab Morvan und Rob Pilatus wahrscheinlich noch heute identifiziert.

Nun muss man sicherlich kein Musikexperte sein, um zu erkennen, dass es in beiden Fällen um einen spezifischen Einsatz der Singstimme geht – und dass Stimmlichkeit im Licht dieser Fälle zumindest neu bewertet oder sogar anders gedacht werden muss als mit Begriffen des Authentischen. Bisher gilt die Stimme aber grundlegend (noch) als Medium der Seele, die gerade jenseits ihrer symbolischen Form auf einen individuellen Wesenskern verweist. Denn durch die Stimme erklingt eben nicht nur Sprache, sondern es resoniert auch der Körper, als Spur des Realen und als materieller Rest des Gesprochenen. Roland Barthes bezeichnet das als »Rauheit der Stimme«, als »le grain de la voix« (Barthes 1972). Anhand der Singstimme begegnet uns diese »raue« Materialität des Körpers im Besonderen.

Vor allem bei Popstimmen wird das evident. Gehören die Überschreitungen normativer Stimmlagen hierbei doch zur ästhetischen Programmatik. So wird in der Popmusik etwa das Schreien, Wispern, Murmeln oder Wehen gleichzeitig zur künstlerischen Strategie und zum indexikalischen Marken- bzw. Klangzeichen. Der Index deutet als Zeichentypus bei der Stimme auf Individualitätsspuren einer Körperlichkeit hin (Diederichsen 2014). Die Stimme ist also ein Erkennungsmerkmal, sie ist identitätsbildend. Deshalb besitzt sie in der Stimm-Biometrie auch eine Authentifizierungsfunktion. Und auch wenn, insbesondere seit dem Zeitalter von Vocoder und Auto-Tune, für einige Kulturtheoretiker Authentizität im Pop schon lange »keine Option« mehr darstellt (ebd. S. XXV), erscheint Echtheit und Originalität in Bezug auf die Popstimme vielleicht noch nicht ganz vom Tisch zu sein. Oder doch?

Pop-Simulationen

Spulen wir das Band zurück ins Jahr 1988: Frank Farian castet zwei Tänzer als Frontfiguren für sein neues Projekt Milli Vanilli. Rob und Fab werden ausschließlich im Full-Playback performen, weil sie nicht Teil des musikalischen Ensembles sind. Sie bewegen ihre Lippen synchron zu den im Übrigen ganz unterschiedlichen, Studiostimmen von Ray Horton, Charles Shaw, Brad Howell, John Davis oder von Farian selbst. Die Songs werden Welthits, Rob und Fab Megastars und Milli Vanilli zur Popsensation.

Das Erfolgsrezept übernimmt Farian von seinem Vorgängerprojekt Boney M. Bereits hier hört man von der vierköpfigen Disco-Formation nur Liz Mitchell und Marcia Barrett selbst singen. Der Rest, wozu der Frontmann Bobby Farrell tanzt und die tiefen Gesangsparts von Frank Farian mimt, ist Studioprodukt. Farell und Farian erschaffen einen medialen Hybrid, Stimme und Körper verschmelzen zu einer audiovisuellen Simulation. Und das geschieht ganz im postmodernen Geiste der Transkulturalität. Der aus dem karibischen Kulturraum stammende Farell heizt mit seinen Tanzbewegungen und Posen den statisch unterkühlten Bassgesang Farians deutlich auf. Die Stimme wird dadurch stark erotisiert. Dass größtenteils Playback gesungen wird, ist aber kein großes Geheimnis und wird vom Publikum angenommen.

Das verwundert auch nicht, hat das Musikgenre seinen Ort doch größtenteils in der Diskothek und weniger in der Konzerthalle. Zudem ist in den 1970er Jahren das Fernsehen das Leitmedium und für die kommerzielle Verbreitung von Popmusik entscheidend. Die Zuschauer diverser Musikshows sind dabei ohnehin auf Simulationen konditioniert. Gilt das Vollplayback doch in nahezu allen Sendungen als Norm und als »perfekte[s] Kontrollventil der Unterhaltungsindustrie« (Prinsloo 2018, S. 24). Zu überlegen wäre vielleicht noch, ob nicht nur Musikfilme, sondern auch die nachsynchronisierten Hollywood-Blockbuster die Akzeptanz für Playbackverfahren vor allem in Europa unterstützt haben.

Bei Milli Vanilli läuft es ähnlich, wenn auch unter etwas anderem medialen Vorzeichen. Die 80er sind bekanntlich das popkulturelle Zeitalter des Musiksenders MTV. Das Musikvideo entwickelt sich hier zu einer eigenen medialen Gattung irgendwo zwischen Kunst und Kommerz. Auf Bild- und Tonebene bedeutet das im Grunde aber erstmal nur noch mehr Playback-TV. Daran partizipiert auch das Pop-Duo. Denn Fab Morvan und Rob Pilatus verkörpern Milli Vanilli nur rein visuell. Zudem sind sie ein massenmediales Phänomen bzw. TV-Produkt. Vor der Kamera interpretieren sie Farians Musikproduktionen durch ihre Tänze, ihren Look, den Kleidungsstil und durch ihre Gesangsimitationen. Die audiovisuelle Illusion des Musikvideos bringen Rob und Fab schließlich auf die Bühne. Und das funktioniert sogar über Playbackpannen hinaus. So bleibt während einer Liveperformance von MTV selbst, am 21. Juli 1989 in Bristol, die Musik hängen. Zu hören ist eine Dauerschleife der Textstelle »girl you know itʼs […]«. Die Künstler flüchten überfordert von der Bühne, setzen ihren Auftritt aber später fort. Dass die Playbacktechnik vor dem Wort »true« versagt, mit dem die Textzeile und der gleichnamige Songtitel erst komplettiert worden wäre, erzeugt fast ganz beiläufig einen semantischen Überschuss. Das Ereignis ist eine mediale Offenbarung und zugleich der Einbruch des Realen in den audiovisuellen Simulationsraum.

Doch der Erfolg hält weiter an. In Anlehnung an die poststrukturalistischen Theorien Jean Baudrillards überwindet hier gewissermaßen »[d]as Simulationsprinzip […] das Realitätsprinzip« (Baudrillard 1976, S. 119). Die Singles »Baby Donʼt Forget My Number«, »Blame It On The Rain« und »Girl Iʼm Gonna Miss You« gehen in den USA auf Platz eins der Billboard-Charts und das Album Girl You Know Itʼs True wird sechsfach mit Platin ausgezeichnet. Milli Vanilli performen bei den Grammy-Awards am 21. Februar 1990 und gewinnen den Preis als Best New Artist. Die musikalischen Beiträge während der Show sind als regelrechte Live-Spektakel bekannt und werden von der ganzen Musikbranche erwartungsvoll wahrgenommen. Vor Milli Vanilli und ihrem kulturindustriellen Apparat brechen die Veranstalter allerdings ein. Das Duo performt im gewohnten »Absicherungsmodus« (Prinsloo, S. 24), also Vollplayback, was aber maximal für ein paar Irritationen sorgt. Genauso wie sich Rob während der Dankesrede vor der medialen Weltöffentlichkeit nicht als amerikanischer Muttersprachler präsentiert. Ist man von den originalen Singstimmen doch Native Speaker gewohnt.

Aber der Druck hinter den Kulissen steigt und mit einem winzigen Detail in den Album-Credits des US-Release, hat sich die Plattenfirma Arista für den Betrug am Fan schließlich (mit)schuldig gemacht. Hier werden Rob und Fab anders als bei der ersten Albumversion, die über das deutsche Label Hansa Records veröffentlicht wurde, als Sänger ausgegeben. Aber letztlich ist es Frank Farian, der in einer Pressekonferenz die Pop-Simulation dekonstruiert und reinen Tisch macht. Der Skandal ist perfekt. Tonträger müssen zurückgekauft, Preise annulliert werden und der Refrain aus dem Lied »Girl Iʼm Gonna Miss You« wird zur selbsterfüllenden Prophezeiung: »It’s a tragedy for me to see the dream is over«.

Aber wie lässt sich der Simulationseffekt durch die Playbackperformances nun genau verstehen? Playback ist eine mimetische Performancekunst. Musizieren und Singen wird hier nachgeahmt und die Körperbewegungen im Idealfall visuell zu dem vom Band eingespielten Ton synchronisiert. So entsteht ein Trugbild. Im professionellen Showbusiness verweisen die Künstler im »so-tun-als-ob« dabei (meist) auf die eigene Originalversion. Clevere Illusionisten produzieren für ihre Auftritte sogar individuelle Backing-Tracks und bewegen ihre Lippen zur unauffälligeren Liveversion. Man kennt Playbackgesang aber vielleicht auch aus dem privaten Kreis. Wenn der peinliche Typ auf der Jubiläumsfeier wieder den Elvis mimt, wird auf Fremdmaterial Bezug genommen. Die Imitation nimmt dann die Gestalt einer Karikatur an. Im Prinzip aber ist die Musik beim Playbackverfahren immer der Referent und das (Schein)Bild ihm somit nachträglich.

Im Grunde ist das bei Milli Vanilli auch der Fall, jedoch mit dem Unterschied, dass quasi in der Nachahmung das Referenzobjekt erst entsteht. Denn die echten Sänger kennt die Öffentlichkeit nicht, und in der Verknüpfungslogik des Pop kann der Rezipient nur aus dem Präsenzbestand des Zeichenangebots Bedeutungszusammenhänge schöpfen. Bei Milli Vanilli fallen damit Realität und Imagination, Vorbild und Abbild, Stimme und Körper, ununterscheidbar zusammen. Nichts anderes meint auch Jean Baudrillards Simulationsbegriff. So wird das Playback hier vom mimetischen Verfahren regelrecht zur Simulation ohne Referenz.

Anti-Playback-Pop

Doch das Verlangen nach echten Live- und Gesangsperformances wird im Laufe der Popgeschichte dadurch natürlich nicht weniger und kehrt in Form subversiver Playbackstrategien zurück. Vor allem die TV-Musiksendung Top of the Pops wird zum Schauplatz diverser Protestaktionen. Vornehmlich Musiker aus den Rock- und Punk-Genres lehnen sich mit zum Teil humoristischen Showeinlagen gegen die Bevormundung der Unterhaltungsindustrie auf. So etwa The Stranglers, bei deren Auftritt im Jahr 1977 der Drummer seinem Instrument den Rücken kehrt und Luftschlagzeug spielt. Oder das legendäre Halbplayback von Kurt Cobain bei Nirvanas »Smells Like Teen Spirit«. Der Sänger modifiziert den Text und singt eine Oktave tiefer, während er halb anzüglich das Mikrofon in den Mund nimmt. Die Brit-Popper Oasis tauschen innerhalb der Bandbesetzung die Positionen und auch Die Ärzte ihre Gitarre, den Bass und das Schlagzeug gegen Cello, Keyboards und Saxophon.

Diese Formen der Gegenreaktion auf den Einsatz von Playbacktechniken sowie auf den Skandal um Milli Vanilli zeigen, dass Authentizität in Bezug auf die Pop-Stimme bedeutsam ist. Gerät die indexikalische Verweisstruktur zwischen Zeichen und Referent, also der Hinweis von Stimme auf Körper, erstmal ins Wanken, ruft es die Frage nach dem Authentischen auf den Plan, selbst wenn dieser Verweis von vornherein ein mediales Simulakrum ist. Man kennt diesen Effekt z.B. von einer neubesetzten Synchronstimme eines bereits etablierten Schauspielers. Das ruft Irritationen hervor, stört die immersive Wirkung und schwächt die Imagination. Plötzlich ist die Figur nicht mehr sie selbst, wenngleich sie vorher schon nicht sie selbst, sondern ein medialer Körperhybrid und natürlich eh nur ein Abbild war.

Der Klang der Klone

Die Stimme ist also ein umkämpftes Gebiet für Authentizität, aber offensichtlich auch anfällig für Fälschungen oder Simulationen. Und das, wie sich aktuell wieder verstärkt zeigt, auch in der Popkultur. Denn bedingt durch den digitalen Fortschritt im Bereich des maschinellen Lernens lassen sich mittlerweile qualitativ hochwertige Stimmklone anfertigen. Füttert man eine Künstliche Intelligenz mit ausreichend Trainingsdaten, lässt sich die Stimme einer Person sehr genau nachbilden. Erwartungsgemäß katalysiert diese neue Technologie pop-avantgardistische Impulse. In diesem Rahmen legt Holly Herndon bereits im Jahr 2018 eine Pionierarbeit mit dem Werk »Godmother« vor. Spawn, wie Herndon ihre KI nennt, nutzt Stimmproben der Künstlerin, um selbstständig eine Komposition zu interpretieren. Das Ergebnis klingt entrückend, denn Spawn versucht unerwartet mit den Audiosamples von Herndons Stimme zu beatboxen. Auf manche Journalisten wirkt das Stück etwa so »als würde eine Maschine versuchen, aus einem Plattenspieler herauszukriechen« (Leslie 2020). Die Stimme steht hier nicht im Dienste einer sprachlichen Struktur, sondern wird durch Fragmente der Lautebene zum perkussiven Gestaltungsgegenstand.

Drei Jahre später präsentiert Herndon dann einen Klon ihrer Stimme. Auf der Website holly.plus können vorproduzierte Audiofiles in die Stimme von Holly Herndon transformiert werden. Dieser Idee folgen mittlerweile auch andere, wie die Musikerin Grimes. Auch ihren akustischen Fingerabdruck will sie zur freien kreativen Verfügung stellen und es somit Menschen ermöglichen, die stimmliche Identität von Grimes anzunehmen. Dass der Leitgedanke hierbei ein produktiv künstlerischer ist, kann allerdings nicht darüber hinwegtäuschen, dass diese Technologie auch problematische Anwendungsbereiche öffnet. Sogenannte Deepfakes, also das Verfälschen von medialen Inhalten mittels selbstlernender Algorithmen, zirkulieren massenweise über die sozialen Dienste und Videoportale. Das überzeugend Neue bei dieser durch KI gesteuerten Form der Medienmanipulation ist eben, dass sie auch auf auditiver Ebene realistisch wirkt.

Im Bereich der Popmusik zeigt sich das eindrücklich an dem Song »Heart On My Sleeve«, der die populären Medienstimmen von The Weekend und Drake (simulativ) zusammenführt. Der Song wurde am 04. April 2023 von einem TikTok-User mit dem bezeichnenden Namen ghostwriter977 über einen digitalen Vertriebsweg auf allen gängigen Streaming-Plattformen veröffentlicht. Die Klickzahlen überschreiten schnell die Millionenmarke, und die allgemeine Resonanz auf das Lied ist durchweg positiv. In den Kommentarspalten wird auch die Möglichkeit diskutiert, dass der Song ein Etikettenschwindel im doppelten Sinne darstellt. Also, dass hier quasi die echten Stimmen zu hören sind und die Produktion lediglich aus Werbegründen als KI-generiert ausgegeben wurde: »Thats drake don’t make them fool u«, schreibt ein User in diesem Zusammenhang auf YouTube. Ein anderer empfindet die künstlich generierte Version sogar besser als das Original und kommentiert: »this is more fire than drake«. Was auch immer hier nun die Wahrheit sein soll, die Stimmsimulation scheint alle Male im kollektiven Bewusstsein als Möglichkeitsbedingung zu existieren. Damit verwischt die letzte indexikalische Authentizitätsspur, an der in der Popmusik noch festgehalten wurde, in der Simulation einmal mehr. Wenn Original und Imitation ununterscheidbar werden, fallen die Kategorien dem Simulakrum selbst zum Opfer.

Fest steht auch, dass wir es beim Klonen von Stimmen erneut mit einer höchst subversiven Audio-Technologie zu tun haben. Denn der prekäre Rechtsstatus wirft ähnliche Fragen auf, wie sie bereits beim Sampling verhandelt wurden. So verwundert es kaum, dass es der Universal Music Group, die auch Drake und The Weekend vertritt, mit juristischem Druck gelingt, »Heart On My Sleeve« von den Streamingdiensten entfernen zu lassen. Formalrechtlich handelt es sich hierbei allerdings um keine Verletzung des Urheberrechts, wie aus der juristischen Begründung hervorgeht. Dies stellt vielmehr ein Scheinargument dar, das nur durch eine umfassend rechtssichere Gegendarstellung entkräftet werden kann. Für Universal ist die Berufung auf das Urheberrecht jedoch ein pragmatischer Machthebel, der eben erst einen juristischen Gegenzug erfordert, um den Song wieder entsperren zu lassen. Laut den Experten für Medienrecht wäre im Zusammenhang mit Voice Cloning eher zu klären, wie die Verwendung von originalem Audiomaterial als Trainingsdaten für die KI rechtlich zu bewerten ist. Oder ob damit eher eine Verwechselungsgefahr einhergeht und somit eine Verletzung des Persönlichkeitsrechts bestünde.

Natürlich erlaubt die Verwendung von KI-Stimmen auch transkulturelle Identitäts- und Geschlechterrollenspiele. Stimmtransformatoren wie etwa auf audimee.com oder kits.ai bieten ein heterogenes Angebot von Singstimmen mit ganz unterschiedlichem musikkulturellem Background. Damit lassen sich Stimmfarben auch in Bezug auf Genrespezifikationen in wenigen Bearbeitungsschritten wechseln. Die akustische Identität einer Person ist im digitalen Raum also leicht veränderbar. Doch bei aller postmoderner Euphorie lohnt sich der nüchterne Blick auf die eigentlichen Potentiale der Technologie.

Dass sich für Musikschaffende hier ein großes Feld an kreativen Möglichkeiten eröffnet, ist unbestritten. Frank Farian hätte sicherlich sein großes Vergnügen mit Stimmklonen. Dennoch bleiben ein paar grundlegende Dinge in den Diskussionen über die möglichen Anwendungsbereiche solch einer Technologie unberücksichtigt: Denn man macht auch hier aus Milli Vanilli immer noch nicht Simon and Garfunkel oder aus einer Florence Foster Jenkins eine Beyoncé Knowles. Im Subtext derzeitiger Debatten klingt nämlich ein alter Stammtisch-Diskurs wieder an, nach dem heutzutage jeder durch technische Manipulation singen könne. Stimmsimulationen erfolgen aber auf Basis der Phoneme, geklont wird hier nicht der musikalische Ausdruck. Oder um es in Vulgärform des Stammtisches zu formulieren: Was hier dennoch greift, ist das sogenannte »Shit-in-Shit-out-Prinzip«. Das zu transformierende Ausgangsmaterial einer Stimmaufnahme muss für den gewünschten Endeffekt gewissen Anforderungen entsprechen. Am Beispiel von Beyoncé ist das eine ganze klangästhetische Palette, die von der KI nur dann gut nachgebildet werden kann, wenn das Grundmaterial bereits einigen qualitativen Ansprüchen von Beyoncés Gesangstechnik genügt (perfekte Intonation, markantes Vibrato etc.). Da hilft auch Auto-Tune nur wenig, und es erscheint deshalb kaum verwunderlich, dass wir es gegenwärtig vor allem mit KI-gestützten Imitationen von Rapper-Stimmen zu tun haben. Sprechgesang ist sicherlich nicht weniger komplex als manch Gesangspart, dennoch für sprach- und rhythmusbegabte Menschen einfacher zu imitieren als mehrstimmiger RnB.

Spannend sind letztlich aber die Formen der Audio-Simulation, die den Bereich der Mimesis verlassen – wenn Stimmklone z.B. am Anfang einer Idee stehen und zum Instrument einer der KI-Technik übergeordneten Ästhetik dienen. Natürlich stimmt es wohl, in Anbindung an Barthes oder Foucault den Tod des Sängers auszurufen (Balzer 2023). Die Souveränität der eigenen akustischen Identität wird durch KI vielleicht entzogen, jedoch stehen am Anfang der Klontechnologie auch einige »wenige« konkret identifizierbare Referenzstimmen. Bei Michael Jackson, Elvis Presley oder etwa Kurt Cobain muss man eigentlich von einer Wiedergeburt sprechen. Was hier allerdings tatsächlich stirbt, ist der letzte Funke Authentizität der Popmusik, der bis in die Stimmlichkeit der Interpreten zurückgedrängt wurde und sich dort, auch wenn nur als verkümmerter Überrest, beständig vor seiner endgültigen Liquidierung verharrte. Denn wer weiß jetzt schon, ob wir bei »Now and Then« nicht doch nur eine algorithmische Neuordnung von Phonemen auf Grundlage einiger Trainingsdaten von John Lennon hören? »Yes, you know itʼs true…«.

 

Literatur

Balzer, Jens: »Technologie schlägt Diskurs«, in: Die Zeit, Nr. 19/2023.

Barthes, Roland: »Le grain de la voix«, in: Musique en jeu, Nr. 9/1972.

Baudrillard, Jean: Der symbolische Tausch und der Tod, München 1982 [im Original: L’échange symbolique et la mort. Gallimard, Paris 1976].

Diederichsen, Diedrich: Über Pop-Musik, Köln 2014.

Leslie, André: »Ich sehe das Maschinenlernen auf einem Kontinuum – Holly Herndon über KI-Musik«, in: goethe.de. Übersetzung: Stephan Gebauer, Goethe-Institut, November 2020.

Prinsloo, Yana: »Körper + Tonband = Playback: Zur Ästhetik einer technischen Innovation in Theater- und Performancekunst«, in: Neue Zeitschrift für Musik. Aufnahme läuft, Vol. 179, No. 3, 2018.

 

Schreibe einen Kommentar