Oberflächengeräusch
von Damon Krukowksi
7.9.2020

Über Rauschreduktion und das Ende des Naheffekts

[aus: »Pop. Kultur und Kritik«, Heft 14, Frühling 2019, S. 126-137]

Ich beuge mich jetzt ganz nah heran, um dies zu sagen: Rauschen ist genauso kommunikativ wie ein Signal.

Damals, als die Telefone noch schwer, schwarz und mit einer Schnur an der Wand befestigt waren, verbrachte ich, wie manch anderer auch, übermäßig viel Zeit an ihnen. ›An ihnen‹ hieß dabei nicht unbedingt immer Sprechen, es hieß auch Zuhören; war das Telefon einmal von der Gabel, war es ständig auf Empfang, egal wie viel tatsächlich geredet wurde. Als Teenager hing ich am Telefon rum, wie die Generation vor mir an der Straßenecke rumgehangen hatte. Reden gehört natürlich wesentlich zum Rumhängen dazu, aber Schweigen auch. Besonders wenn womöglich welche zuhörten, für deren Ohren dein Gespräch nicht gedacht war, zum Beispiel deine Eltern im selben Raum oder im Raum nebenan.

Ein Anschluss auf dem eigenen Zimmer – eine erhebliche Ausgabe im Zeitalter des Festnetztelefonierens und somit ein Luxus – erlaubte privatere Gespräche, aber auch privateres Schweigen. Schweigen an einem öffentlich zugänglichen Telefon war mitunter nicht zu vermeiden, aber Schweigen am Privatanschluss konnte richtig intim werden. 

Die ultimative Privatheit und somit Intimität aber bedeutete eine eigene Telefonnummer. Die ›eigene Leitung‹ ist ein verbreitetes Plotelement in Spielfilmen aus dieser Zeit: das Politikertelefon für jene mit Sondererlaubnis; der Anruf des Geschäftsmanns an der Sekretärin vorbei; Joan Crawfords Leitung direkt zur Badewanne in »The Women«, die, wie Rosalind Russell entdeckt, ›kein Anschluss‹ und somit ausdrücklich für einen Liebhaber bestimmt ist. 

Nicht immer wird der Plot in diesen Filmen von dem vorangetrieben, was über die Privatleitung tatsächlich gesagt wird – eine Privatleitung bewies Intimität auch, wenn nichts gesagt wurde. Besonders wenn der Hörer nicht auf der Gabel liegt und man am anderen Ende der Leitung alles mithören kann. Die Schlüsselszene in Hitchcocks »Dial M for Murder« ist ein Anruf, der gar nicht zum Sprechen, sondern allein zum Zuhören gedacht ist.

Was Ray Milland am anderen Ende hört, ist Rauschen. Das galt auch für weniger dramatische Anrufe über diese schweren alten Analogapparate, etwa meine als Teenager. Das Reiben von Kleidung. Ein Bleistiftkritzeln auf Papier. Atmen. Die Gegenwart eines anderen.

Im Unterschied dazu sind Handys grauenhafte Geräte, um dem Rauschen zu lauschen. »Bist du noch da?« lautet der ständige Refrain bei Mobiltelefonaten, weil es so schwierig ist, die Gegenwart des jeweils anderen zu spüren, wenn er gerade nicht spricht. Die Stille am Mobiltelefon nennen Toningenieure ›digitales Schwarz‹. Digitales Schwarz ist nicht einfach die Abwesenheit eines Signals, sondern die Abwesenheit von Rauschen. Es hat keine Ähnlichkeit mehr mit der vielsagenden Stille, in der Joan Crawford in ihrem Bad raucht oder Grace Kelly von einem Killer erdrosselt wird.

Kannst du mich jetzt hören?

Tatsächlich wurde das Telefon ebenso als Hörgerät erfunden wie als Sprechgerät. Alexander Graham Bell war ein Lehrer für Gehörlose – seine Mutter war taub und er heiratete schließlich eine seiner tauben Studentinnen –, und seine Experimente, die zum Patent für das Telefon führten, richteten sich mehr auf das Ohr als auf den Mund. Bells Originaltelefon übermittelte zwar erfolgreich Töne über eine Entfernung, doch die Sprache musste geschrien werden, um verständlich zu sein. Im Grunde erfand Bell eine elektrische Hörtrompete.

Schreien aber überbrückt die Entfernung zwischen Leuten weniger, als dass es sie hervorhebt. Bells Erfindung hatte wenig Potenzial zur Intimität, bis sie mit der Kopfgeburt eines weiteren Erfinders kombiniert wurde: Thomas Alva Edisons Kohlemikrofon. (Vielleicht war es auch Emil Berliners Kohlemikrofon; der Patentstreit geht auf das Jahr 1877 zurück und wird, wie bei solchen Disputen üblich, vermutlich nie geschlichtet werden.) Interessanterweise war Edison selbst schwerhörig: »Der Broadway ist für mich so still wie ein ländliches Dorf für eine Person von normalem Gehör«, erzählte er seinen Biografen. »Bei meinen Experimenten mit dem Telefon musste ich den Transmitter verbessern, um überhaupt etwas zu hören.«

Ein Telefon verstärkt nicht nur, was man hineinspricht – das Signal – sondern auch alles um dieses Signal herum, das also, was Toningenieure als Rauschen bezeichnen. Und die Ingenieure für digitale Signale haben ein Set von Werkzeugen entwickelt, um es zu eliminieren.

Edison standen solche Werkzeuge für sein Kohlemikrofon nicht zur Verfügung. Es ist ein überaus einfaches Gerät, erwies sich aber fürs Telefonieren als dermaßen geeignet, dass es von seiner ersten Anwendung in den 1890ern bis hin zu meinen Teenagergesprächen in den 1970er Jahren im Einsatz blieb. Erst in den 1980ern (mit dem Ende von ›Ma Bell‹) begannen schließlich Elektret-Mikrofone – dieselben Miniatur-Mikros, die wir heute für Mobiltelefone verwenden – Edisons Originalentwurf zu ersetzen.

Trotz ihrer Winzigkeit sind Elektret-Mikros sensitiver als Kohlemikrofone, nicht umgekehrt – ich verwende eins im Inneren meiner akustischen Gitarre zur Verstärkung auf der Bühne, weil es so ein volles Klangspektrum des Instruments wiedergibt. Kohlemikrofone haben im Gegensatz dazu ein recht limitiertes Frequenzspektrum. Man denke an den stereotypen Telefonklang, den man der Stimme in manchen Songs verleiht, etwa in »Uncle Albert« von Paul McCartneys Album »Ram«. (In dem Song imitiert McCartney auch das Klingeln eines alten englischen Telefons durch Mundgeräusche; sein ›Klingeln‹ beginnt bei 1:10 und die Stimme am anderen Ende hebt endlich ab bei 1:30.) Den Telefoneffekt erzeugt man im Studio, indem man bei einer Vokalspur die oberen und unteren Frequenzen wegfiltert und nur ein heftig beschnittenes, blechern klingendes Mittelstück übriglässt – genau den Teil, den Edisons Kohlemikrofon überträgt.

Den Durchbruch in der Herstellung von Elektret-Mikrofonen gab es 1962, als die Ingenieure von Bell Labs entdeckten, dass man eine metallbeschichtete Teflonfolie dauerhaft statisch aufladen kann, genug um ein Mikrofon allein mit Hilfe der Materialien, aus denen es konstruiert wurde, mit Energie zu versorgen. Dadurch entfiel die Notwendigkeit einer externen Stromquelle, und qualitativ hochwertige Klangwiedergabe wurde über ein Mikro möglich, das klein genug war, um es in einer Gitarre anzubringen, sich ans Revers zu stecken oder in den Griff eines Telefons einzubauen, das dadurch jetzt um das Mikro herum soweit schrumpfen konnte, wie die restlichen Elemente es erlaubten. Das Elektret ist ein so effektives und nützliches Gerät, dass es heutzutage in höherer Stückzahl hergestellt wird – schätzungsweise mehrere Milliarden jährlich – als irgendein anderer Mikrofontyp.

Wie kommt es dann aber, dass wir am Telefon heute weniger zu hören scheinen als zu Zeiten des Kohlemikrofons?

Das gute alte Telefonieren

Im digitalen Zeitalter wird der Klang unserer Stimme am Telefon nicht mehr vorrangig durch das Mikrofon bestimmt, sondern durch die Art, wie der Klang bearbeitet wird, bevor er an unser Ohr dringt. Was sich dabei radikal verändert hat, ist das Telefon als Hörgerät.

Heute spricht man gern vom ›guten alten Telefonieren‹, wenn man sich auf das analoge Zeitalter der Telefonübertragung bezieht – ›plain old telephone service‹, kurz POTS. POTS trug unsere Stimmen über Kupferleitungen durch mehrere Generationen von Veränderungen (am kinotauglichsten waren die Telefonistinnen, wenngleich der direkte Klingelton den dauerhaftesten akustischen Eindruck hinterlassen haben dürfte), über kollektive Stammleitungen und Verteilerkästen, bis sie schließlich ihre Bestimmung im Ohr unserer Hörer erreichten. Der Ausgangston via Kohlemikro konnte weite Entfernungen zurücklegen und kam doch, wenn unterwegs alles richtig lief, am Ende mehr oder weniger so raus, wie er reingekommen war.

Mit der Ankunft von Modems und Faxgeräten in den 1980ern musste POTS in den Leitungen Platz schaffen für Daten und für die Töne, die über Mikrofone ins System gelangten. Anfangs verwendeten Modems und Faxgeräte akustische Koppler, um Daten in Töne zu verwandeln, damit diese auf die gleiche Weise durch die alten Kupferleitungen gehen konnten wie eine Stimme. Auf diese analoge Weise ließ sich jedoch immer nur eine begrenzte Datenmenge in begrenzter Zeit übermitteln. Die effizientere Lösung, auf die die Ingenieure bald verfielen, bestand darin, nicht länger Daten in Töne zu verwandeln, sondern stattdessen Töne in Daten. Damit war das Ende von POTS besiegelt. Ein Integrierter Service für Digitale Netzwerke (ISDN) wurde 1988 eingerichtet, aber bald selbst ersetzt durch Breitbandkabel, Voice over Internet Protocol (VoIP) und – insbesondere zur mündlichen Kommunikation – das digitale Mobilnetzwerk, auf das wir uns inzwischen beim Großteil unserer Telefondienste verlassen.

Der erste Schritt, der all dies möglich macht, besteht darin, unsere Stimme in Daten umzuformen; das heißt, sie muss digitalisiert werden. Ein Mikrofon – und zwar jedes Mikrofon, von Edisons Kohleknopf bis hin zum Elektret in unserem Handy – ist ein analoges Gerät. Alle Mikrofone arbeiten nach demselben Prinzip: Schalldruck bewegt eine Membran, deren Bewegung in ein elektrisches Signal verwandelt wird. Dieses elektrische Signal ist im Wortsinne ein Analogon der Schallwelle, die es ausgelöst hat, und kann daher leicht in Klang zurückverwandelt werden, indem man den Vorgang umdreht – ein Lautsprecher ist die Umkehrung eines Mikrofons: Er schickt elektrischen Strom durch eine Membran, um Schalldruck zu erzeugen. (Edisons Kohlemikros konnten tatsächlich auch als Lautsprecher verwendet werden, also stellte man sie anfangs einander gegenüber, um das Signal weiter zu verstärken.)

Wer das direkte elektrische Signal zwischen Mikro und Lautsprecher unterbricht, unterbricht die analoge Übermittlung von Klang. Deshalb all die Telefonmasten, die unsere Mikros und Lautsprecher miteinander verbanden. POTS war ein unglaublich ausgedehntes und dennoch sehr direktes System der Klangübermittlung, durchaus vergleichbar mit dem Steckerfeld eines analogen Tonstudios, das Ein- und Ausgänge über Kabel verbindet.

Um Klang zu digitalisieren, nimmt man das elektrische Signal, das ein analoges Mikrofon erzeugt hat, und konvertiert es in Nullen und Einsen; im Aufnahmestudio wird dieser Vorgang als A-zu-D bezeichnet. Ist der Klang einmal D, kann man ihn behandeln wie jede andere digitale Information auch – Telefonmasten, Steckerfelder oder sonstige Direktverbindungen sind nicht mehr nötig, und zwar weil die Übertragung digitaler Daten zeitlich wie räumlich diskontinuierlich verläuft – ihre Rekonstruktion auf der Empfängerseite hängt nicht mehr von einem kontinuierlichen analogen Fluss des Ursprungssignals ab wie POTS.

Wir erinnern uns: Das Internet wurde für militärische Kommunikation nach einem Atomschlag entwickelt. POTS konnte man mit einer Drahtschere ausschalten. Umso bemerkenswerter, dass es ein Jahrhundert lang in Gebrauch blieb.

Zerschnittene Bande

Dass POTS von Bells und Edisons Zeiten bis in die 1980er stabil blieb, ist bemerkenswert, aber vielleicht nicht unerklärlich. Sein System des Anrufs von Person zu Person blieb doch, bei aller elektrischen Zauberei des 20. Jahrhunderts, die es brauchte, um eine Stimme durch die Leitung zu schicken, eine sehr menschliche und direkte Verbindung durch den Raum. Selbst Kinder spielen ja Telefon, indem sie sich gegenseitig ins Ohr flüstern; sie bewegen eine Botschaft durchs Zimmer, indem sie Schalldruck von der Stimme zum Ohr und wieder zurückverwandeln. (Die Engländer nennen das ›Chinese wispers‹ – weil die Botschaft so unverständlich wird wie Chinesisch oder weil sie, eine ausreichende Zahl von Kindern vorausgesetzt, bis nach China reisen könnte?) Als elektrische Verstärkung unserer akustischen Mittel, von Person zu Person zu kommunizieren, hat POTS einfach nur die Reichweite unseres Flüsterns ins Ohr des anderen verlängert.

Genau wie im Kinderspiel war eine sprachliche Botschaft, die durch analoge Telefonleitungen geschickt wurde, nicht immer leicht zu verstehen. Komiker haben dieses Problem sofort aufgegriffen – »Cohn am Telefon« war eine populäre Nummer, die seit 1913 immer wieder auf Platte gepresst wurde; man verwendete jiddisch gefärbtes Englisch, um den Witz zu verstärken, dass man am anderen Ende der Leitung missverstanden wurde (»Ich bin Ihr Nachbar Cohn … nein, nicht vom Balkon, aus dem Flur…«).

Rasch etablierte sich das Telefon im Kino nicht nur als brauchbares Handlungselement, sondern auch als Ort komischen Missverstehens. Ein Telefongespräch zwischen den großen Charakterschauspielern Eric Blore und Edward Everett Horton in dem Astaire-Rogers-Film »Shall We Dance« (1937) schwingt sich zu Wortspielen auf, die der literarischen Avantgardegruppe OULIPO würdig gewesen wären:

Blore: Ich bin im Gefängnis in der Susquehanna Street. Susquehanna. Sus-que-hanna. S-U-S-Q…Q! Q. Du weißt schon, das Tier das Milch gibt. Milch! M-I-L…Nein, L, wie L-A-D-E-N….Nein, nicht M, N! N wie in Nachbar. Nachbar, N-A-C-H-B…B. B! Wie Biene, summ summ summ. Du weißt schon, das Insekt, das Honig gibt. Insekt! I-N-S…S! S für Sprichwort, SPRICH-W….W! Oh, W…
Horton: Oh weh? Jetzt beklag dich bloß nicht bei mir!

Bei allem, was ihm an Klangqualität fehlte, kommunizierte POTS doch erfolgreich Entfernung, und zwar laut und deutlich. Wer an ein analoges Telefon ging, schloss einen physikalischen Schaltkreis zwischen der Stimme am andern Ende und seinem Ohr, und der ganze Raum dazwischen wurde in Kupferdraht ausgemessen. Das Rauschen in der Leitung wurde als ein Produkt dieser Entfernung verstanden, und alle Missverständnisse, die sich daraus ergaben, bestätigten das nur.

Zieht man aber die Kabellänge ein, so zieht man damit womöglich zugleich auch unseren Sinn für Entfernung ein. Obwohl unsere Handys unsere genaue Position via GPS kennen, hat wer auch immer damit angerufen wird keine Vorstellung davon, wo wir uns befinden: ›Wo bist du gerade?‹ ist am Telefon eine so gängige Antwort geworden wie ›Hallo!‹ Selbst am 110-Notruf-Telefon wird man gefragt, von wo man anruft. (Für jeden, der damit aufgewachsen ist, durch Kupferleitungen zu sprechen, die durch die Luft gespannt sind, ist ›In welcher Stadt befinden Sie sich?‹ eine ziemlich beunruhigende Antwort auf einen Notruf.)

Allerdings ergeben sich heutzutage ähnliche Launen geografischen Ursprungs bei gewissen Nicht-Notrufen, wenn ein ›lokaler‹ Kundendienst auf einem entfernten Kontinent abhebt. Ich durfte mitunter selbst erleben, wie diese räumliche Nicht-Verbindung die ergraute alte Routine von »Cohn am Telefon« noch mal aufleben ließ, wenngleich das kaum je zum Lachen war.

Mobiltelefonzelle

Am Handy hat man keinerlei Anzeichen dafür, ob ein Anruf aus einem anderen Land kommt oder aus dem Raum nebenan. Es sieht gleich aus (jetzt, wo unsere Nummern mit uns reisen, ist die aktuelle Position nicht mehr an der Vorwahl zu erkennen), und entscheidender noch: Es klingt gleich.

Um einen analogen Anruf verstehen zu können, musste es relativ leise sein – die öffentliche Telefonzelle (oder Telefonbox, wie die Engländer sagten) war mit einer Tür ausgestattet, und keineswegs nur, damit Clark Kent sich heimlich in Supermann verwandeln konnte, sondern um die Zelle von den Umgebungsgeräuschen abzuschirmen.

Das Kohlemikrofon kann zwar nur einen begrenzten Frequenzumfang hören, aber innerhalb dieses Bereiches übermittelt es alles – Signal wie Rauschen. Ganz im Sinne von Bells ursprünglichem Interesse am Telefon als Hörgerät öffnet das analoge Telefon einfach ein Mikro in einem gegebenen Raum. Mag die Sprechstimme auch das lauteste Geräusch sein, das wir in diesem Raum hören, weil sie am dichtesten am Mikro dran ist – sie bleibt doch ein Geräusch unter vielen. Selbst wenn ich es als Teenager durch Entzerren der Schnur auf ihre volle Länge geschafft hatte, das Küchentelefon gerade so aus der Tür in den angrenzenden Raum zu bugsieren, konnte man am anderen Ende immer noch die Familiengeräusche vom Küchentisch hören. Keine Chance, sich in Supermann zu verwandeln!

Das digitale Telefon isoliert aber nun unsere Stimme in einem Maße, wie noch die privateste Telefonzelle es nie vermocht hatte. Das gelingt ihm trotz der Tatsache, dass das Elektret-Mikrofon empfindlicher ist als Edisons Kohlemikro und deshalb mehr Umgebungsrauschen zu einem Signal einfängt. Tatsächlich hat das aktuelle iPhone sogar drei von diesen Mikrofonen: neben dem unten am Mund gibt es eins oben (am Ohr) und eins hinten (bei der Kameralinse).

Wie jeder Toningenieur bestätigen wird, sind für eine Stereoaufnahme bloß zwei Mikrofone nötig und für Mono reicht eines vollkommen aus. Warum also drei am iPhone, das unsere Stimme ja trotzdem in Mono übermittelt? Diese Zusatzmikros dienen nicht dazu, vorhandenes Audio einzufangen – die analogen Geräusche, die wir in der Welt hören –, sondern helfen vielmehr, diese Geräusche zu digitalen Daten zu verarbeiten. Sie dienen der Ablösung des Signals vom Rauschen.

Rauschunterdrückung

Zu den Technologien, die durch die zusätzlichen Mikros am iPhone möglich werden, gehören die Rauschunterdrückung – Rauschen aufnehmen, um es dann zu eliminieren – und die Strahlenbündelung, ein System für das bevorzugte Hören aus einer bestimmten Richtung.

Rauschunterdrückung funktioniert über das Generieren einer gleichen, aber gegenläufigen Welle zu einem gegebenen Geräusch, um dieses zu eliminieren – die beiden Wellen zusammen ergeben Null. In den späten 1980ern baute die Audio-Firma Bose diese Technik erstmals in ein Kopfhörerset für Flugpiloten ein, und es dauerte nicht lange (Moores Gesetz), bis die Technologie billig genug war für den Verbrauchermarkt. Kopfhörer mit Rauschunterdrückung, von Bose oder anderen Herstellern, verwenden ein eingebautes Mikrofon, um die Geräuschumgebung im Umfeld des Benutzers abzuhören. Dieses Geräusch wird dann in umgedrehter Form aktiv elektronisch erzeugt, wobei jeder Ton, der nicht von diesem Mikro aufgezeichnet wurde, unangetastet bleibt. Auf diese Weise wird Signal (der Klang aus den Kopfhörern) vom Rauschen (dem Klang von außerhalb der Kopfhörer) getrennt.

Strahlenbündelung ist eine ergänzende Technologie, die mehrere Mikrofone dafür benutzt, die Quelle eines Signals zu lokalisieren, ziemlich genau so, wie wir unser Stereo-Hörvermögen zum räumlichen Hören nutzen. Stammt die Quelle eines gegebenen Geräusches – zum Beispiel eine Stimme, die ins Telefon spricht – aus einer bestimmten Richtung, kann Strahlenbündelung sich auf Geräusche, die von diesem Ort kommen, als Signal fokussieren und die aus anderen Richtungen als Rauschen behandeln.

Beide Technologien dienen dazu, ein Signal zu definieren und zu isolieren. Am Telefon ist dieses Signal die Stimme – im Gegensatz zu der Stimmenfamilie am Küchentisch nebenan. Ein digitales Telefon kann unsere Stimme noch effektiver isolieren als eine Telefonzelle, weil es nicht einfach eine gerade Linie zwischen Signal und Rauschen zieht wie eine Tür. Vielmehr kann diese Linie jetzt unregelmäßig, flexibel und anpassungsfähig verlaufen, indem sie sich den sich ständig verändernden Geräuschen unserer Umgebung angleicht, um sie flink zu löschen.

Wahrnehmungscodierung

Nicht nur die Atmosphäre, die eine Stimme umgibt, wird aus dem Geräuschspektrum eines Handys eliminiert, auch die Atmosphäre dieser Stimme selbst.

Wahrnehmungscodierung nennen Ingenieure seit den späten 1980ern die Anwendung psychoakustischer Forschung auf die digitale Klangverarbeitung. Wahrnehmungscodierung ermöglicht es, nicht nur das Rauschen zu eliminieren, das ein Signal umgibt, sondern auch sämtliche Bestandteile des Signals, die zur Datenübertragung unnötig sind. Wenn die Stimme am Telefon Wörter kommunizieren soll, warum dann nicht einfach nur die Wörter als Signal definieren, um die Präzision ihrer Übertragung zu verbessern? Der Rest der Stimme – jene Aspekte, die einem Hörer nicht dabei helfen, die Wörter zu verstehen – kann dann abgetrennt und als Rauschen klassifiziert werden.

Wahrnehmungscodierung bewirkt eine präzisere Definition des Signals und damit eine effizientere Datenübertragung. Das ermöglicht die Reduktion großer Tondateien auf CD zu trag- oder streambaren MP3s. Und es erlaubt uns, aus Umgebungen heraus per Handy zu kommunizieren, die für verständliches Sprechen radikal ungeeignet sind: aus dem Auto, aus der Kneipe, aus der U-Bahn. Man denke nur daran, wie schwierig es sein kann, sich in einem vollen Restaurant über den Tisch hinweg zu unterhalten, und wie relativ einfach es dagegen ist, in der gleichen Umgebung am Handy verstanden zu werden. (Rufen Sie beim nächsten Mal ihr Gegenüber doch einfach an!) Wahrnehmungscodierung macht hier den Unterschied – die Stimme am Handy wurde zu Daten konvertiert, die nur das enthalten, was notwendig ist, um die Wörter zu verstehen. Dabei fällt eine ganze Menge weg.

Als Phil Schiller, der Vizepräsident von Apples Marketingabteilung, im Jahre 2012 die neuen und verbesserten Audio-Features für das iPhone 5 öffentlich vorstellte, erklärte er in seiner Ansprache: »Die Daten in Ihrer Stimme … klingen nicht immer ganz natürlich.« Soll heißen: Der analoge Klang unserer Stimme – ihre ›natürliche‹ Qualität, wie wir sie hören, wenn wir miteinander sprechen (oder singen) – entspricht nicht dem, was sie als digitale Daten verständlich macht. 

Man kann den Unterschied z.B. erleben, wenn man die digitale Tonverarbeitung der iPhone-Mikros ausschaltet. Apples iGeräte bieten diese Funktion zwar nicht an, aber Ingenieure haben Wege programmiert, das zu umgehen. So bietet etwa die App Bossjock Studio diese Option an, und ihre Designer haben netterweise gleich ein paar Soundfiles gepostet, auf denen die iPhone-Bearbeitung zum Vergleich einmal ein- und einmal ausgeschaltet ist. 

Ist die digitale Tonverarbeitung des iPhones an, bleibt die Stimme auf einen schmalen Lautstärke- und Frequenzbereich beschränkt. Im Ergebnis lässt sich der Inhalt bestens verstehen – was gesagt wird, ist sehr deutlich –, aber wie die Botschaft rüberkommt, geht verloren. Ist die Stimme laut oder weich? Werden wir intim oder öffentlich angesprochen? Können wir in der Stimme der Sprecherin zusätzliche Bedeutungen mitschwingen hören oder entspricht das Übermittelte genau dem Wortlaut?

Man kommt der Antwort auf solche Fragen näher, wenn man ein Telefon ohne digitale Verarbeitung hört. Selbst anhand einer banalen Testbotschaft kann man sich hier eine Vorstellung von der Sprecherin bilden: Intonation, Pausen und Betonungen sind individuelle Marotten, die ohne die Wahrnehmungscodierung der digitalen Klangverarbeitung viel deutlicher rüberkommen.

Wenn wir übers Handy kommunizieren, gebrauchen wir die Ohren der digitalen Assistentin Siri – wir hören rein auf Verständlichkeit hin. Benutzen wir hingegen ein analoges Mikrofon (und ein iPhone-Mikro ohne digitale Verarbeitung ist, wie alle Mikrofone, ein analoges Gerät), so gebrauchen wir unsere eigenen Ohren, die an den vollen Bereich der Stimme angepasst und gewöhnt sind: an den Teil, der sie verständlich macht, wie auch an den anderen. Zu letzterem gehört das, was eine Stimme ›natürlich‹ klingen lässt, um Schillers Formulierung noch einmal aufzugreifen.

Ein Toningenieur würde das vielleicht anders ausdrücken, denn im Studio gibt es nichts Natürliches, dafür aber vielerlei Möglichkeiten, sich auf unterschiedliche Aspekte der Stimme zu konzentrieren: Klang, Farbe, Obertöne, Atem. Bei Aufnahmen von Rockmusik dürfte Verständlichkeit ziemlich weit unten auf der Liste der Qualitäten stehen, die ein Ingenieur herausheben möchte, wenn er die Stimme formt, die schließlich unsere Ohren erreichen soll.

Ich frage mich, was Siri wohl von Mick Jagger hält?

Sinatras Geheimnis

Musik, deren Lyrics man nicht versteht, ist ein Schulbeispiel für unsere Fähigkeit, in einer Stimme Gefühl wahrzunehmen jenseits der Sprache. Und Mikrofone sind hervorragend dafür geeignet, genau das einzufangen – besser noch als für Wörter, wie jedermann weiß, der mal damit gekämpft hat, Lyrics mit Plosiven (p oder b-Lauten) und Zischlauten (s-Lauten) aufzunehmen. Große Mikrofonsänger wie Frank Sinatra nutzen die Fähigkeit des Mikros, winzigste Unterschiede in unserer Stimme zu registrieren, maximal aus. Jeden Seufzer, jeden Atemzug, jede Stille kann man via Mikro spüren.

Eine CBS-Fernsehdokumentation von 1965 begleitete Sinatra bei den Studioaufnahmen zu einer seiner später bekanntesten Performances: »It Was A Very Good Year«, zusammen mit dem Ausnahme-Arrangeur Gordon Jenkins. Darin sehen wir Sinatras souveränen Umgang mit dem Mikrofon – sorgfältig passt er seinen Abstand zum Mikro der jeweiligen Phrasierung und Intonation an, wobei er optimal das ausnutzt, was man unter ›Naheffekt‹ versteht.

Mit ›Naheffekt‹ bezeichnet der Toningenieur die simple Tatsache, dass eine Tonquelle desto sanfter klingt, je dichter sie am Mikro ist; dagegen klingt sie desto dünner, je weiter sie entfernt ist. Einige Mikrofone – besonders die Großmembran-Kondensatormikrofone, die man normalerweise im Studio für Stimmaufnahmen nimmt – betonen diesen Unterschied. Andere – z.B. die Kleinmembranmikrofone mit hohem Dynamikbereich, die man meistens auf der Bühne für Live-Stimmen nimmt – minimieren ihn.

Sinatra manipuliert den Naheffekt, indem er bei Passagen, die er lauter und kräftiger klingen lassen will, vom Mikro zurücktritt, sich aber nah heranbeugt, um Momente größerer Intimität zu erzeugen. Seine Atemtechnik – von der Sinatra sagt, er habe sie Tommy Dorseys Posaunenspiel abgeschaut, als er in den 1940ern bei ihm arbeitete – ist zu Recht berühmt. Sie zeigt sich nicht nur in der Ausdauer (im CBS-Film wundert sich Sinatra selbst darüber, wie lang er den Song strecken konnte), sondern auch in seinem Vermögen, Geräusche beim Einatmen zu vermeiden, die das empfindliche Mikro, das er verwendet, zu sehr verstärkt hätte.

Ebenso werden auch Zischlaute und Plosive durch Sinatras Kontrolle minimiert; in derselben Dokumentation hört man ihn mit dem Ingenieur darüber diskutieren. Und in einem Audiokommentar von ihm hört man heraus, wie stolz er darauf ist, trotz all dieser technischen Herausforderungen eine so klare Artikulation hinzubekommen – anders als diese langhaarigen Zeitgenossen.

Wie Sinatra einmal sagte: »Du musst wissen, wann du vom Mikro weg und wann du wieder nah rangehen musst. Für mich gibt es nichts Schlimmeres, als wenn ein Sänger heftig einatmet und man hört das übers Mikrofon. Du musst die Luft durch den Mundwinkel reinholen und das Mikrofon richtig benutzen, das ist das ganze Geheimnis.«

U 47

Die meisten Leute waren nie Sänger in einer Aufnahmesession mit analogem Aufnahmegerät wie dem von Sinatra. Aber mit der digitalen Version ist inzwischen jeder durch sein Handy vertraut.

Apples Siri-Ikon zeigt ironischerweise den klassischen Typ eines Großmembran-Vokalmikros: das röhrenverstärkte ›Flaschenmikrofon‹, das im Zweiten Weltkrieg von Nazi-Ingenieuren entwickelt und nach dem Krieg in vielen Varianten hergestellt wurde; unter Toningenieuren ist vor allem das U 47 von Neumann ikonisch geworden.

Wäre im iPhone ein solches Mikro eingebaut, würden wir bei jedem Anruf eine Mauer von Atemgeräuschen, Plosiven, Zischlauten und Umweltgeräuschen übermitteln.

Handys sind so gebaut, dass sie Naheffekte minimieren und so das Signal unabhängig von den Bewegungen der Sprecherin konsistent halten. So sollen sie in jeder Geräuschumgebung gleich klingen, ob in einer vollen Kneipe (wie eine auf dem Coverfoto von Sinatras LP »No One Cares«) oder einer verlassenen Straße (wie auf der Hülle von Sinatras »In The Wee Small Hours«).

Ähnlich wie die Navigation per GPS platziert die digitale Signalverarbeitung des Handys die Sprecherin immer im selben Nicht-Raum: weder nah noch fern, weder intim noch distanziert. Die Flachheit, die sich dabei ergibt, isoliert nicht nur die Stimme, sondern schaltet Affekt aus. Die Information ist verständlich, aber die Stimme, die sie liefert, lässt sich nur hören, niemals fühlen.

Dieses Fehlen des Naheffekts kennzeichnet auch andere Formen digitaler Kommunikation. Ein Tweet, ein Post auf Facebook, ein Instagramfoto richten sich samt und sonders an jeden, ob nah oder fern von uns, räumlich oder beziehungsweise. Genau wie am Handy wird dabei unsere Möglichkeit eingeschränkt, den Ton der Distanz anzupassen. 

Digitale Medien ermöglichen eine deutliche Kommunikation über große Distanzen, aber die Kommunikation von Distanz selbst wird zur Herausforderung. Online und am Telefon steht jeder in derselben räumlichen Beziehung zu allen anderen. Der Naheffekt ist eliminiert.

Handygeschrei

Am Anfang dieses Textes habe ich geflüstert, um Ihre Aufmerksamkeit zu wecken – genau das ist am Handy nicht möglich. 

Wenn wir flüstern, konkurriert unser Atemgeräusch mit dem Signal unserer Wörter oder überwiegt es sogar. Unsere analogen Ohren sind dafür gebaut, noch aus den unverständlichsten menschlichen Lauten Sinn zu extrahieren, und verstehen Flüstern problemlos: nicht bloß als Sprache, sondern als eine intime, private Sprache. Das Flüstergeräusch – die außersprachlichen Aspekte, die es zum Flüstern machen – kann genauso viel mitteilen wie die darin enthaltenen verbalen Zeichen.

Mikrofone können solche nonverbalen Gesten in übertragbare elektrische Signale übersetzen. Wenn Sinatra sich nah ans Mikro beugte, beugte er sich näher an unsere Ohren. Selbst ein Edinson’sches Kohlemikro übermittelte einen Begriff von Entfernung – oder Intimität – über das gute alte lo-fi Telefon. Und hier sind wir nun alle und schreien in unsere Handys.

›Cell yell‹, wie man es nennt, ergibt sich teilweise daraus, wo wir jetzt unsere Handys benutzen. Da sie nun einmal dafür gebaut sind, unsere Stimme zu isolieren, verwenden wir sie gewohnheitsmäßig in Umgebungen, in denen wir schreien müssen, um gehört zu werden … außer an einem digitalen Telefon. Teilweise liegt es also an der Tatsache, dass wir uns selbst nicht hören können, wenn wir am Handy sprechen. Digitalen Telefonen fehlt, was bei POTS ›Eigenecho‹ hieß und was ein Toningenieur einen Monitor nennen würde – das sinnliche Feedback unserer eigenen Stimme in unseren eigenen Ohren. Ohne Eigenecho reden wir alle wie schwerhörig, schreien ins neueste Smartphone wie einst Bell in seine erste Hörtrompeten-Version. Hören wir uns selbst nicht, können wir unsere Stimme nicht modulieren.

Vor allem aber hören wir kein Rauschen durchs Handy, weil es dafür gebaut wurde, nur Signal zu übertragen. Und das Rauschen – die nonverbalen Aspekte unserer Stimme – ist es, was den Unterschied zwischen Flüstern und Schreien ausmacht. So wie das Rauschen der Sprechüberlagerung zwischen links und rechts unseren Ohren ermöglicht, den Ort der Klangquelle zu bestimmen, so sind es die nonverbalen Geräuschanteile unserer Stimme, die in unserer Kommunikation Nähe definieren. Auf dem Weg von unseren Stimmen zu unseren Ohren – ich flüstere erneut, diesmal damit Sie wissen, dass es mir wirklich wichtig ist – brauchen wir das Rauschen, um die Entfernung zu ermessen, die zwischen uns liegt.

Das Kapitel »Surface Noise« ist folgendem Buch entnommen:

Damon Krukowski: The New Analog. Listening and Reconnecting in a Digital World. The New Press, New York 2017.

Übersetzung von Moritz Baßler, mit freundlicher Genehmigung des Verlags und des Autors.

Schreibe einen Kommentar