Apples »Mastered For iTunes«-Downloads in Theorie und Praxis
von Nicolay Ketterer,
Anzeige
Mit dem Format »Mastered For iTunes« (MFiT) verspricht Apple besondere Klangqualität bei komprimierten Downloads aus hochauflösendem Quellmaterial und mit reduziertem Spitzenpegel (gegen Verzerrungen beim Kodieren). Major-Labels schätzen den Mehrwert aus Marketinggründen im iTunes Store. Die Vorgaben, Pegelreserven einzuhalten, scheint ein ideales Mittel gegen den endlosen »Loudness War« zu sein. Oder?
Anzeige
Michael Schwabe zählt mit seinem Düsseldorfer monoposto Mastering-Studio (siehe S&R-Ausgabe 11.2016) zu den etablierten Dienstleistern in Deutschland − mit Produktionen für Wir Sind Helden, Die Toten Hosen, Lena Meyer-Landrut, Beatsteaks, Xavier Naidoo, Boss Hoss oder Tim Bendzko. Schwabe arbeitet seit rund 25 Jahren in der Branche, um das Jahr 2000 herum gründete er ein eigenes Studio, mit Toten-Hosen-Produzent Jon Caffery als Teilhaber.
Qualitätsoffensive?
Wie andere Mastering-Studios besitzt auch Schwabe das Zertifikat des Herstellers Apple, um für dessen iTunes-Plattform die Dienstleistung »Mastered for iTunes« (MFiT) anzubieten.
Als Mehrwert für die eigenen Downloads bietet Apple das Format seit Anfang 2012 für »externe« Kunden an. Dabei strebt der Hersteller mit 96 kHz/24 Bit hochauflösendes Quellmaterial an, das auf 44,1 kHz konvertiert wird. Durch die Apple-Software »AAC-Roundtrip« kann die Kodierung des datenreduzierten AAC-Formats mit dem Original verglichen werden, um die Klangästhetik der unkomprimierten Quelle anzugleichen.
Schwabe erinnert sich: »MP3-Algorithmen klangen lange Zeit dünn. Meine Aufgabe beim Mastering war, den Nachteil weniger hörbar zu machen.« Der Ansatz sei bei »Mastered for iTunes« ähnlich: »… wobei das Nadelöhr größer sein soll, ausgehend von einer hochauflösenden Datei. Material mit 96 kHz/ 24 Bit hat allerdings kaum jemand angeliefert, die Industrie gibt sich auch mit 48 kHz/ 24 Bit zufrieden − Hauptsache, mehr als die CD-Auflösung von 44,1 kHz/16 Bit.« Das sei als Mehrwert vermarktbar. Ein negativer Aspekt: »Vielen ist die Spezifikation nicht klar. Sie versuchen nachträglich, die Auflösung hochzurechnen. Das sieht die iTunes-Redaktion nicht gerne. Ich stehe zwischen den Fronten: Einerseits möchte ich meinen Kunden nicht enttäuschen, andererseits mein MFiT-Zertifikat nicht verlieren.« Ein positiver Nebeneffekt? »Umgekehrt arbeiten viele Produzenten mit 96 oder 88,2 kHz, um gleich ein hochauflösendes Master für High-Resolution-Downloads zu besitzen.«
Wann sich hohe Samplingraten überhaupt lohnen, in Zeiten von Produktionen unter mitunter widrigen Bedingungen? »Das ist ein i-Tüpfelchen bei wirklich gelungenen Produktionen. Bei ›einfacheren‹ Produktionen, wo es auch ums Budget geht, kann mit 44,1 kHz immer noch ein sehr gutes Ergebnis entstehen.«
Intersample-Peaks
Abseits der Auflösung drängt Apple auch auf größeren Headroom − und keine 0-dBFS-Spitzenpegel. »Es geht um die Intersample-Peaks, die durch Limiting entstehen. Die dürfen für Apple maximal bis −1 dBFS gehen.« Bei der Konvertierung entstünden hier erhöhte Pegelspitzen − dadurch solle für den Algorithmus noch »Luft nach oben« bleiben, bevor Verzerrungen entstehen. »Zur Pegelkontrolle müssen spezielle Apple-Werkzeuge verwendet werden.« Die werden als AU-Plug-in zur Verfügung gestellt, alternativ in einer von Apple bereitgestellten Stand-alone-Software. Die Angebote sind nur für Mac verfügbar. Eine Alternative bietet etwa das Sonnox Plug-in »Fraunhofer Codec Toolbox«, das auf Mac und PC Vorhör- und Exportfunktion entsprechender Codecs bietet. Die PC-Variante stellt allerdings nur eine Annäherung an den MFiT- Algorithmus dar.
Die Arbeitsweise der Apple-Anzeigewerkzeuge? Schwabe: »Peaks werden bei dem Werkzeug früher moniert. Wenn die Pegelspitzen nicht im grünen Bereich der Anzeige bleiben, fällt das Ergebnis bei der iTunes- Redaktion durch. Wenn alles richtig läuft, hat das Material am Ende einen Headroom von 1 dBFS hat, in der Praxis landen wir oft bei 0,8 dBFS.«
Das Einfordern einer Pegelreserve steht im Gegensatz zu üblichen Mastern, die bei 0 dBFS »anschlagen«. Ein qualitativer Vorteil und ein möglicher Weg aus dem ewigen Lautheits-Dilemma (siehe S&R-Ausgabe 6.2016)? Schwabe zieht ein ernüchtertes Fazit: »-1 dBFS ist hörbar leiser, daher komprimieren manche stärker, um auf die gewohnte CD-Lautstärke zu kommen. Das ist leider gängige Praxis und natürlich kontraproduktiv. Wenn einer wirklich laut sein will, ist er mit einem normalen iTunes-Release besser bedient. Dort kann einfach die CD-Datei mit vollem Pegel konvertiert werden. Für den Vertrieb kann MFiT allerdings wichtig sein: Der blaue Sticker wirkt wie ein Gütesiegel, und die Alben werden im iTunes-Store gezielt beworben und hervorgehoben.« Insgesamt mache er bei rund 80% seiner Kundschaft die iTunes-Variante zusätzlich zum normalen Mastering. Major-Labels strebten alle ein MFiT-Master an, erzählt er.
Zukunftspläne?
Von Apple wollten wir indes wissen, wie nachträglich hochgerechnete Auflösungen erkannt und nach welchen Qualitätskriterien MFiT-Inhalte abgelehnt werden. Im Zeitalter von High-Resolution-Downloads drängt sich zudem die Frage auf, ob Apple künftig verlustfreie Formate anbietet. Antworten? Fehlanzeige. Generell würden weder mögliche zukünftige Entwicklungen noch der Freigabeprozess einzelner Inhalte kommentiert, so die für die zuständige PR-Agentur auf Anfrage.
Zertifikat
Der Zugang zum Zertifikat ist für einen organisierten Großkonzern wie Apple indes ungewöhnlich. Bob Katz: »Apple zertifiziert nicht einfach automatisch jeden Tontechniker – es gibt keinen offiziellen Bewerbungsprozess. Der beste Weg, ein zertifizierter MFiT-Mastering-Dienstleister zu werden, besteht darin, dass einer deiner Kunden Material für eine Veröffentlichung einschickt. Anschließend wird Apple dir ein paar Fragen stellen, um sicherzustellen, dass du deren Protokolle und Empfehlungen gelesen und verstanden hast − dann kommst du auf die Liste.«
Klang in der Praxis?
Der Unterschied zwischen dem ursprünglich hochauflösenden, datenreduzierten MFit- Format mit 24-Bit-Rauschabstand, der unkomprimierten Quelle oder einer 44,1-kHz/ 16-Bit-CD in der Praxis? Durch die Art, wie die Algorithmen arbeiten, sei es schwieriger, beim Kodieren »Luft« und Tiefenstaffelung der Bassfrequenzen zu erhalten, so Bob Ludwig. »Manchmal hilft es, den Pegel der Wave-Datei weiter auf −1, −1,2 oder −1,5 dBFS zu reduzieren, und plötzlich öffnet sich das Bassfundament wieder. Dann ist es für den normalen Hörer schwierig, die Quelle vom kodierten ›Mastered For iTunes‹-File zu unterscheiden. Dazu kommt: Fast jeder findet das kodierte Ergebnis, wenn es wie beschrieben entstanden ist, besser als die CD!«
Michael Schwabe bewertet den Unterschied nüchterner: »Wenn man es richtig macht − 96 kHz, Intersample-Peak-Kontrolle, entsprechender Headroom −, ist die Qualität annähernd so gut wie die einer CD.«
Bob Katz sieht das Format kritischer: MFiT sei nicht nah am Original, nur näher als frühere datenreduzierte Formate, »… außer vielleicht MP3 bei 320 kbps. Abhängig von der Quelle und wie stark sie bearbeitet ist, kommt das Ergebnis gelegentlich recht nah an die CD, aber nicht sehr oft.« Trotzdem sei es ein gutes Produkt, klinge den Umständen entsprechend gut. Das Wort »großartig« würde er allerdings nicht benutzen, meint Katz.
Im iTunes Store bietet Apple Musikdateien im verlustbehafteten Dateiformat AAC (»Advanced Audio Coding«) zum Kauf an. Das Format entstammt der MPEG-»Algorithmus-Familie«. Durch optimierte Algorithmen werden bessere Ergebnisse erreicht als bei MP3- Dateien, oder vereinfacht ausgedrückt, für gleiche Qualität kleinere Dateien benötigt.
Beim Start von iTunes 2003 bot Apple zunächst komprimierte AAC-Dateien mit einer Datenrate von 128 Kbit/s an, setzte laut Schwabe allerdings kurze Zeit später mit 192 Kbit/s einen »Qualitätsstandard« im Downloadmarkt. Mittlerweile wurden laut Apple alle Dateien auf »iTunes Plus« aktualisiert, wie der Hersteller es nennt. Kodiert wird mit variabler Bitrate mit einem Zielwert bei 256 Kbit/s, »… der je nach Quellmaterial um 10 bis 15 % überschritten werden kann, falls es der Encoder für nötig hält«, wie Mastering-Ingenieur Bob Ludwig auf Anfrage erklärt. Inzwischen verkauft iTunes rund 3 Millionen Titel täglich.
Seit Februar 2012 bietet Apple unter der Bezeichnung »Mastered For iTunes« die Möglichkeit, gezielt die Kodierung vorzuhören. Das Album All Of You der amerikanischen Singer/Songwriterin Colbie Caillat hatte den Stein ursprünglich ins Rollen gebracht: Hinter den Kulissen habe man bei Apple jahrelang den eigenen Codec optimiert, erzählt Bob Ludwig im Vorwort von Bob Katz’ Buch* zum Thema. Caillats Produzent und Vater Ken Caillat war unzufrieden mit den iTunes-Kodierungen der CD. Eine gemeinsame Arbeitsgruppe sollte das Problem lösen; Apple wollte höhere Wortbreiten als 16 Bit verwenden, falls vorhanden. Dazu wurde der Kodierungsprozess optimiert und unnötige Formatkonvertierungen sowie ein Automatismus zum Absenken der Lautstärke gegen Clipping entfernt.
Jene automatisch ausgeführten Schritte sollten nun individuell stattfinden − mit der Apple-Software »afclip« ließ sich kurze Zeit später der Pegel anzeigen, der interne Übersteuerungen verursachen würde. Eine große Verbesserung, so Ludwig. »Als ich meine Zusammenarbeit mit Apple 2011 begonnen hatte − nach dem ersten MFiT-Release von Colbie Caillat −, hieß der Prozess noch ›Apple Adaptive Mastering‹. Es war zunächst nur eine Art, 24-Bit-Quellen für das Encoding zu nutzen und den Eingangspegel zu reduzieren.« Nach Caillat wurde das Red-Hot-Chili-Peppers-Album I’m With You als zweiter MFiT-Titel veröffentlicht, im Herbst 2011 folgten Pink-Floyd-Neuauflagen und schließlich das von Bob Ludwig gemasterte Coldplay-Album Mylo Xyloto. Für externe Dienstleister freigegeben wurde das Format im Februar 2012.
Generell arbeitet der Apple-Encoder in zwei Schritten, wie Apple in einem PDF erläutert: Zunächst wird die Quelldatei auf 44,1 kHz konvertiert. Der verwendete Samplerate-Konverter gibt eine 32-Bit-Fließkommadatei aus, wodurch laut Hersteller Amplitudenwerte erhalten bleiben, die anderweitig aus dem zulässigen Bereich fielen. Dadurch werde Aliasing oder Clipping »typischer Samplerate-Konverter« (Apple) verhindert. Beim Encodieren bleibe die Dynamik einer 24-Bit-Quelldatei erhalten. Dadurch entfalle Dithering − und somit auch das als Kompromiss hinzugefügte Rauschen, um Verzerrungen zu vermeiden.
Bob Katz: »Eine AAC-Datei hat für sich genommen den größtmöglichen Rauschabstand − die Grenze hängt lediglich von der Quelldatei und der Art der Kodierung ab. Beim Kodieren liegt das Limit bei rund 18 Bit. Für ›Mastered For iTunes‹ geht Apple beim Kodieren entsprechend behutsam vor und nimmt dazu 24-Bit-Quelldateien an, aber es handelt sich um den gleichen Encoder wie beim »herkömmlichen« iTunes-Format. Der Encoder wird kontinuierlich weiterentwickelt und ist nicht mehr der gleiche wie noch vor ein, zwei Jahren.«
Der Unterschied zwischen »Mastered For iTunes« und dem »herkömmlichen« iTunes-Format besteht in der Art der Konvertierung − bei Letzterem wird der Pegel eingangsseitig automatisch reduziert, um Clipping zu vermeiden − allerdings ohne die Möglichkeit, Parameter gezielt zu steuern und das Ergebnis zu optimieren. » ›MFiT‹ bedeutet schlicht, dass sorgfältiger auf die Kodierung hingearbeitet werden kann und eine Quelldatei mit höherer Auflösung benutzt wurde«, sagt Katz. Der Grund, warum Apple die Kodierung selbst übernimmt statt jeden selbst werkeln zu lassen? »Sie wollen die Kontrolle über die Metadaten wie auch über die Lautheitswerte, die in die Datei geschrieben werden.«
Mastering-Engineer Bob Ludwig hat Apple bei der Entwicklung des hauseigenen Samplerate-Konverters beraten: »Bei einer höheren Sampling-Frequenz als 44,1 kHz kann das Mastering-Studio entscheiden, ob es einen eigenen Samplerate-Konverter verwendet oder den am Ende von Apple angewendeten − der bereits gut klingt. Wir denken, unserer klingt besser, weshalb wir immer ein fertig herunterkonvertiertes 44,1-kHz/24-Bit-Master bei Apple einsenden. Generell möchte Apple gerne 96-kHz/24-Bit-PCM-Master ›sammeln‹, weil sie vermutlich irgendwann auch 96-kHz-Dateien anbieten möchten − und die ›Arbeitsgrundlage‹ dann bereits besäßen. Manche nationalen iTunes-Angebote bestehen auf 96-kHz-Master als Abgabeformat.« Apple verwende immer noch 44,1 kHz als Ausgangsformat, weil selbst heutzutage schnelle Ladezeiten immer noch entscheidend seien. Eine − kleinere − 44,1-kHz-Datei brauche viel weniger Zeit zum Herunterladen als eine Variante in 96 kHz.
Messgrößen für Lautstärke/Lautheit
dB vs. dBFS
Die Einheit Dezibel (dB) beschreibt einen Schalldruckpegel (etwa einen Lärmpegel, gemessen in dB [SPL]). Im (digitalen) Aufnahmesystem wird Dezibel ebenfalls verwendet, allerdings mit verschobenem Maßstab: Bei einem 16-Bit-File ist der minimale Pegel, der abgebildet werden kann, —96 dB. 0 dB bezeichnet den technisch möglichen Maximalpegel. Der Dynamikumfang einer CD beschreibt also 96 dB. Die Einheit dBFS trägt der Verwendung Rechnung und beschreibt Dezibel in Relation zur »Full Scale«, zum Vollpegel von 0 dB. Die Bezeichnung »—9 dBFS« bezeichnet einen Pegel von —9 dB, gemessen in Relation zu 0 dB.
dB vs. LU, LUFS, LKFS
Die Einheit LU (Loudness Unit) dient zur Messung von Lautheit nach dem EBU-R-128-Standard. Gegenüber herkömmlicher RMS-Messung des Durchschnittspegels wird bei einer LU-Messung die psychoakustische Wirkung der Lautheit mit einbezogen (Bassanteile sowie leise Passagen unterhalb eines Schwellwerts werden ausgeklammert), um »gehörkorrigierte« Ergebnisse zu bekommen. 1 LU oder 1 LUFS (auch hier: relativ zur digitalen »Full Scale«, dem Vollpegel) entspricht 1 dB bzw. dBFS. LUFS ist dabei gleichzeitig ein Synonym für die bereits vorher eingeführte Einheit LKFS, die Bedeutung ist identisch.
Wege aus der Lautheit?
Als realistische, sinnvolle Lösung, um das »Lautheitsrennen« abzuschaffen, sieht Katz (siehe auch S&R 11.2016) dennoch iTunes als »Zugpferd« − allerdings mit normalisierter Durchschnittslautstärke bei der Wiedergabe aller Songs. Dadurch würden laute Produktionen mit den entstehenden unangenehmen Kompressions-Artefakten im Vergleich »entlarvt«. Katz: »Die CD wird dazu leider sterben müssen. Das tut mir leid! (lacht) Das bedauere ich tatsächlich sehr. Aber dazu müssen digitale Downloads den Markt übernehmen. Die Lösung besteht für mich darin: Die Wiedergabe-Software sollte transparente Durchschnittspegel-Normalisierung − ich betone transparent − verwenden, die automatisch im Hintergrund stattfindet. Im Moment gibt es noch keine vernünftige Implementierung, bis auf die Software ›J-River‹ − ein audiophiler Audio- und Video-Player, der auf Mac und PC läuft. Aber solange der Platzhirsch iTunes die Normalisierung nicht standardmäßig aktiviert, wird sich nicht viel bewegen. Apple hatte seinen ›Sound-Check‹- Normalisierungs-Algorithmus bereits standardmäßig in ›iTunes Radio‹ aktiviert, diesen Streaming-Dienst allerdings mittlerweile aufgegeben. YouTube normalisiert zu hoch, bei −13 LUFS. Spotify hat kürzlich den eigenen Durchschnittspegel gesenkt, von −11 auf −14 LUFS. Das scheint mir ein hoffnungsvolles Signal, aber ich denke nicht, dass −14 LUFS niedrig genug ist − außer Spotify verhindert ›Aufwärts-Normalisierung‹, wodurch bei einem leiseren File mit 0dB-Peaks Clipping entstehen würde. Das Material dürfte nicht bearbeitet werden, und wäre nicht so laut normalisiert wie komprimierteres Material.
Dazu kommt, dass es ja ein kodierter Stream ist, was praktisch heißt, PCM-True-Peaks dürften −1 dB nicht überschreiten, um Clipping beim Kodieren zu vermeiden; tatsächlich wäre die Dynamikspanne nur 13 statt der angegebenen 14 dB. Auch dürften sie keinen Limiter verwenden. Dazu müsste immer Album-Normalisierung verwendet werden, wo sich die Normalisierung am lautesten Track orientiert. »Immer« bedeutet in dem Fall, dass auch ein Song, der alleine − außerhalb des Albums − abgespielt wird, im Rahmen des Albumwerts nach unten normalisiert wird.
Bei einer Platte mit einer integrierten Lautheit von, sagen wir mal −16 LUFS, läge der lauteste Track wohl bei −14 LUFS. Die Album-Normalisierung hat praktisch zur Folge, dass man in Wirklichkeit bei allen anderen Songs auf einen niedrigeren Zielwert normalisiert. So gesehen wären Zielwerte um −16 oder −14 LUFS ein gangbarer Kompromiss für den derzeitigen Stand mobiler europäischer Abspielgeräte.
Es gibt eine Petition auf www.change.org, (Die Petition ist inzwischen beendet. An. d. Red.) an der ich beteiligt bin − mit über 6.000 Unterschriften. Wir hoffen, dass es noch mehr werden, um die Streaming-Anbieter beeinflussen zu können, Normalisierung standardmäßig zu integrieren. Ein Radioprogramm muss ohnehin normalisiert werden, keine Frage, allerdings hat ›iTunes Radio‹ seinerzeit den Sound nicht bearbeitet, sondern nur im Durchschnittspegel normalisiert. Wenn man Miley Cyrus’ Wrecking Ball im Kontext zu etwas anderem gehört hat, klang es kümmerlich und dünn. Bei normalisierter Wiedergabe können die Produzenten nicht länger ignorieren, dass sie ihre Musik nicht ohne Konsequenzen an die Wand fahren können. Ich hoffe, dass die Leute auch im Auto ihre iPods und iPhones für Musikwiedergabe nutzen, und Apple deren ›SoundCheck‹-Algorithmus standardmäßig aktiviert.«
Auch wenn es sicher nicht qualitativ an einer High Res Datei (24 Bit oder gar im DSD Format) herankommt, ist der Trend gut erkennbar. Schöner Artikel, der viele offene Fragen beantwortet. Danke dafür!
Auch wenn es sicher nicht qualitativ an einer High Res Datei (24 Bit oder gar im DSD Format) herankommt, ist der Trend gut erkennbar. Schöner Artikel, der viele offene Fragen beantwortet. Danke dafür!