Sing's noch einmal

Vocal Synthesizer Yamaha Vocaloid 6 im Test

Anzeige

Die perfekten Vocals einzufangen kann kompliziert sein und hängt vom Zusammenspiel verschiedener Faktoren ab: angefangen bei der Tagesform vor und hinter dem Mikro über die Chemie zwischen den Anwesenden bis hin zur richtigen Kaffeesorte und der Frage, welches Catering es gibt. Seit dem KI-Boom drängen immer mehr Anbieter KI-generierter Vocals auf den Markt, die versprechen, all diese Faktoren vernachlässigen und das Catering für sich allein haben zu können. Yamahas Vocaloid spielt im Feld synthetisierter Stimmen schon seit Anfang des Jahrtausends mit und ist mittlerweile in der Version 6 angelangt, die nun ebenfalls von KI profitiert.

Anzeige

Fast ziemlich genau 21 Jahre ist es her, dass Yamaha die erste Version von Vocaloid auf der Musikmesse 2001 ankündigte, was damals für reichlich Gesprächsstoff sorgte. Wie in den vorherigen Versionen wird auch in der aktuellen Version 6 von Vocaloid die gewünschte Melodie und der Text über einen Editor eingegeben, um dann das Ergebnis vorgesungen zu bekommen. Dabei greift Vocaloid auf verschiedene sogenannte »Voice Banks« zu, die das komplette Audiomaterial der jeweiligen Stimme bereitstellen, woraus dann letztendlich die Worte gebildet werden. Eine Voice Bank ist im Grunde also eine Sample-Library einer bestimmten Stimme, allerdings eine extrem kleinteilige. Hierin finden sich Phoneme, Vokale, Sibilanten und alles weitere, was man braucht, um Silben und Worte überzeugend aus ihren Einzelteilen zusammensetzen zu können.

Die KI hat nun die Aufgabe, das Sample-Material aus den Voice Banks als Gesangsstimme möglichst natürlich klingen zu lassen und wurde dafür mit Gesangsmaterial echter Sängerinnen und Sänger trainiert. Dabei erfolgte das Deep Learning hauptsächlich mit Fokus auf den Nuancen, die für einen natürlich klingenden Gesang wichtig sind, wie Timbre, Timing- und Tonhöhenabweichungen, Ausdruck, Phrasierung, Vibrato, Atmung, etc.

Im Editor werden die verschiedenen Vocal-Parts eingespielt und bearbeitet. Im oberen Teil können mehrere Spuren mit unterschiedlichen Stimmen angelegt werden, die dann jeweils im unteren Teil des Fensters editiert werden können.


Praxis.
Nach der Installation liegt Vocaloid 6 als Plug-in und als Standalone-Version vor, wobei sich beide Versionen bezüglich der Funktionalität gleichen. Nach dem Öffnen präsentiert sich der Vocaloid Editor, ein Piano-Roll-Editor, in dem sich jeder zurechtfinden dürfte, der schon einmal mit einem Sequenzer gearbeitet hat. Im oberen Teil des Editors lassen sich verschiedene Spuren anlegen, denen die jeweiligen Stimmen zugewiesen werden. Die Noten können dann entweder per Maus, mittels einer virtuellen Klaviatur eingegeben werden, oder man schaltet die gewünschte Spur per Record Enabling scharf und spielt die Melodie über eine angeschlossene Klaviatur ein, was viel schneller geht und daher definitiv der Weg der Wahl sein sollte.

Bei den zur Auswahl stehenden Stimmen ist dann allerdings ausprobieren oder Fantasie gefragt. Mehr als eine Grafik steht als Info zur jeweiligen Stimme nicht zur Verfügung.

Per Doppelklick auf die mit dem Einspielen erzeugten Region sieht man nun die Notenwerte und andere Parameter im Piano-Roll Editor. Der Text wird dann entweder generell über ein Texteditorfenster eingegeben, und Vocaloid verteilt ihn auf die Anzahl der eingespielten Noten, oder man gibt per Doppelklick für jede Note das gewünschte Wort bzw. die gewünschte Silbe ein. Hier können pro Silbe neben den Notenlängen auch unterschiedliche Parameter für Vibrato, Timing, Pitch und Expression editiert werden.

Erfreulicherweise wird das ARA2-Format unterstützt, womit eine bombensichere Kopplung des Sequenzers und des Vocaloid Editors gewährleistet ist, denn hiermit werden Daten wie Tempo, Cycle-Bereich, Songposition, Playback Status, usw. übertagen und alles läuft synchron.

Eine stattliche Anzahl typischer Gesangseffekte ist ebenfalls an Board. Diese sind bereits in den Style-Presets integriert.

Sound. Es gibt eine recht stattliche Auswahl an verschiedenen Stimmen, die Englisch, Japanisch und Chinesisch singen können. Wie im echten Leben auch verfügt jede Stimme über individuelle Eigenschaften und hat ihren eigenen Charakter. Hier ist allerdings ausprobieren angesagt, denn bis auf das Geschlecht lässt sich leider nicht ablesen, welche Stimme für welchen Stil geeignet ist und mit welchem Stimmcharakter man es zu tun hat. Die verschiedenen Style-Presets sind hier meist eine große Hilfe, um schnell eine passende Stimme und den richtigen Ausdruck zu finden. Dabei sind die Stimmen insgesamt schon recht unterschiedlich, klingen dann aber doch irgendwie alle verwandt. Echte Ausreiser, für die sich etwa verschiedene Genres geradezu aufdrängen würden, sind nicht zu finden. Die Stimmen klingen alle recht clean, und ich würde sie eher in moderneren Richtungen wie Pop, Hip-Hop, EDM etc. einsetzen. Rauere Charakterstimmen für kantige Stromgitarrenproduktionen oder auch soulige Farben sind leider genauso Fehlanzeige wie Stimmen im Kontext Klassischer Musik.

Trotzdem ist es erstaunlich, was Vocaloid 6 einfach mal so zu Gehör bringt, wenn man bedenkt, dass alles nur auf einer eingespielten Melodie und einem getippten Text basiert. Manchmal erkennt man, dass es sich um eine künstliche Stimme handelt, oftmals aber auch nicht. Das hängt zu großen Teilen von der gewählten Gesangslinie, deren Tonumfang, dem Playback, Genre usw. ab. Meiner Meinung nach macht die KI einen guten Job, wenn es darum geht, wie nachfolgende Silben verbunden und »angesungen« werden, und auch die Lebendigkeit ist oftmals gut umgesetzt. Viele Passagen sind überzeugend, bei anderen ist allerdings auch oft noch Feintuning angesagt. Das kann dann schnell in Editierorgien ausarten, denn pro Silbe lassen sich wiederum viele Parameter justieren. Hier lohnt es sich auf jeden Fall, zuerst die verschiedenen »Takes« auszuprobieren, die automatisch angelegt werden. Wie bei echten Recordings sind das Varianten, die sich in verschiedenen Parametern unterscheiden und dann eben als alternativer Take evtl. die Schwachstellen der zuerst generierten Version ausbügeln können. Sehr schön!

Bei vielen Worten wird eine Variante der Aussprache angeboten.

Apropos Variante: Manchmal gibt es pro Silbe auch noch eine alternative Auswahl der Aussprache, die in Lautschrift dargestellt wird und dann ausgewählt werden kann. Das kann sehr zur authentischen Aussprache beitragen. Auch haben mich die Atmer überzeugt, die in Intensität und Frequenz eingestellt werden können und sich automatisch in der richtigen Länge in die jeweilige Atempause einfügen.

Fazit: Die sechste Version von Vocaloid ist sicherlich die beste, denn hier legt die KI in Sachen Varianz und Details nochmal eine Schippe drauf – auch wenn es in Sachen Authentizität oft noch Verbesserungsbedarf gibt. Als echten Ersatz für menschlichen Gesang sehe ich Vocaloid momentan eher in Genres, die ohnehin auf stark bearbeitete Stimmen setzen oder eben auch im Einsatz als Backing Vocals bzw. zum Doppeln.

Man darf gespannt sein, was die KI in nächster Zeit hier noch zu leisten im Stande ist, denn die Mitbewerber schlafen nicht, und Yamaha ist gut beraten, diesen Weg weiterzugehen. Die richtigen Parameter wie Genre, Playback, passende Gesangslinie, etc. vorausgesetzt, ist es mit Vocaloid heute schon möglich, eine Stimme täuschend echt out of the box zu generieren. Wenn demnächst noch eine größere Auswahl genretypischer Stimmfarben und eine weitere Verbesserung der Authentizität dazukommen, werden in bestimmten Bereichen, wie z. B. Production Music, garantiert weniger Studiosessions stattfinden, wenn es um Gesangsaufnahmen geht.

Download-Preis

225,– Dollar

Internet

www.vocaloid.com

Unsere Meinung

+++ Parameter- und Takesauswahl

++   Editor

+     Anzahl der Voice Banks

–     teilweise künstlicher Klang

–     ähnliche Stimmcharaktere

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.