
Vokalsynthese: Technologie, die das Spielen eines Instruments neu definiert
Stelle Dir ein Keyboard vor, wie es noch nie zuvor da war - eines, das vorprogrammierte Texte zu den von Dir gespielten musikalischen Phrasen "singen" kann. Im Gegensatz zu herkömmlichen Keyboards und Synthesizern stellt das Casiotone CT-S1000V ein völlig neues Performance-Konzept dar, das auf einer bahnbrechenden neuen Technologie basiert.
Seit den 1980er Jahren bietet die PCM-basierte Technologie standardmäßig Zugang zu einer Vielzahl authentischer Instrumentenklänge. Überzeugende Nachbildungen der menschlichen Gesangsstimme sind jedoch immer unerreichbar geblieben. Nicht nur, dass der Gesang selbst bei gleichbleibender Tonhöhe enorme Variationen in der Klangfarbe aufweist, auch der Text bietet eine ganz andere Ebene der Komplexität. Eine Wort-Darstellung erfordert Unterschiede in der Melodie und Phrasierung und auch die vorangehenden und nachfolgenden Wörter spielen eine Rolle in der Darstellung der Wellenformen.
Zwar gab es bereits Instrumente, die den Klang der menschlichen Stimme nachbilden konnten, doch erforderten sie spezielle Bedienungstechniken oder eine komplexe Kalibrierung vorprogrammierter Texte - Faktoren, die die Akzeptanz unter Musizierenden einschränkten.
Die Vokalsynthese-Technologie von Casio erlaubt eine authentische Reproduktion der menschlichen Gesangsstimme. Mit dem CT-S1000V ist es möglich, gesungene Vocals zu erstellen, ohne spezielle Techniken beherrschen zu können.
Inhaltsverzeichnis
- Ein Instrument, das in Echtzeit "singt"
- Noten- und Phrasenmodus ermöglichen die Kontrolle über lyrische Progressionen
- Echtzeit-Kontrolle über die Klangfarbe der Stimme
- Kombinieren von Funktionen zur Erstellung komplexer Vokaltexturen
- Hochladen von Originalversen mit der Lyric Creator App
- Vocalsynthese: Der erste Riesensprung in der Tonerzeugung seit PCM
Ein Instrument, das in Echtzeit singt

Die Vokalsynthese von Casio wurde in Zusammenarbeit mit Forschern des Nagoya Institute of Technology entwickelt. Hierfür werden Artikulationsmodelle verwendet, die auf Forschungen im Bereich des maschinellen Lernens beruhen. Damit können Vokaltöne mit verschiedenen virtuellen Vokalisten moduliert werden. Diese können sowohl mit integrierten als auch benutzerprogrammierten Texten, die in die Lyric Creator App eingegeben werden, verwendet werden, um flüssig gesungene Lyrics über das Anschlagen der Tasten erzeugen zu können. Der Gesang wird durch die Kombination von Vokaltönen, die von einer PCM-Klangquelle erzeugt werden, die die menschlichen Stimmbänder nachahmt, mit Filtern erzeugt, die die Phrasierung in Übereinstimmung mit dem eingegebenen Text ergeben.
Diese Technologie stellt eine radikale Abkehr von früheren Ansätzen dar, bei denen voraufgenommene Vokalklänge über eine Tastatur ausgelöst wurden, oder von Vocodern, die gesungenen Gesang in Echtzeit mit Synthesizertönen kombinieren. Die Vokalsynthese macht nicht nur spezielle Techniken überflüssig, sondern ermöglicht es auch, vorprogrammierten Texte mit beliebigen Melodien oder Harmonien zu kombinieren, was neue Möglichkeiten an der Schnittstelle zwischen Instrument und Text eröffnet.

Noten- und Phrasenmodus ermöglichen die Kontrolle über Progressionen

Wie der Text fortschreitet, wird durch einen von zwei Modi bestimmt: Notenmodus, in dem die gespielten Noten die Melodie bilden und der Text mit jeder gespielten Note vorangeht; und Phrasenmodus, der den Text automatisch in einem festen Takt durchläuft, während man spielt.
Der Notenmodus erzeugt natürlich klingende Gesangslinien, indem er jede Silbe des Textes entsprechend der gespielten Noten triggert und die Endkonsonanten beim Loslassen der Tasten zum Klingen bringt. Außerdem gibt es mehrere Funktionen, die verhindern, dass man sich im Verlauf verliert, weil man eine falsche Note gespielt hat. Die Pedale SP-3 und SP-20 von Casio (separat erhältlich) oder andere handelsübliche Fußschalter können verwendet werden, um im Liedtext vor- und zurückzuspringen oder die Liedtextposition zurückzusetzen. Man kann auch auswählen, welche Silbe als Nächstes ausgesprochen werden soll, indem die Tasten des Bassregisters verwendet werden, und festlegt wird, wie die Silben beim Spielen von Akkorden fortschreiten sollen.
Während der Noten-Modus und bestehende Vokalsynthe-Software weitgehend voraussetzen, dass die Gesangsmelodie im Voraus festgelegt wird, gibt das CT-S1000V im Phrasen-Modus die Möglichkeit zur Improvisation, indem es den Text beim Spielen automatisch vorwärts bewegt. Man legt einfach die Texte und ihre rhythmischen Unterteilungen und BPM im Voraus fest, und spielt dann frei und hört, wie der Text im Takt mitgesungen wird.
In diesem Modus kann man über einfache Melodievorstellungen hinausgehen und komplexe Gesangslinien auf der Grundlage fortgeschrittener Keyboardtechniken erstellen. Gleichzeitig kann man bei einfachen Tastaturkenntnissen sicher sein, dass die Phrasierung nicht abbricht, wenn man versehentlich einige falsche Tasten drückt. Ein weiterer Vorteil des Phrasenmodus sind natürliche phonetische Übergänge, die fließende Gesangspassagen erzeugen. Dies ist eine gute Möglichkeit, neue Gesangslinien auszuarbeiten und Arrangements über die intuitive Oberfläche des Keyboards zu entwickeln.
Tatsächlich ist es der Phrasen-Modus, der das CT-S1000V nicht nur zu einem neuen Keyboard mit neuen Klangerzeugern und Klangfarben macht, sondern zu einem Instrument, das neue Möglichkeiten des musikalischen Ausdrucks eröffnet.

Echtzeit-Kontrolle über die Klangfarbe der Stimme

Das CT-S1000V verfügt über 22 Vocal-Presets, oder "Vocalists", jedes mit seinem eigenen Charakter, von "Choir Group" und "Bossa Nova" bis "Child" und sogar "Vocoder". Diese Vocalists bestehen aus mehreren Wellenformen und Elementen wie weißem Rauschen und sind so abgestimmt, dass sie sowohl Vokale als auch Konsonanten klar und deutlich wiedergeben, egal ob es sich um einstimmige Melodielinien oder komplexere Harmonien handelt.
Die physischen Regler auf der Konsole des CT-S1000V ermöglichen die Echtzeitsteuerung von Parametern wie Vibrato und Portamento sowie von Klangcharakteristiken, die das Alters- und Geschlechtsprofil der gewählten singenden Person bestimmen. Indem Sie Attack und Release sowie die Geschwindigkeit der Aussprache anpassen, können Sie noch natürlichere Übergänge zwischen Wörtern und Silben gestalten und das Timing, mit dem die Vocals auf das Ohr treffen, subtil steuern. Darüber hinaus können Sie eine 16-Bit/44,1-kHz-WAV-Datei hochladen und Ihren eigenen User Vocalist erstellen, während Sie durch die Kombination verschiedener Parameter völlig neue Klänge erzeugen können. Es ist dieser Spielraum für Experimente, der das CT-S1000V so einzigartig macht, unterstützt durch CASIOs Vocalsynthese-Technologie.
Vocalist Examples
CHOIR GROUP
Weiblicher Chorgesang - mittlere Chorgröße. Die Konsonanten sind deutlich artikuliert und sind selbst bei Akkorden gut hörbar.
CHOIR TRIO
Männliches Chortrio. Die Konsonanten sind deutlich artikuliert und sind selbst bei Akkorden gut hörbar.
VOCODER 1
Vocoder-ähnlicher Sound mit einer nach unten gepitchten Oktave als unterer Layer
BOSSA NOVA
Hauchende weibliche Stimme im Bossa-Nova-Stil.
OPERA
Opernhafter Klang mit einem ausgeprägten Vibrato.
DEATH VOICE
Ein grimmiger Vokalsound, der als „Growl“ bekannt ist und im Death Metal-Genre verwendet wird. Der Klang enthält keinen Grundton.
GHOST
In der Anfangsphase werden Bend-ups hinzugefügt, um einen amüsanten, geisterhaften Klang zu erzeugen.
ANIMALS
Ein einzigartiger Sound, bei dem Texte gesprochen werden können, während Hühner, Kühe, Löwen, Katzen und Ziegen nachgeahmt werden.
Kombinieren von Funktionen zur Erstellung komplexer Vokaltexturen

Die kreativen Möglichkeiten der Vokalsynthese werden durch die Kombination von weiteren eingebauten Funktionen noch erweitert. Der Arpeggiator erzeugt zum Beispiel arpeggierte Akkorde und Phrasen, kann aber auch in Verbindung mit dem Syllable Randomizer verwendet werden, um Silben aus Liedtexten in zufälliger Reihenfolge zu vokalisieren und so phonetische Cluster zu erzeugen.
Eingebaute DSP-Effekte kombinieren die Instrumentalklänge und ermöglichen so noch dynamischere Kombinationen. Wenn man eine Taste bei aktivierter Retrigger-Funktion gedrückt hält, wird der Effekt des schnellen, perfekt getimten Tastenanschlags nachgestellt. Man kann Retrigger in Kombination mit der Hold-Funktion verwenden, um Tasten auch nach dem Loslassen erneut zu triggern und so Texturen und Arrangements zu ermöglichen, die physisch unmöglich zu spielen wären.
Gib deinen Text ein
Sowohl Lieblingssongtexte als auch eigene Kreationen können mit einem iOS- oder Android-Gerät über die Casio-eigene Lyric Creator-App auf Englisch und Japanisch eingegeben werden. Die Texte werden automatisch in Silbeneinheiten unterteilt, man kann jedoch auch die Unterteilungen manuell zuweisen und mehrere Silben zusammenfassen. Nachdem die Daten ins CT-S1000V exportiert sind, kann man mit dem Musizieren loslegen.

Einstellungen
Im Phrasenmodus wird das Wiedergabetempo des Textes durch die Zuweisung von Notenwerten (Achtelnoten, Viertelnoten usw.) zu den einzelnen Silbeneinheiten und das Einfügen von Pausen bestimmt. Die einzelnen Lyriktöne enthalten Tempodaten, die über die CT-S1000V selbst eingestellt werden können. Das Tempo kann auch mit der MIDI-Clock der DAW oder eines anderen externen MIDI-Geräts synchronisiert werden, um sicherzustellen, dass die Gesangsphrasierung immer im Takt bleibt.

2025.1.23 Lyric Creator ver2.0.0 Jetzt verfügbar!
Neue Funktionen für flexiblere Lyrikerstellung
Es wurde eine neue Funktion eingeführt, die die Einstellung von Notenwerten für lyrische Phrasen vereinfacht. Zusätzlich zur Standardeingabe von Notensymbolen ist es nun möglich, Notenwerte durch das Ziehen entlang von Rasterlinien zu bearbeiten. Jeder Notenwert wird als visuelles Kästchen angezeigt, so dass sowohl die Länge als auch die Position intuitiv angepasst werden kann. Dies ermöglicht eine präzise Feinabstimmung der Dauer von Noten und Pausen, was mit der Standardeingabe von Notensymbolen nicht möglich war. Außerdem sind jetzt Taktstriche auf dem Bildschirm sichtbar, was die Bearbeitung komplexer Rhythmen, wie z. B. Synkopen über Takte hinweg, vereinfacht.
Außerdem wurde die Möglichkeit eingeführt, Textphrasen in jedem beliebigen Tempo direkt in der App abzuspielen. So kann man den Rhythmus und den Klang der Textphrase sofort überprüfen, bevor die Textdaten an ein Instrument übertragen werden.

Formulierung und Diktion genau festlegen
Benutzer, die sich einen granularen Ansatz wünschen, können sogar noch tiefer gehen und die Phoneme bearbeiten, aus denen sich einzelne Silben zusammensetzen. Neben der Verbesserung der Aussprache kann dieses Verfahren auch dazu verwendet werden, regionale Akzente zu adaptieren oder die Aussprache von Wörtern in anderen Sprachen als Englisch und Japanisch zu imitieren. Wichtig: Die verfügbare Phonem-Bibliothek besteht aus Lauten, die im Standard-Englisch und Japanisch vorkommen.

Phonetic symbols
used by Lyric CreatorCorresponding
IPA symbolaa ɑ, a ae æ ax ə axr ər ah ʌ ao ɔ, o aw ɑu, au ay ɑı, aı b b ch tʃ d d dh õ eh e, ɛ, ɜ ey eı, ɛı, ɜı f f g g hh h ih ı iy i jh dʒ k k l l m m n n ng ɳ ow ɔu, ou oy ɔı, oı p p r r s s sh ʃ t t th θ uh u uw u v v w w y j z z zh ʒ tt t - IPA symbol for flap 't' (as in better, little, etc.) dd d - IPA symbol for flap 'd' (as in middle, etc.) mm m - Humming sound of the IPA symbol 'm' nn n - Humming sound of the IPA symbol 'n' ci Expresses closure with the tongue, etc.
Verkettung von Liedtexten für längere Sequenzen
Der Lyric Creator begrenzt zwar die Länge des Textes, der eingegeben werden kann (bis zu 100 Achtelsilben), aber nach dem Hochladen in das CT-S1000V können einzelne Texte zu viel längeren Sequenzen zusammengefügt werden. Mit dieser Funktion können einzelne Abschnitte fein abgestimmt werden, bevor diese im CT-S1000V zu einem kompletten Song kombiniert werden.

Eigenen Sängerinnen und Sänger erstellen
Die Lyric Creator App kann auch verwendet werden, um ein WAV-Audio-Sample (16bit/44.1kHz, mono/stereo, max. 10 Sekunden lang), das auf dem eigenen Smart Device gespeichert ist, in ein Original-Vocalist-Patch zu verwandeln, das dann in das CT-S1000V geladen werden kann. Über die Bearbeitungsoberfläche können Merkmale wie Alter, Geschlecht, Stimmumfang und Vibrato einstellt werden.
Die 22 Vocalist-Presets des CT-S1000V wurden für eine maximale Klarheit der Aussprache entwickelt, indem verschiedene Wellenformen mit Elementen wie weißem Rauschen gemischt wurden, so dass die User-Vocalist-Wellenformen möglicherweise nicht den gleichen Grad an Artikulation erreichen. Mit etwas Experimentierfreude lassen sich neue Klänge erzeugen, darunter auch abstrakte wie das Animal-Preset des CT-SV1000V.
Zum Ausprobieren eignet sich das kostenlose User Vocalist-kompatible Wellenform-Sample (SawC4+WhiteNoise.wav), dieses kann über den folgenden Link heruntergeladen werden:
https://support.casio.com/en/support/download.php?cid=008&pid=20

Verbinden des CT-S1000V mit dem eigenen Smart Device
Sobald die Lyric Creator App auf dem eigenen Smart Device installiert ist, können Texte, Sequenzen, Gesangssamples usw. übertragen werden, indem man das Gerät über ein USB-Kabel mit dem CT-S1000V verbindet. Die App kann auch verwendet werden, um zu sehen, wie viel Speicherplatz auf dem internen Laufwerk des CT-S1000V verfügbar ist, um Dateien zu löschen und Dateinamen zu bearbeiten. Die Programmdateien werden in einem proprietären Format exportiert, das den Austausch zwischen CT-S1000V-Benutzern ermöglicht. Man kann auch Musik-XML-Lyrikdaten und Notenwerte aus der verwendeten DAW importieren.


Vocalsynthese: Der erste Riesensprung in der Tonerzeugung seit PCM
Geschichte der Klangerzeugung von CASIO
Die Pulse Code Modulation (PCM)-Technologie, die in den 1970er Jahren aus der Forschung und Entwicklung der Audioindustrie hervorging, hat unsere alltägliche Musiklandschaft durch die digitale Reproduktion von Schallwellen aus analogen Quellen wie physischen Instrumenten und der menschlichen Stimme dramatisch beeinflusst.
Synthese von Vokalen und Konsonanten
Casiotone 201

PD Sound Source
CZ-101

iPD-Schallquelle
VZ-1

1980 betrat Casio Computer Co., Ltd. mit dem Casiotone 201 und seinem bahnbrechenden Ansatz der Vokal-Konsonanten-Synthese erstmals den Musikinstrumentenmarkt, mit dem Ziel, die digitale Technologie zu nutzen, um jedem Menschen die Freude am Musizieren zu vermitteln. Mitte der 1980er Jahre, als sich die Musikaufnahme von analogen Schallplatten auf digitale CDs verlagerte und konkurrierende Instrumentenhersteller um die Entwicklung einer digitalen Syntheseplattform für die Musikproduktion konkurrierten, brachte Casio den Synthesizer CZ-101 auf den Markt, der auf unserer einzigartigen Phase Distortion (PD) Klangquelle basiert. Casios Beitrag zur digitalen Synthese machte 1988 mit der Einführung des VZ-1 und seiner Integrated Phase Distortion (iPD)-Technologie einen weiteren Sprung nach vorn.
Die 1980er Jahre waren eine Zeit, in der elektronische Instrumente einen enormen Einfluss auf die populäre Musik hatten. Neue Keyboards und Synthesizer mit PCM-Technologie standen im Mittelpunkt, da sie es den Artists ermöglichte, völlig neue Klänge zu kreieren. In der Zwischenzeit sanken die Preise für digitale Geräte aufgrund der verbesserten Speicherkapazität immer weiter, so dass sie immer erschwinglicher wurden.
1985 brachte Casio das elektronische Keyboard MT-500 auf den Markt, das die Klangerzeugung auf PCM-Basis nutzte, um den Klang von Schlagzeug und Becken zu digitalisieren. Es ebnete den Weg für den durchschlagenden Erfolg des legendären Sampling-Keyboards SK-1, von dem nach seiner Markteinführung 1986 eine Million Stück verkauft wurden. 1988 folgte das CT-640, ein elektronisches Keyboard, das vollständig auf PCM-basierter Tonerzeugung basierte.
Etwa zur gleichen Zeit brachte die PCM-Technologie auch elektronische Pianos mit immer authentischeren Klängen hervor. Das PCM-basierte CDP-3000 - Casios erstes elektronisches Klavier mit Hammermechanik - war eine weitere Neuheit im Jahr 1988. 1991 wurde der Markt für elektronische Klaviere mit der Einführung der immer noch beliebten CELVIANO-Serie erweitert, als Casio das AP-7 und seine Advanced Piano (AP)-Klangerzeugung vorstellte. In den darauffolgenden Jahren sorgten Verbesserungen im Bereich des Speichers für immer höhere Leistung und Klangqualität zu immer günstigeren Preisen.
PCM-Tonquellen sind jedoch nicht ohne Einschränkungen.
Sie waren zwar ideal für die originalgetreue Wiedergabe gespeicherter Klänge, aber PCM-Klangquellen hatten Schwierigkeiten, subtile Variationen in Ton und Artikulation aufgrund der Spieldynamik zu reproduzieren. Casio startete eine Entwicklungsoffensive, um dieses Problem zu lösen und die PCM-Architektur weiterzuentwickeln. 1993 kam das CTK-1000 auf den Markt: ein elektronisches Klavier, dessen Integrated Cross-Sound Architecture (iXA) Klangerzeugung auf PCM-Basis mit Anschlagdynamik und DSP-Funktionalität kombiniert.
Viele unserer aktuellen Produkte verwenden nach wie vor PCM-basierte Klangquellen in Kombination mit einzigartigen Casio-Technologien, um komplexe Klangveränderungen aufgrund von Faktoren wie dem Ausklingen von Noten und der Spieldynamik zu reproduzieren. Unser Angebot an elektronischen Klavieren umfasst sowohl die Privia- und die CELVIANO-Serie, die mit akustischen und intelligenten Resonator-Klangerzeugern (AiR) ausgestattet sind, als auch das CELVIANO Grand Hybrid mit seinem AiR Grand-Klangerzeuger. Auch die Casiotone-Serie verfügt inzwischen über die PCM-basierte Acoustic Intelligent multi-Expression (AiX) Klangquelle.
PCM-basierte Tonquelle
SK-1

CT-640

CDP-3000


CELVIANO AP-7


CTK-1000


Privia PX-S1100


CELVIANO Grand Hybrid GP-510BP


Casiotone CT-S1

Doch während diese Fortschritte die PCM-basierte Klangerzeugung in die Lage versetzt haben, eine Vielzahl von Instrumentenklängen originalgetreu wiederzugeben, hat sie mit dem grundlegendsten und historisch wichtigsten Instrument überhaupt, der menschlichen Stimme, nach wie vor Schwierigkeiten. Die Wiedergabe von gesungenen Vokallinien ist mit einer Reihe von Herausforderungen konfrontiert. Nicht nur, dass verschiedene Gesangstechniken sehr komplexe Klangvariationen hervorbringen, auch der lyrische Inhalt bietet eine überwältigende Anzahl von Variablen, die es zu verarbeiten gilt. Von der Vielfalt des Vokabulars bis hin zu den Übergängen zwischen Silben und der Art und Weise, wie eine andere Melodie oder Phrasierung die für ein bestimmtes Wort erforderliche Wellenform völlig verändern kann. Und obwohl PCM-basierte Ansätze in den letzten Jahren zusammen mit Vocoder und anderen Technologien Fortschritte gemacht haben, stehen erhebliche Mängel einer breiten Akzeptanz weiterhin im Wege.
Seit 2022 werden die langjährigen Entwicklungsbemühungen von Casio endlich mit einem völlig neuen Ansatz in der Klangerzeugungstechnologie - der Vokalsynthese - und einer völlig neuen Art von Instrumenten zum Erfolg geführt: Das Casiotone CT-S1000V. Durch die Kombination von Vokalsynthese mit einem revolutionären Phrasen-Modus erfüllt dieses neue Instrument die unglaublich komplexe Aufgabe, gesungene Gesangslinien auf Knopfdruck zu erstellen, und das mit einer Benutzeroberfläche, die so einfach und intuitiv ist, dass sie von jedem bedient werden kann.
Vocalsynthese:

Casiotone CT-S1000V