음성 합성 - Casiotone

음성 합성: 악기 연주를 재정의하는 기술

지금까지 없던 키보드입니다. 연주하는 프레이즈에 따라 프로그래밍한 가사를 “노래합니다.” 기존 키보드, 신시사이저와도 다르며, 전문 스튜디오 프로덕션 장비와도 구분됩니다. Casiotone CT-S1000V는 획기적인 신기술인 음성 합성을 기반으로 하는 완전히 새로운 개념의 퍼포먼스 장비입니다.

PCM 기반 기술은 1980년대부터 키보드 연주자가 수많은 정통 악기 사운드를 사용하는 표준 방식이었습니다. 그러나 사람이 노래하는 목소리를 제대로 재현한다는 것은 불가능에 가까웠습니다. 보컬은 일정한 음높이에서도 음색이 엄청나게 변화하며, 여기에 가사를 더하면 훨씬 더 복잡해집니다. 심지어 같은 단어라도 멜로디와 프레이즈에 따라 차이가 있으며, 앞뒤에 오는 단어에 따라 파형이 달라져야 합니다.

사람의 목소리를 키보드 형식으로 복제하려고 했던 제품이 있었지만, 전문적인 조작이나 연주 기법이 필요하거나, 프로그래밍된 가사를 세심하게 보정하고 연주해야 했으므로, 뮤지션이 활용하기에는 제약이 있었습니다.

Casio의 음성 합성 기술은 건반보디스트의 손끝에서 사람이 노래하는 목소리를 정확하게 재현해 이러한 문제를 극복합니다. CT-S1000V 출시로 이제 누구나 특별한 기술 없이도 원할 때마다 노래하는 보컬을 만들 수 있습니다.

- 실시간으로 "노래"하는 악기

- 가사 진행을 제어하는 음표 모드와 프레이즈 모드

- 보컬 음색 실시간 제어

- 복잡한 보컬 질감을 만드는 결합 기능

- Lyric Creator 앱을 사용해 오리지널 버스 업로드

- 음성 합성: PCM 이후 사운드 생성의 첫 번째 거대한 도약

실시간으로 "노래"하는 악기

악기 연주자가 쉽게 노래 보컬 라인을 입힐 수 있게 하는 획기적인 신기술인 음성 합성은 Casio와 나고야 공업 대학 연구소가 함께 개발했습니다. 초기 머신 러닝 연구에 기반한 아티큘레이션 모델을 사용하여 "보컬리스트"로 알려진 다양한 가상 보컬 패치에서 보컬 음색을 조절하며, 내장 프리셋 가사와 Lyric Creator 앱에 입력된 유저 프로그래밍 가사를 결합하여 키보드를 통해 유창한 노래 라인을 생성합니다. 또한 인간의 성대를 모방하도록 설계된 PCM 음원에서 생성되는 보컬 음색과 가사 입력에 따라 프레이즈를 생성하는 필터를 결합하여 생성된 보컬은 물리적 노브를 통해 연령이나 성별 같은 더 많은 특성을 실시간으로 조정할 수 있습니다.

이 기술은 사전에 녹음된 보컬 사운드를 키보드로 트리거하는 기존 방식이나 신시사이저 음색을 노래하는 보컬과 실시간으로 결합하는 보코더와는 완전히 다릅니다. 음성 합성은 특별한 기술이 필요하지 않을 뿐만 아니라 프로그래밍한 가사를 원하는 모든 멜로디나 화음과 결합할 수 있어서 악기와 가사 표현을 결합하는 새로운 가능성을 열어 줍니다.

가사 진행을 제어하는 음표 모드와 프레이즈 모드

가사 진행 방식은 다음 두 가지 모드 중 하나에 의해 결정됩니다. 음표 모드에서는 연주하는 음표가 멜로디를 형성하고 각 음표가 연주될 때마다 가사가 진행됩니다. 프레이즈 모드에서는 연주할 때 고정된 길이의 가사가 자동으로 연주됩니다.

음표 모드는 연주하는 음표에 따라 가사의 각 음절을 트리거하고 건반을 놓을 때 마지막 자음을 적용하여 유창하고 자연스러운 보컬 라인을 생성합니다. 또한 잘못된 음표를 연주해서 연주하는 부분을 놓칠 위험을 방지하기 위한 몇 가지 기능이 있습니다. CASIO의 SP-3 및 SP-20 페달(별도 판매) 또는 기타 시중에서 판매하는 풋스위치를 사용하여 가사를 앞으로 또는 뒤로 이동하거나 가사 위치를 재설정할 수 있습니다. 저음역 건반을 사용하여 다음에 발음할 음절을 선택하고 코드 연주 시 음절 진행 방법을 제어할 수도 있습니다.

음표 모드와 기존 음성 합성 소프트웨어는 주로 보컬 멜로디를 미리 정해야 하지만, 프레이즈 모드에서는 CT-S1000V가 연주할 때 가사가 자동으로 계속 이동하여 즉흥 연주가 가능합니다. 간단하게 가사와 분절되는 박자와 BPM을 미리 설정하면 자유롭게 연주해도 박자에 맞춰 가사를 노래합니다.

이 모드를 사용하면 단순한 멜로디 개념을 넘어 고급 키보드 기술을 기반으로 복잡한 보컬 라인을 만들 수 있습니다. 또한 키보드 실력이 더 초보일 경우 실수로 잘못된 건반을 눌러도 프레이즈가 '끊어지지' 않는다는 확신을 가질 수 있습니다. 프레이즈 모드의 또 다른 장점은 유연한 보컬 악절을 만드는 자연스러운 발음 접합입니다. 또한 훌륭한 작곡 플랫폼을 제공하여 새로운 보컬 라인을 만들고 키보드의 직관적인 인터페이스를 통해 편곡을 할 수 있습니다.

프레이즈 모드를 사용하면 CT-S1000V는 새로운 사운드 생성기와 음색을 갖춘 단순한 새 키보드를 넘어서, 음악 표현의 새로운 가능성을 열어주는 악기로 변신합니다.

보컬 음색 실시간 제어

CT-S1000V에는 22개의 보컬 프리셋 또는 “보컬리스트”가 있으며, 이들은 각각 “합창단”, “보사노바”, “어린이”, “보코더” 등의 특성이 있습니다. 화이트 노이즈와 같은 다양한 파형과 요소로 구성된 각 보컬리스트는 모노포닉 멜로디 라인을 연주하든 더 복잡한 화음을 연주하든 모음과 자음 모두 선명하게 발음할 수 있도록 정교하게 조율되었습니다.

한편, CT-S1000V의 콘솔 패널에 있는 물리적 제어 노브는 비브라토 및 포르타멘토와 같은 변수뿐만 아니라 선택한 보컬리스트의 연령과 성별 프로필을 결정하는 음색 특성도 실시간으로 제어합니다. 그리고 어택, 릴리스, 발음 속도를 조정함으로써, 단어와 음절 사이가 더욱 자연스러운 전환하게 만들고, 그렇게 만든 보컬이 귀에 들리는 타이밍을 미묘하게 제어할 수 있습니다. 게다가 16비트/44.1kHz WAV 파일을 업로드해서 나만의 "유저 보컬리스트"를 만들 수 있으며, 다른 변수를 결합하면 완벽한 오리지널 사운드를 찾는 데 도움이 될 수 있습니다. 이런 방대한 실험 범위가 CT-S1000V를 매우 독특하고 즐겁게 만들며, 이를 Casio의 음성 합성 기술이 뒷받침합니다.

보컬리스트 예

CHOIR GROUP

중형 여성 합창단 사운드. 자음이 분명하게 표현되어 코드를 연주할 때도 들립니다.

CHOIR TRIO

남성 합창단 트리오. 자음이 분명하게 표현되어 코드를 연주할 때도 들립니다.

VOCODER 1

보코더 같은 사운드는 1980년대 디스코 히트곡에서 자주 사용되었으며, 1옥타브 아래 피치가 레이어링되어 있습니다.

: BOSSA NOVA

숨소리가 섞인 보사노바 스타일의 여성 보컬 사운드.

OPERA

독특한 비브라토가 있는 오페라 사운드.

DEATH VOICE

데스 메탈 장르에서 사용되는 '그로울'이라는 격렬한 보컬 사운드. 기본적인 음색은 소리에 포함되어 있지 않습니다.

GHOST

초기 프레이즈에 벤드업이 추가되어 유령 소리 같은 재미있는 소리를 냅니다.

ANIMALS

닭, 소, 사자, 고양이, 염소 흉내를 내며 가사를 말할 수 있는 독특한 사운드.

복잡한 보컬 질감을 만드는 결합 기능

음성 합성과 CT-S1000V의 창의적인 가능성이 다양한 내장 기능과 결합되어 더욱 확장되었습니다. 예를 들어, 아르페지에이터(Arpeggiator)는 건반을 길게 누르면 아르페지에이터 코드 및 다른 프레이즈를 생성하지만 음절 랜더마이저(Syllable Randomizer)와 함께 사용하면 가사의 음절을 임의로 발성하여 비현실적인 보컬 클러스터를 생성할 수도 있습니다.

내장 DSP 효과와 악기 음색을 결합하면 더욱 역동적인 조합이 가능합니다. 리트리거(Retrigger) 기능이 활성화된 상태에서 건반을 길게 누르면, 빠르게 건반을 누르는 효과가 완벽하게 타이밍에 맞추어 재현됩니다. 지연(Hold) 기능과 함께 리트리거를 사용하면 건반을 놓은 후에도 다시 트리거하여 물리적으로 연주할 수 없는 텍스처와 편곡을 쉽게 만들 수 있습니다.

오리지널 버스를
업로드할 때 사용하는
Lyric Creator 앱

스마트 장치 모델 및 OS에 대한 호환성 정보는 App Store/Google Play를 확인해 주세요.

앱 유저 가이드

스마트 장치를 악기에 연결

가사 입력

Casio의 Lyric Creator 앱을 통해 iOS 또는 Android 장치를 사용하여 좋아하는 노래 가사와 오리지널 가사를 영어와 일본어로 입력할 수 있습니다. 텍스트를 음절 단위로 자동 분할(수동으로 분할을 지정하고 여러 음절을 함께 그룹화할 수도 있음)한 다음 데이터를 CT-S1000V로 내보내면 재생할 준비가 됩니다.

길이 설정

프레이즈 모드에서 개별 음절 단위로 음표 값(8분음표, 4분음표 등)을 할당하고 쉼표를 삽입하여 가사의 재생 길이를 결정합니다. 개별 가사 음색에는 CT-S1000V 자체에서 조정할 수 있는 템포 데이터가 포함됩니다. 또한 템포는 DAW 또는 다른 외부 MIDI 장치에서 MIDI 클록에 동기화할 수 있어 어떻게 연주하든지 보컬 프레이즈가 박자에 항상 맞게 만들 수 있습니다.

2025년 1월 23일 Lyric Creator 버전 2.0.0 출시!

더욱 유연하고 간편하게 가사를 생성할 수 있는 새로운 기능

가사 프레이즈의 음표 값 설정을 간소화하는 새로운 기능이 도입되었습니다. 이제 음표 기호의 표준 입력뿐 아니라, 그리드 선을 따라 음표 값을 드래그해서 편집할 수 있습니다. 각 음표 값은 상자 형태로 표시되므로, 길이와 위치를 직관적으로 쉽게 조정할 수 있습니다. 따라서 음표 기호의 표준 입력으로는 불가능했던 음표 및 쉼표 길이의 정확하고 미세한 조정이 가능합니다. 또한, 이제 화면에 세로줄이 표시되어 마디를 넘어가는 당김음과 같은 복잡한 리듬 편집이 간소화되었습니다.
그리고 가사 프레이즈를 다양한 템포로 앱에서 직접 재생할 수 있는 기능이 도입되었습니다. 따라서 가사 데이터를 악기로 전송하기 전에 리듬과 가사 프레이즈를 바로 확인할 수 있습니다.

프레이징과 딕션으로 그래뉼러

진정한 그래뉼러 방식을 원하는 유저는 더 심오한 설정을 통해 개별 음절을 구성하는 음소를 편집할 수 있습니다. 이 프로세스를 사용하면 더 명확한 보컬 딕션을 만드는 것 외에도, 지역 억양에 비슷하게 만들거나 영어와 일본어 이외의 언어로 단어 발음을 모방할 수 있습니다. (사용 가능한 음소 라이브러리는 표준 영어와 일본어에 사용되는 사운드로만 구성되어 있습니다.)

긴 시퀀스에서 가사를 함께 연결

Lyric Creator 앱에서는 입력할 수 있는 가사의 길이 제한이 있지만(8음 음절 최대 100개), CT-S1000V에 업로드하면 개별 가사를 훨씬 더 긴 시퀀스로 묶을 수 있습니다. 이 기능을 사용하면 입력 단계에서 개별 섹션을 미세 조정한 후 CT-S1000V 내에서 결합하여 완전한 노래를 만들 수 있습니다.

나만의 보컬리스트 만들기

또한 Lyric Creator 앱을 사용해서 WAV 오디오 샘플(16비트/44.1kHz, 모노/스테레오, 최대 10초 길이)을 오리지널 보컬리스트 패치로 스마트 장치에 저장한 후 CT-S1000V에 로드할 수 있습니다. 편집 인터페이스를 통해 연령, 성별, 음역, 비브라토 같은 특성을 설정할 수 있습니다.

CT-S1000V의 보컬리스트 프리셋 22개는 각각 다른 파형을 화이트 노이즈와 같은 요소와 혼합하여 발음의 선명도를 극대화하도록 설계되었으므로 유저 보컬리스트 파형은 동일한 수준의 아티큘레이션을 달성하지 못할 수 있습니다. 그러나 실험을 통해 CT-SV1000V의 동물 프리셋과 유사한 추상적인 소리를 비롯한 새로운 소리를 만들 수 있습니다.

아래 링크에서 무료 유저 보컬리스트 호환 파형 샘플(SawC4+WhiteNoise.wav)을 다운로드하여 실험을 시작해 보세요.
https://support.casio.com/en/support/download.php?cid=008&pid=20

스마트 장치에 CT-S1000V 연결

스마트 장치에 Lyric Creator 앱을 설치하면 USB 케이블을 통해 장치를 CT-S1000V에 연결하여 가사, 시퀀스, 보컬 샘플 등을 전송할 수 있습니다. 앱과 연결하면 CT-S1000V의 내장 드라이브에서 사용 가능한 공간을 확인하고, 파일을 삭제하고, 파일 이름을 편집할 수도 있습니다. 프로그램 파일은 CT-S1000V 유저끼리 공유할 수 있는 독점 형식을 사용하여 내보냅니다. DAW에서 음악 XML 가사 데이터 및 음표 값을 가져올 수도 있습니다.

스마트 장치를 악기에 연결

음성 합성: PCM 이후 사운드 생성의 첫 번째 거대한 도약

Casio의 음원 개발 역사

1970년대에 시작된 오디오 산업 연구 개발에서 탄생한 PCM(Pulse Code Modulation) 기술은 물리적 악기 및 인간의 보컬과 같은 아날로그 소스의 음파를 디지털 방식으로 재현하여 일상적인 음악 환경에 큰 영향을 미쳤습니다.

모음 - 자음 합성

Casiotone 201

PD 음원

CZ-101

iPD 음원

VZ-1

Casio Computer Co., Ltd.는 1980년에 디지털 기술을 활용하여 모든 사람에게 음악 재생의 즐거움을 선사한다는 목표를 갖고 획기적인 모음-자음 합성 방식을 가진 Casiotone 201로 악기 시장에 처음 진출했습니다. 그리고 1980년대 중반, 음반이 아날로그 레코드에서 디지털 CD로 옮겨가고, 라이벌 악기 제조사들이 음악 제작을 위한 디지털 신시사이저 플랫폼을 개발하기 위해 경쟁하면서, Casio는 독자적인 PD(Phase Distortion) 음원을 기반으로 하는 CZ-101 신시사이저를 출시했습니다. 디지털 신시사이저에 대한 Casio의 기여는 1988년 VZ-1 출시와 거기에 적용된 iPD(Integrated Phase Distortion) 기술로 또 다른 도약을 이뤘습니다.

1980년대는 전자 악기가 대중음악에 엄청난 영향을 미쳤던 시기였습니다. 또한 PCM 기술이 적용된 새로운 키보드와 신시사이저가 아티스트가 완전히 새로운 사운드로 음반을 만들고 새로운 퍼포먼스 스타일을 탐구할 수 있도록 지원함으로써 무대의 중심에 있었습니다. 한편, 메모리의 개선으로 디지털 악기의 가격이 계속 낮아져서 점차 일반 소비자가 사용할 수 있게 되었습니다.

1985년, Casio는 PCM 기반 음색 생성으로 드럼과 심벌의 소리를 디지털화한 MT-500 전자 키보드를 출시하여 1986년 출시 이후 100만 대를 판매한 전설적인 SK-1 샘플링 키보드의 성공을 위한 길을 열었습니다. 이후 1988년에는 완전히 PCM 기반 음색 생성에 기반한 전자 키보드 CT-640을 출시했습니다.

또한 같은 시기에 PCM 기술을 통해 전자 피아노가 점점 더 실제 사운드에 가까워졌습니다. 해머 액션 건반을 탑재한 Casio의 첫 번째 전자 피아노인 PCM 기반의 CDP-3000이 1988년 새롭게 출시되었으며, 1991년에는 AP(Advanced Paino) 음원이 포함된 AP-7과 지금까지도 인기 있는 CELVIANO 시리즈를 출시하면서 Casio는 전자 피아노 시장으로 그 영역을 완전히 넓혔습니다. 그 후 몇 년 동안 메모리가 계속 개선되면서 가격은 더 저렴해지고 성능과 음질은 높아졌습니다.

그러나 PCM 음원에도 한계가 있었습니다.

PCM 음원은 저장된 사운드의 충실한 재현에는 이상적이었지만, 다이내믹하게 연주할 때 음색과 아티큘레이션의 미묘한 변화를 재현하는 데 어려움을 겪었습니다. Casio는 이 문제를 해결하고 PCM 아키텍처를 발전시키기 위한 개발에 박차를 가했으며, 그 결과 1993년에 CTK-1000이 출시되었습니다. CTK-1000은 PCM 기반 음색 생성과 터치 리스폰스 및 DSP 기능을 결합한 iXA(Integrated Cross-Sound Architecture) 음원을 갖춘 전자 피아노입니다.

현재 출시된 제품 중 다수는 여전히 PCM 기반 음원을 독자적인 Casio 기술과 결합하여 음표 디케이 및 다이내믹한 연주 같은 요인으로 생겨나는 복잡한 음색 변화를 재현합니다. Casio의 전자 피아노 라인업에는 AiR(Acoustic and Intelligent Resonator) 음원을 갖춘 Privia 및 CELVIANO 시리즈와 AiR Grand 음원을 갖춘 CELVIANO Grand Hybrid도 있습니다. 한편, Casiotone 시리즈 역시 PCM 기반 AiX 음원을 갖추고 있습니다.

PCM 기반 음원

SK-1

CT-640

CDP-3000

CELVIANO AP-7

CTK-1000

Privia PX-S1100

CELVIANO Grand Hybrid GP-510BP

Casiotone CT-S1

그러나 이러한 발전으로 PCM 기반 음색 생성은 광범위한 악기 사운드를 충실하게 재현할 수 있게 되었지만, 가장 근본적이고 역사적으로 중요한 악기인 인간의 보컬과 관련해서는 여전히 어려움을 겪고 있습니다. 노래 보컬 라인 재현을 위해서는 다양한 문제를 해결해야 합니다. 다양한 보컬 테크닉이 매우 복잡한 음색 변화를 만들어낼 뿐만 아니라 가사 컨텐츠도 처리해야 해서 압도적인 숫자의 변수가 생깁니다. 변수는 어휘의 다양성에서 음절 사이의 전환, 여러 멜로디나 프레이즈가 주어진 단어에 필요한 파형을 완전히 변형하는 방법까지 다양합니다. PCM 기반 방식은 최근 몇 년 동안 보코더 및 기타 기술과 함께 진전을 보였지만, 심각한 단점으로 광범위한 적용이 힘들었습니다.

마침내 2022년, Casio는 완전히 새로운 사운드 생성 기술 방식인 음성 합성과 완전히 새로운 종류의 악기인 CASIO CT-S1000V로 오랜 개발 노력의 결실을 맺었습니다. 음성 합성과 혁신적인 프레이즈 모드를 결합한 이 새로운 악기는 노래 보컬 라인을 손끝에서 만드는 아주 복잡한 작업을 수행하지만, 누구나 사용할 수 있을 만큼 간단하고 직관적인 인터페이스를 갖추고 있습니다. Casio가 지난 30년 동안 생활 방식에 많은 변화를 불러온 것처럼, 이 최신 혁신이 음악 공연과 작곡 분야에도 비슷한 영향을 미칠 수 있기를 바랍니다.

음성 합성

Casiotone CT-S1000V