DTMスキルアップメモ - frenchbread

見習いボカロPがそこそこのボカロPになるまで、が描かれていくはずのブログ。

初音ミクさんに滑舌よく歌ってもらうための試行錯誤

わたしは作成途上の歌をミクさんに歌っていただきつつ、身近にいるミーアさんという耳の良い知人に試聴してアドバイスしていただくことが多いのだけれども、ちょいちょい「歌詞が聞き取れない」と言われることに最近気づいた。

 

たしかに、油断するとミクさんはすぐにむわむわっと歌ってしまわれる傾向があり、わたし自身は歌詞を打ち込んでいる身なので実はそんなに気にしていなかったのだけれども、歌である以上歌詞はハキハキ聞き取れるに越したことはない。

そこで、少しばかり実験をしてみた。

 

実験台はこちら

 

まず、サンプルを聴いていただきたい。

わたしの過去曲の1つで、ボカロにはよくある早口の部分がターゲットだ。

ちなみに「ムキムキの侍たちが 光の速さで人力車を 走らせて ガイジンたちが 腰抜かす」 と歌っている。

  

さて、どうだろうか。2年ほど前に作ったのだが、当時なりに滑舌のことは気にした気がするが、そう深くも考えていなかった。

 

街で聞いたウワサ① スキマを作るべし

 

まずこの話。

スキマがあることで聞き取りやすいということ自体は明らかに思われる。

40-60msというのはどれくらいのスキマなのか計算してみると、この曲(BPM=135)の場合は32分休符よりちょっと短いくらいだとわかった。

よくスタッカートの表現のMIDI入門的な教え方として、音の長さを音符の半分で入力する、と言ったりするが、たいていの曲の場合メロディには16分音符までしか登場しないので、32分相当の空白を設ければスキマを感じられる、という意味で、ざっくりこの説明が当てはまっているのかもしれない。と思った。

(実際にはスタッカートは、まさに「次の音との間にスキマを設ける」という意味だそうで、少し年代が古いクラシックだと「2分音符+スタッカート」とかが登場したりしますが、これを4分音符+4分休符で打ち込んでしまうと相当ニュアンスがずれてしまいます。という知識は一応持っている上での感想とご理解ください。)

 

最も確実にこれを実現しようと思えば、ボーカロイドのパラメータのダイナミクスか、もしくはDAW側のオートメーションで一音ずつ崖を作ってやればいい。

以下のブログではその方法が紹介されている。

 

ameblo.jp

 

ただ、はっきり言ってめんどくさい。ここぞという数カ所を処理するくらいならいいが、このサンプルのようなマシンガン部分に適用するのはちとしんどい。

もしかすると、こういう労力を惜しんでいるからわたしはいつまで経っても初心者なのかもしれぬが、それは今は断固として棚にあげておく。

 

で、他の方法としては、ベロシティによる調整が考えられる。

ベロシティはいろいろあるパラメータのうちもっとも基本的なものの一つと言われるが、意外に難しい気がしている。

下はベロシティと滑舌の関係について言及している烏賊Pさんのブログである。

 

niconico-toolbox.blog.jp 

VEL(ベロシティ)の使い方

VELを下げることで、子音の発音が前に長くなるので、バラードやテンポの遅い曲は少し長めにすると良いと思います。
子音が長くなるので、歌声の言葉が聴き取りにくい場合も、気持ち長めにすることで子音が聴こえやすくなり、結果として歌声がハッキリ聴こえてきます。

逆にVELを上げると、子音の発音が短くなるので、アップテンポの曲や早口の曲の滑舌を良くする働きがあります。
VELを上げ過ぎると、子音が聴き取りにくくなってくるので、実際に聴いてみて調整することをお勧めします。

 

つまり、上げると子音が短くなるので前の音の長さを確保できる(聴きやすくなる)一方、次の音とのスキマが縮まってしまう、ということと理解した。

実際に試してみたのだが(下のほうに参考画像あり)、確かに上げ過ぎても下げ過ぎても聴きづらかった。微調整するしかないようである。

 

街で聞いたウワサ② マキシマイザをかけるべし

 

これはちょっと不思議に思えた。単純に音圧が上がればオケより目立つようになるが、そういう話ではないだろう。

で、実験して波形を書き出して見比べたりもして思ったのは、音がある部分の波形がより四角い形(面が埋まっている形)になるので、無音部分とのメリハリがつくということなのかな、ということである。

先ほどのベロシティとの関係も絡めると、「1つ1つの音圧量を上げたいが、ベロシティで(横に)確保すると、一方で上げすぎのマイナス効果もあるので、マキシマイザで(縦にも)補填してやる」とまとめられるのではなかろうか。

 

実験結果はこちら

1つめは最初のバージョンの波形、2つめはウワサ①でベロシティをあえてMAXにしてみた波形、3つめはウワサ②でマキシマイザをかけた波形である。(わかりづらいかもしれないが、2つめの波形は3箇所ほどある無音に近い部分が少し短くて、20-30msくらいである。)

f:id:naoki-horiuchi:20170709152450p:plain

 

最初のバージョンのベロシティ30近辺が意外にベストな感じだったので、これは結局そのまま採用。

あと、ブライトネスやクリアネスなどのパラメータも極端に動かして実験してみたが、改善ポイントは発見できなかった。(ブライトネスは下げると明らかにもごもごになって、クリアネスは上げると単に高音がうるさくなっただけ。)

 

結果、「マキシマイザをかける(前述のとおり)」のほか、「アクセント=100&ディケイ=0に設定する」「EQで低域カット、倍音を少し補強」くらいを施して、到達したのがこれだ。

 

 

 うーん、ちょっと明瞭にはなった・・かな?