birdネット上でVOCALOIDの歌声を自動調整する「Netぼかりす」, きょうのつぶやき

ネット上でVOCALOIDの歌声を自動調整する「Netぼかりす」

「初音ミク」をはじめとする VOCALOID の各種パラメータを自動的に調整1してくれる、産総研の開発した「VocaListener」という技術を用いた新サービスです。

少し前に「VocaListener (長いので以下ぼかりす)」が学会で発表になったときにも少し話題になり、今後どういう形で世に出てくるのかと注目していたんですが…個人的には少しがっかりでした。

がっかりした理由は一つで、今回のサービスが、調整されるパラメータの元ネタとして、人間が歌った音声データを要求している点でした。このことはつまり、アップロードした人間が歌った音声ファイルと近い歌い回し、抑揚に、VOCALOID のパラメータを調整してくれるに過ぎないサービスであろうことを意味します。それじゃ、ボイスチェンジャーといったい何が違うのでしょう?僕には、同じこと達成するためのアプローチが異なるだけなように見えます。しかし、ぼかりすの目標はそんなところにあったんでしょうか。

僕が勝手に期待していたのは、ぼかりすが、今の初音ミクなどがまだ持っていない、「人間らしい歌い回しの基礎」のような情報を、VOCALOID に追加してくれるようなものなんじゃないか、ってことでした。VOCALOID は素敵な技術ですけれど、まだまだ足りない部分は多くて、その一つがそういう、人間なら当たり前の「歌い回し」のような部分だと思っていました。言ってみれば初期の電子ピアノで、弦の鳴りは再現したけれどまだボディのうねりやらハンマーの音やら高音低音の弦の太さの違いまでは表現できていなかった時代のように2

ぼかりすの技術を突き詰めていくと、「人間らしい歌い回しの本質」のようなものが抽出できて、それをデータベース化して将来の VOCALOID へ組み込めるんじゃないか、と思っていたんですね。

まぁいろいろと実装上の都合があったであろうことは予想できるんですよね。たとえば、そうやって「人間らしい歌い回しの基礎」情報を VOCALOID が獲得してとりあえず何もせずとも今より自然に歌えるようになったとしても、今度はより高度なレベル、歌詞の内容やらリズム、フレーズ、はたまた歌われるシチュエーションによって歌い方を変えねばならず(人間の歌手なら当たり前にやっていることですが)、結局調整作業はちっとも楽にならないことも考えられる。だったら最初から、そういったすべての要素が詰まった人間の歌をまねさせてしまえばいいじゃないか、とか。

でも、僕は VOCALOID はあくまでも楽器であるべきだと思うんですよ。人の声をまねるだけじゃ、言ってみればピアノソナタの CD を BOSE で聴くか KEF で聴くか、という違いに過ぎなくなってしまう。僕はむしろ、スタインウェイで弾くかベヒシュタインで弾くか、という違いであってほしいと思うのです。

きょうのつぶやき

僕のマスクは花粉症です。はーっくしょん! (11:46 [twitux](http://sourceforge.net/projects/twitux" rel=“nofollow)から)

ぼかりすは人が歌ったデータを元にしている点が萌えない。それじゃある意味、単なるボイスチェンジャーじゃないか。 (13:14 [twitux](http://sourceforge.net/projects/twitux" rel=“nofollow)から)

もっと artificial にやってほしいよ。 (13:15 [twitux](http://sourceforge.net/projects/twitux" rel=“nofollow)から)

声が綺麗な人から音素データ取って、歌い回しのうまい人から歌い方データ取って、それを合成していっちょ上がり!という未来はあまり好きになれない… (13:17 [twitux](http://sourceforge.net/projects/twitux" rel=“nofollow)から)

単に綺麗な歌を聴きたいだけならそれでも良いのかもしれないけれど… (13:18 [twitux](http://sourceforge.net/projects/twitux" rel=“nofollow)から)

コメント

かぴのすけ、 (Fri, 01 May 2009 23:27:11)
こっちもツッコミ。

> ボイスチェンジャーといったい何が違うのでしょう?

本人の声を変調しただけと別の音素使って組み換えるのとじゃ結果が飛躍的に違うわけだが。後者は新しくシンセサイズしてる。指で楽器に音楽を与えるのと同様、音声で音素データに音楽を与えているってこった。
Digitune (Sat, 02 May 2009 01:20:43)
最近ツッコミ多いね>かぴのすけ
ま、(音素の精度も低い) 今の段階では「結果が飛躍的に違う」のも当たり前だな。言ってみれば、WebCAM とかについてる表情だけトラッキングしてアニメや動物の顔を変化させるアレみたいなもんだ。しかしその路線を進化させると、という話だよ。
http://www.logitech.com/index.cfm/488/466&cl=jp,ja
これが、
http://www.youtube.com/watch?v=bLiX5d3rC6o&fmt=18
これになると。

> 音声で音素データに音楽を与えているってこった。

だからそれはまさに「歌」だろう。ボイスチェンジャだと音楽っぽくないってんなら、すなわちボコーダじゃん、それ。ボカロがボコーダになるってのは退化じゃないのか?!
かぴのすけ、 (Sat, 02 May 2009 23:31:55)
音素の精度が低いとかそーいう問題じゃーないぞ。
音素の差ってのは単にトーン変調しただけでは得られんのだよ。
トーン変調で得られるのは結局変調された本人の声でしかない。
まあ、ボイスチェンジゃーが最終的にやりたかったことってのは今回のVocaListenerみたいな技術なんだろけどな。完全に他人の声にしてしまうっつー。
でだな、ボコーダでもボーカロイドでもなんでも、結局最終的に得たいのは、ある音色(声色)による歌(曲)なわけですよ。なんで、VocaListener的アプローチは別になんらおかしくない。むしろ打ち込みしなくていいっていう大幅なメリットがある。

あと技術的なことを言うと、人間らしさの自動付加なんてのは今のVocaListenerの技術とはかけ離れてるね。現状のVocaListenerの技術は歌詞データと入力歌唱とのマッチングの高精度化に過ぎん。
Digitune (Sat, 02 May 2009 23:56:15)
順番前後するが、

> むしろ打ち込みしなくていいっていう大幅なメリットがある。

それはメリットなのか?キーボードからギターの音が出るから、ギターいらね、ってこと?
ありえねー。
楽器、ってのは、どうやって音を出すか、という点も非常に重要なんよ。

> まあ、ボイスチェンジゃーが最終的にやりたかったことってのは今回のVocaListenerみたいな技術なんだろけどな。完全に他人の声にしてしまうっつー。

まぁ最初から目指していたのがそういうところなら、別に文句を言う類のもんでもないんだけどね。上でも書いたように、あくまでこれは「僕が勝手に期待していたのは」という話だから。

> 現状のVocaListenerの技術は歌詞データと入力歌唱とのマッチングの高精度化に過ぎん。

結局そういうことだったのかねぇ。俺はてっきり、入力歌唱をどんどん増やしていって、そこから共通項を抽出していって、「人間らしさの自動付加」を目指してくれるもんだと思っていたよ。彼ら自身だって、「入力歌唱を真似るだけでは、ユーザの歌唱力を超えることが出来ないという問題もあった。」と書いてたし。(まぁよく読めば、彼らのその問いに対する彼らの現時点の答えは、「入力歌唱に対して、音高のずれやビブラートなどの歌唱要素を修正できる支援機能も提供する。」の部分であることは分かるんだけどね。)

ボカロをもっと自然にする、という意味じゃ、ほんとは YAMAHA さんあたりが考えるべき課題なのかもね。
かぴのすけ、 (Sun, 03 May 2009 01:31:31)
ボーカロイドはもともと楽器じゃない(演奏的UIではない)からなぁ。
データ打ち込みよりゃ歌う方が楽しそう。

共通項を抽出するにはマッチングが必要だから今回の技術は過程にあると言えなくもない。
だから目指してはいるのかもしれん。が、遥かに及んでない。てこと。

n-gramとかHMMとかの辞書を使ったよくある文脈的誤り補正のアルゴリズムでやることがまづ考えられるが、それが有効なのは局所的な最適パターンの積み重ねが全体の最適となるケースに限られる。つまり局所的に見て同じような音素、音符の並びは同じように補正して構わない場合にだけ有効。ひょっとするとほとんど局所解で問題ないかもしれん。もちろん誤訂正はよゆーで起きる。
Digitune (Sun, 03 May 2009 11:14:20)
> ボーカロイドはもともと楽器じゃない(演奏的UIではない)からなぁ。
> データ打ち込みよりゃ歌う方が楽しそう。

うむ。僕も、個人的にはポチポチ打つよりも歌っちゃったほうが手っ取り早いほうだけど(歌にはいろいろこだわりがあるわけだし)、打ち込み好きな人もいるだろー照れ屋さんとか、と思った。
まぁいまやキーボードタイプだけじゃなくて、ギターとかからも打ち込み出来ると考えれば、今回のぼかりすもいわゆる「鼻歌入力」の一種と考えればいいのかもね。

> つまり局所的に見て同じような音素、音符の並びは同じように補正して構わない場合にだけ有効。

今のボカロの、調整可能なパラメータって実はそれほど多くないのではないかと予想しているのだけれど(実はまだ使った事がないので分からない。ルカ様の体験版は入手したのだが…。それを見るとピッチ(音程)、ダイナミクス(音量)に加えて、ブライトネス(音の明るさ)とか子音の発音に関するパラメータもあるみたいね。でもその程度っぽい)、それでもきちんとぼかりすされた歌と一般の歌には、「人間らしさ」に関して雲泥の差があるように感じられる(ただ、てきとーにぼかりすされた歌だとそこまで違いは感じない、むしろ不自然になっているようなケースもあった)。なので、あらゆる組み合わせをブルートフォースで DB 化しようとしてもそんなに組み合わせ爆発は起こらない=現実的に格納可能な範囲で DB 化してもそれなりに効果は望めそうに思える。ふと思ったけど、これって単語の DB みたいな感じになるのかな。

個々の単語の音声データをそのまま持つとデータが爆発しちゃうけど、音素は別にもって、調整パラメータのみを持つ、という方向性なら多少圧縮も出来そう。調整パラメータの方は元の声とは独立だから使いまわせるし、その作成もぼかりすのような技術があれば完全にシステム化できそう(少なくとも音素採集の時のように歌を歌う人に協力を願う必要はなさそう。技術の人は細かな調整作業が必要だと思うけれど)。

1〜2年くらいかけてえいやっ、とやれば出来ない作業ではないような気がしてきた。というわけで YAMAHA さん、頑張ってくれい!
Digitune (Sun, 03 May 2009 11:16:31)
> n-gramとかHMMとかの辞書を使ったよくある文脈的誤り補正のアルゴリズムでやることがまづ考えられるが、

…って、かぴのすけが既に書いてましたな(^^;。さすがっす。
かぴのすけ、 (Mon, 04 May 2009 02:23:26)
個別事例に関してDBを持つんじゃなくて、同じように訂正されるデータ間で相関を取って汎化してやる必要があるね。相関はできるだけ他との分離度を高くするように取る。それなりに知識とセンスと運があればできるよ。

  1. どうでもいいですが、多くのメディアがこのサービス、技術を報道するのに「調教」という表現を使っているのがどうしても気になります。確かに初音ミクなどの歌をうまく調整することをしばしば「調教」と呼ぶ人はネット上には多数いますが、僕はどうしてもこの言葉に含まれるパターナリズムというか、VOCALOID に対する「上から目線」が気になるのです。 ↩︎

  2. 最近の電子ピアノでは、「環境音のピアノ内での反響」までシミュレートしています。 ↩︎