とても面白い内容を見つけましたので、まずはこちらの内容から入ります。


引用開始


テクノスピーチと名古屋工業大学の国際音声言語技術研究所は、AI技術により人間の声質・癖・歌い方を高精度に再現できる歌声合成技術を開発したと発表しました。

テクノスピーチ公式サイトにて、日本語ではCeVIOプロジェクト「さとうささら」、英語では1st PLACEの「IA」の歌声データベースを用いた、実際のサンプル曲を公開。
手作業による調整が行われていない“ベタ打ち”ながら、なめらかな発声や歌詞の繋がり、
違和感なく挟まれるブレスなど、まさに「人と区別できない時代」への突入を感じさせます。


もはや人間と区別できないレベル 
テクノスピーチと名古屋工業大、AI活用の新バーチャルシンガー技術を発表 - ねとらぼ
2018年12月15日 20時41分 公開
[宮原れい,ねとらぼ]

より
一部引用


引用元のサイトからもサンプルが聴けますので、是非とも聴いてください。

個人的には「Diamonds」は竹内まりやさんの某曲を連想させてくれます。
通常の会話に関してはもうちょっと…という感じがありますが、これも時間の問題でしょうね。
竹内まりやさんと言えば、どの曲かは今の時点ではど忘れをしていますが、何かの曲は青山純さんのドラムをドラムマシンで再現をした曲があったはずです。

引用元の記事にもありますが、亡くなられたシンガーの再現も目的の一つとしてあるようで、確かに、このままいくと技術的には比較的すぐに解決されそうです。
あとは楽曲の権利の関係でしょうかね。ネックなのは…。

元々音楽もプログラミングも、どちらも同じ数学が基盤ですから、めちゃくちゃ相性がいい。
ですから、本当に、そう遠くない未来に、ささらちゃんの様なバーチャルシンガーが大量に世に出るようになるでしょう。

しかも、自宅だけでなく、ライブハウスにも当然、出てくるでしょうね。
イメージとしてはDMMさんが行ったXJapanのhideさんのライブのような内容が全国の街のライブハウスで行われるようになるハズです。

現在でも初音ミクのライブはかなりの規模で行われていますし、各レコード会社もこの手の内容には、少しづつですが、力を入れています。

そう考えると、やはり一つの境目になるのは2020年の5G回線でしょうか…。
量子コンピュータの一般発売を待たないで、今回の内容は、世間に爆発的に広がるハズです。
また、今後は生身のシンガーのサポートとしても、大きく活用がされるでしょう。

人間の耳は正直に言えば、そこまで高い機能ではありません。
それこそ、犬や猫との比較ですらも、格段に負けます。
ですので、多くの人にとってはべつに生身の人間の歌声でなくても良いのです。

もちろん、今回の様なソフトウェアで作った作品は全てダメ…という意味ではなく、生身の人間とソフトウェアでの作品のどちらも楽しみたい!という人にとっては、これからの時代は、ますます良い時代になりそうです!

ただ…。その分、生身の人間の作品の値段はグーンと高くなりそうですが。しかし、時代の流れから考えれば、当然といえますがね。

これからの時代は音楽もAIが人の手をほとんど介入させないで、ほぼ自動的に作成をするようになるでしょう。
それこそ聴き手の、その時々の状態に合わせて、即興的にその場、その場で聴き手の好みのオリジナルの曲をスピーカーから流してくれるようになるハズです。
もちろん、今の様な、例えば、物語テイストの歌詞の曲だとかもすぐに作ってくれるハズです。

この様に書くと音楽を生業にしている人は失業をするのでは…と思う人もいるでしょうが…大丈夫!
現時点での多くの仕事と呼ばれている内容は殆どがAIとロボットになりますから!

だいぶ厳しい内容をサラッと書きましたが、これは避けられようがない事実です。
現に、プログラミングの世界でも、AIによる自動プログラミングが世界のトップでは始まっているという話もあります。
また、すでに多くのサイトのお客様サービスのメールも殆どがプログラミングによる自動サービスです。
気付いていないだけで、現時点でも多くの内容はプログラミングにより自動化されています。

それこそ、マイコンがずっと前から電子レンジなどに組み込まれていますから、正直、何をいまさら慌てているのやら…という感覚もあります。

ですがこれも、現在のプログラミングのトップオブトップと同じになるのですが、プログラミングは自動で行うが、そのプログラミングの大本になる、それこそ文字通りに、ブレインとして優秀な人間がその自動プログラミングを操作することで、人が介入をしない状態の内容とは全く異なる内容になるようです。

ですので、面倒な内容はプログラミングとロボットにやってもらい、肝心の部分は今まで通りに人間が操作をし、指揮をとる!というのが、これからの時代のスタイルの一つでしょう。

そして、お金に余裕がある人は全部を生身の人間で行う…という風になるハズです。

これは別の内容で例えるなら、これからの書籍は電子書籍がベースとなり、紙の本はとてつもない高級品となる…という変化と近いものがあります。
つまりは、生身の人間、紙の書籍などのアナログの内容は、これからますます、一部のお金持ちが独占的に楽しむ内容になるのです。

なので、同じ内容であれば一般人は紙ではなくデータで本を読み、一部の愛好家だけがわざわざ今の様な紙の状態にして書籍を読む…という時代になるでしょう。
今の時代のアナログと呼ばれる内容は、これからの時代では、どんどん価値が高くなります。
これは物だけでなく技術なども同じです。
すでに書いてありますが、これからの時代は生身のミュージシャンのライブとバーチャル技術などを使って3D化した映像やミュージシャンロボットなどのライブとでは、金銭的な違いに格段と差が出てくるようになるでしょう。

この時の基準の一つに、それぞれのクオリティーを比較した際の違いなどではなく、単純に生身の人間か、ロボットか、という違いだけでの金額差になります。
この内容は現時点であれば、外食をしたときに、人間とロボットで同じ味の料理を作れているのに、提供をされるときに、自動販売機のような機械から出てくる状態と、店員が席まで運んできた状態では、味の感じ方や楽しい感覚などが、全然違うのと同じということです。
もう少し詳しく書いてみますと、同じハンバーガーでも自販機から出てきて、そのままセルフサービスで自分の席に持っていって食べるのと、注文から料理が届くまで全部店員が準備をしてくれるのとでは、様々な感じ方が全然違うということです。面白いのは、どちらも同じ料理だとしてもです。

この時の違いは単純で、人がやってくれているか、そうでないか、という違いが大きくあります。
すでに書いている内容の続きになりますが、人間の聴覚をはじめ、五感の感覚というのは、それぞれの感覚に特化した他の動物と比較をすると、あまりにもいい加減な処理能力なのです。
それこそ、料理の味からレストランの雰囲気まですべて同じなのに、ただ、機械が行うか、人間が行うかという違いだけで、実際に同じ料理の味が変化をしてしまうのです。
これは、料理自体の味が変化をしたのではなく、受け手の側である人間の感覚の処理の仕方が変わったことで感じる違いになります。

実際にこのような違いは多くのシーンで見かけます。
これもわかりやすい例を書いておくと、せっかく美味しい料理と仲間たちで楽しんでいるのに、嫌いな人が一人追加で合流をしたとたんに、一気に今までの感覚が無くなって、いやな気分で埋め尽くされる…と言うのが、現代日本ではわかりやすいと思います。

つまりは、人間の認知能力とは、これくらいにいい加減なのです。
だからこそ、これからの時代では、生身の人間が演奏をしているという状態だとか、生身の人間が書いた漫画だとかの、本当に些細な違いだけで、金銭的には大きな差が出てくるのです。


それと最後に。
今回の音声ソフトの目的の一つに、病気などでしゃべれなくなった人に対しての活用を視野にいれているようです。
これは認知度が高い人物であれば、つんく♂さんのように、がんなどで声を失った人の声を取り戻すことも可能になる訳です。
現時点では、人工声帯などに限定をされますが、今後の技術の発達により声を取り戻す選択肢が増えていくようになるでしょう。
正直、商用での利用よりも、まずはその様な人々に向けて、どんどん広めていって欲しいと思っています。少しでも速い実用化を願っています。

それでは、今日も最高の一日を。