オバマ元大統領も再現可能。AIが人の声を解析してセリフを喋る

これにより“音声アバター”という新しい概念が生まれます。

美人女優の顔面をニコラス・ケイジにすげ替えたり、リアルタイムに他者の映像を自分の動きに合わせる「ディープ・ビデオ・ポートレイツ」が研究されているなど、人工知能が映像で人の顔をカンタンに、しかも自然にスワップできる時代に突入しました。

もう何を信じたら良いのかわからないほど、テクノロジーの進歩は凄まじいものになっています。今度はそれに加えて、AIによって人の声を解析し、好きなセリフを思いのままに喋らせる技術まで登場してしまったのです。

まずはオバマ元大統領の映像と声を元に作られたデジタル・オバマさんに、この技術を宣伝してもらいましょう。

Video: Lyrebird/YouTube

デジタル・オバマさんいわく、「たった1分間だけ音声を録音すれば、声のデジタル・コピーが作れてしまうウェブサイトが立ち上がりました」とのこと。本来の目的は決して人を欺くものではなく、「病気などにより声を失ってしまった人たちの助けになること」とも話します。

デジタル・オバマさんが話していたのはLyrebirdというサイトで、登録するとオバマ元大統領やトランプ大統領のデジタル・フェイク音声が聞けたり、自分の声を録音してデモが作れるようになっています。

共同設立者のソテロさんによると、これまでであれば、こうした人工音声を作るのには8時間を要していたのだそうです。ですがこの技術ならたったの1分でAIが音声を解析。以降はタイピングしたテキストをAIが自分の声で読み上げてくれるのです。

実際サイトで試してみると、まず30種類の長短さまざまな文章を録音させられます。ですがAI的に音声情報が認識できないと、30以上を録音させられるハメに…。これはけっこう骨の折れる作業です。しかしこれで、AIが発音の抑揚やクセなども学習していくのです。

180613_lyrebird2
Image: Lyrebird

完成後は、なんとなく機械が話しているような不自然さがあります。元は自分の声なので、ちょっと不思議な感じ。そして自らの音声を元に話すAIは、“音声アバター”としてさまざまなものに利用できるようになるのです。

Lyrebirdは、この技術でたとえばチャットボットや音声アシスタント、またはオーディオブックや電話の音声ガイド、そしてテレビゲームのアバターや、ウェブ上のテキストを読むなどの使い方を提案しています。

これからは普通の人々でも手軽に音声アバターを作る時代になるかもしれませんし、またそうした音声に応対するのも、別の人の音声アバターになるかもしれません。我々には、一体どんな未来が待っているのでしょうか?