目次:
ビデオ: Faith Evans feat. Stevie J – "A Minute" [Official Music Video] (十一月 2024)
2017年、壊滅的な神経障害である筋萎縮性側索硬化症(ALS)は、有名なIce Bucket Challengeの創設者であるPat Quinnの発言能力を奪いました。
機械学習とディープラーニングの進歩により、人工知能アルゴリズムは人間を模倣するのが非常に上手になりました。 しかし、この分野での多くの著名な開発は否定的でしたが、AIの模倣力はクインにとって前向きな変化の力でした。
「ALS(運動ニューロン疾患としても知られている)と共に生きるほとんどの人は、麻痺し、人工の「コンピューター」の声以外とは通信できなくなります」と、QuinnのようなALS患者を支援することを目的としたイニシアチブであるProject Revoiceの共同設立者であるOskar Westerdal氏は言います。
Quinnの声を再現するために、Project Revoiceは、AIを使用して人の声を複製する数少ない企業の1つであるLyrebirdと協力しました。グループには、AIを使用して合成音声録音を作成するY Combinator支援のスタートアップであるGoogleのWaveNetとVoiceryも含まれます。
ディープラーニングが人間の声を生成する方法
これらのアプリケーションの背後には、ディープラーニングアルゴリズムがあります。これは、従来のルールベースのソフトウェアではキャプチャできない洞察やパターンのために大量のデータセットを熟読するAIの一般的なブランチです。 十分な音声録音で深層学習音声シンセサイザーをトレーニングすると、人の声を表すデジタルモデルが作成され、新しい音声サンプルを生成できます。
AIを活用した音声合成技術が登場するまで、ALS患者は自分ではない一般的なデジタル音声を使用する必要がありました。 他の技術では、事前に録音された文章を患者の声とつなぎ合わせることができましたが、結果はあまりにも人工的で、最小限の使用には数十時間の音声録音が必要でした。
一方、深層学習アプリケーションは、必要なデータがはるかに少なく、より良い結果を提供します。 「わずか数時間のオーディオでLyrebirdが実現できることは注目に値します。完全なデジタル音声クローンを提供するため、好きなように発言できます」とWesterdal氏は言います。
声のない人の声を再現する
深層学習アプリケーションの限界の1つは、ニューラルネットワークをトレーニングするために高品質のデータサンプルに依存することです。 ALS患者の問題は、いったん声を失うと、音声サンプルの録音が不可能になることです。 幸いなことに、Quinnは何時間も録音された基調講演とインタビューを受けました。
「最大の課題は品質でした。このテクノロジーは、正確なスクリプトに従う一貫した高品質の録音に完全に依存しているため、サウンドスタジオと協力して、見つかったすべてのダイアログを手動で「リマスター」して書き写す必要がありましたパットの」とウェスターダルは言います。
「私たちは、パットの声を作成するのに優れた品質を提供できないことを少し恐れていました」と、Lyrebirdの共同設立者であるJose Sotelo氏は言います。 「きれいな録音を得ることができなかったため、人工音声の最終的な品質は完全ではありません。きれいな録音でもっと良い仕事ができると思います。」
結果は、まだ少し不自然で合成的です。 しかし、一般的な音声を使用して通信していたクインにとって、違いは劇的でした。 「この新しい技術で私の声を聞いた後、私は感動しました。ALSを取り除いた後、患者が自分の声を聞くことができることを知ると、それは人々のALSの生き方を変えるでしょう」と彼は言います。
クインは、ALS患者が手遅れになる前に声を録音することを推奨します。 「再び自分の声を聞いた後、ALS患者は自分の声を録音することが非常に重要であることを知る必要があります」と彼は言います。
AIシンセサイザーのネガティブな使用のバランスをとる
今年初め、AIを活用した顔交換アプリケーションであるFakeAppは、有名人や政治家をフィーチャーした偽のポルノビデオの猛攻撃を引き起こしました。 FakeAppやLyrebirdなどのアプリケーションが、偽のニュース、詐欺、偽造の新しい時代の到来を告げるのではないかという懸念があります。
LyrebirdのWebサイトの倫理ページは、この技術が「誤解を招く外交官、詐欺、さらに一般的に他人の身元を盗むことによって引き起こされるその他の問題などの危険な結果をもたらす可能性がある」ことを認めていました。
この点を強調するために、同社のWebサイトでは、ドナルドトランプとバラクオバマの声で作成されたいくつかの合成録音を取り上げています。
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI(@LyrebirdAi)2017年9月4日
Quinnの話は、そのアプリケーションの不気味で非倫理的な使用の可能性を軽視している業界の肯定的な側面を明らかにするのに役立つかもしれません。 「人々がこの技術の明るい側面を理解することは重要です」とLyrebirdのSoteloは思い出します。
医療用途以外に、AIシンセサイザーアプリケーションは他の生産的な目標を達成できます。 Voiceryは、AIアルゴリズムを活用したカスタマイズされたデジタル音声をブランドに提供しています。 GoogleはWaveNetの実験も行っており、Google Assistant搭載デバイスのユーザーにより自然な体験を提供しています。 この技術が有用な他の分野には、オーディオブックの自動化や映画での音声吹き替えがはるかに簡単になるなどがあります。
倫理的および法的ハードルは間違いなく生じ、議論は続くでしょう。 しかし、Quinnにとって、AIは永遠の力です。 「コンピューターのように聞こえたくない」と彼は言う。 「私のように聞こえたい。」