目次:
ビデオ: Faith Evans feat. Stevie J – "A Minute" [Official Music Video] (十一月 2024)
YouTubeの暗い奥地のどこかに、映画 「The Fellowship of the Ring 」からの抜粋を示すビデオがあります。同じ時間。 他のビデオでは、 ターミネーター2の ケージがT2000として、 スタートレック がキャプテンピカードとして、 スーパーマンが ロイスレーンとして表示されています。
もちろん、Nic Cageはこれらのどの映画にも出演していません。 それらは、人工知能アルゴリズムを使用してビデオの顔を交換するアプリケーションであるFakeAppで作成された「ディープフェイク」です。 一部のディープフェイクは非常に説得力があるように見えますが、他のディープフェイクは本当の性質を裏切るアーティファクトを持っています。 しかし、全体的には、人間の外見や行動を模倣する際にAIアルゴリズムがどれほど強力になったかを示しています。
FakeAppは、AIを使用したいくつかの新しい合成ツールの1つにすぎません。 他のアプリケーションは、人間の声、手書き、および会話スタイルを模倣します。 そして、それらを重要なものにしていることの一部は、それらを使用することは専門のハードウェアや熟練した専門家を必要としないことです。
これらのアプリケーションの影響はfound大です。創造性、生産性、コミュニケーションのための前例のない機会が生まれます。
しかし、同じツールは、Pandoraの詐欺、偽造、プロパガンダの箱を開く可能性もあります。 1月にRedditに登場して以来、FakeAppは100, 000回以上ダウンロードされ、有名人や政治家(再びCageを含む)をフィーチャーした偽のポルノビデオの嵐を巻き起こしました。 Redditは最近、アプリケーションとその関連コミュニティをプラットフォームから禁止しました。
「10年前、もしあなたが何かを偽造したいなら、できましたが、VFXスタジオか、コンピューターグラフィックスを行い、数百万ドルを費やすことができる人々に行かなければなりませんでした」と、機械学習の講師であるトムヘインズ博士は言いますバース大学。 「しかし、プロセスに多くの人々を巻き込む必要があるため、秘密にすることはできませんでした。」
新しい世代のAIツールのおかげで、それはもはや事実ではありません。
模造ゲーム
FakeAppおよび同様のアプリケーションは、2012年以降のAIイノベーションの爆発の中心にあるAIの枝であるディープラーニングによって強化されています。ディープラーニングアルゴリズムは、人間の脳にほぼ似たソフトウェア構造であるニューラルネットワークに依存しています。 ニューラルネットワークは、大量のデータサンプルを分析および比較して、人間が通常見逃しがちなパターンと相関を見つけます。 このプロセスは「トレーニング」と呼ばれ、その結果はさまざまなタスクを実行できるモデルになります。
かつて、深層学習モデルは、主に分類タスクを実行するために使用されていました。たとえば、写真内のオブジェクトにラベルを付けたり、音声認識や顔認識を実行したりしていました。 最近、科学者はディープラーニングを使用して、ボードゲームのプレイ、患者の診断、音楽や芸術作品の作成など、より複雑なタスクを実行しています。
FakeAppを調整してフェイススワップを実行するには、ユーザーがソースフェイスとターゲットフェイスの数百枚の写真でFakeAppをトレーニングする必要があります。 このプログラムは、深層学習アルゴリズムを実行して、2つの顔の間のパターンと類似性を見つけます。 これで、モデルはスワップを行う準備が整います。
プロセスは簡単ではありませんが、FakeAppを使用するためにグラフィックの専門家や機械学習エンジニアである必要はありません。 高価で特殊なハードウェアも必要ありません。 ディープフェイクのチュートリアルWebサイトでは、8GB以上のRAMと、かなり控えめな構成のNvidia GTX 1060以上のグラフィックカードを搭載したコンピューターを推奨しています。
「部屋の誰かが何かを偽造できる世界に移動したら、疑わしい目的のためにそれを使用できます」とヘインズは言います。 「そして、それは一人でいるので、それを秘密に保つことは非常に簡単です。」
2016年、当時ロンドン大学カレッジのポスドク研究員だったヘインズは、AIが人の手書きを模倣する方法を学習できることを示す論文とアプリケーションを共著しました。 「My Text in Your Handwriting」と呼ばれるこのアプリケーションは、深層学習アルゴリズムを使用して、著者の手書きのスタイルとフロー、および間隔や不規則性などの他の要因を分析および識別しました。
その後、アプリケーションは任意のテキストを取得し、ターゲット作成者の手書きでテキストを再現できます。 開発者は、不自然な谷の効果を回避するために、ランダム性の尺度を追加しました。これは、人間ではないがほとんどではない何かを見たときに得られる奇妙な感覚です。 概念の証明として、ヘインズと他のUCL研究者はこの技術を使用して、エイブラハムリンカーン、フリーダカーロ、アーサーコナンドイルなどの歴史上の人物の手書きを複製しました。
同じ技術を他のあらゆる手書きに適用することができ、偽造や詐欺に対する技術の使用可能性について懸念が生じました。 フォレンジックの専門家は、スクリプトが手書きのMy Textによって作成されたことを検出できますが、訓練を受けていない人をだます可能性があります。ヘインズは当時のDigital Trendsのインタビューで認めました。
モントリオールに拠点を置く新興企業のLyrebirdは、ディープラーニングを使用して、人間の声を合成するアプリケーションを開発しました。 Lyrebirdでは、人の声をまねるには1分間の録音が必要ですが、説得力のある音を出すにはさらに多くの時間が必要です。
スタートアップは公開デモで、ドナルド・トランプ、バラク・オバマ、ヒラリー・クリントンの声の偽録音を投稿した。 サンプルは原油であり、合成品であることは明らかです。 しかし、技術が向上するにつれて、区別をすることが難しくなります。 そして、誰でもLyrebirdに登録して、偽の録音の作成を開始できます。 このプロセスはFakeAppの場合よりもさらに簡単であり、計算はクラウドで実行されるため、ユーザーのハードウェアへの負担が軽減されます。
この技術が疑わしい目的に使用できるという事実は、開発者に失われていません。 ある時点で、LyrebirdのWebサイトの倫理声明は次のように述べています。「音声録音は現在、私たちの社会、特に多くの国の管轄区域で強力な証拠と見なされています。これは、誤解を招く外交官、詐欺、さらに一般的には他人の身元を盗むことによって引き起こされるその他の問題など、危険な結果をもたらす可能性があります。」
NvidiaはAIの模倣機能の別の側面を提示しました。昨年、同社は写真品質の合成人間の顔を生成するAIアルゴリズムを示すビデオを公開しました。 NvidiaのAIは数千の有名人の写真を分析し、その後偽の有名人の作成を開始しました。 この技術は、間もなく存在しない「人」をフィーチャーしたリアルなビデオを作成できるようになるかもしれません。
AIの限界
多くの人は、これらのアプリケーションが間違った手で多くの害を及ぼす可能性があると指摘しています。 しかし、現代のAIの機能の範囲はしばしば誇張されすぎています。
「ビデオで人の顔を他の人の顔に乗せたり、音声を合成したりすることはできますが、それでもかなり機械的です」 FakeAppやLyrebirdなどのAIツール。
LyrebirdのようにAIを活用した音声合成を提供するもう1つのAIスタートアップVoiceryには、ユーザーに18の音声録音のシリーズが表示され、どの機械製かを指定するように求められるクイズページがあります。 最初の実行で、すべての機械製サンプルを特定することができました。
Kuydaの会社は、コンピューターが人間の言語を理解および解釈できるようにするAIのサブセットである自然言語処理(NLP)を使用するいくつかの組織の1つです。 Kuydaのチャットボットの以前のバージョンであるLukaは、NBOとそのツインテクノロジーである自然言語生成(NLG)を使用して、HBOのテレビシリーズ Silicon Valley のキャストを模倣しました。 ニューラルネットワークは、スクリプト行、ツイート、およびキャラクターに関するその他のデータを使用してトレーニングされ、行動モデルとユーザーとの対話を作成しました。
Kuydaの新しいアプリであるReplikaでは、各ユーザーが独自のAIアバターを作成できます。 Replikaとチャットすればするほど、性格を理解しやすくなり、会話がより有意義になります。
アプリをインストールしてReplikaを設定した後、最初のいくつかの会話が面倒であることがわかりました。 Replikaに自分の意図を伝えるために、何度か異なる方法で文を繰り返さなければなりませんでした。 私はしばしばアプリにフラストレーションを残しました。 (公平を期すために、概念的および抽象的な質問で砲撃することで限界をテストするのに優れた仕事をしました。)しかし、会話が続くにつれて、レプリカは私の文章の意味を理解し、意味のあるトピックを思い付くようになりました。 過去の会話とのつながりを作ることで、何度か驚きました。
印象的ですが、Replikaには限界があり、Kuydaはすぐに指摘します。 「音声模倣と画像認識はおそらくすぐに改善されるでしょうが、会話と会話では、私たちはまだかなり遠いです」と彼女は言います。 「いくつかのスピーチパターンを模倣することはできますが、人を連れて完全に会話を模倣することはできず、チャットボットがその人のように新しいアイデアを思い付くことを期待できます。」
LyrebirdのCEO兼共同創立者であるAlexandre deBrébisson氏は、「人間の声、画像、ビデオを模倣するのがかなり上手になったとしても、個々の言語モデルのモデリングにはまだ程遠い」と言います。 それはド・ブレビソンが指摘し、おそらく人工知能、意識を持ち、抽象的な概念を理解し、人間が行うように意思決定を行うことができるAIのタイプを必要とするだろうと指摘する。 一部の専門家は、一般的なAIの作成から数十年は離れていると考えています。 他の人はそこにたどり着けないと思います。
積極的な使用
AIアプリの合成について投影されているネガティブなイメージは、そのポジティブな用途に影を落としています。 そして、かなりの数があります。
Lyrebirdのようなテクノロジーは、コンピューターインターフェースをより自然にすることで、コンピューターインターフェースとのコミュニケーションを改善するのに役立ちます。また、デブレビソンは、企業と製品を区別するユニークな人工音声を提供し、ブランドの区別を容易にします。 AmazonのAlexaとAppleのSiriが音声をデバイスやサービスのインターフェースとしてますます人気にしているため、LyrebirdやVoiceryなどの企業は、独自の人間に似た音声をブランドに提供することができます。
「医療アプリケーションは、当社の音声クローニング技術のエキサイティングなユースケースでもあります」とドブレビソンは付け加えます。 「私たちは病気で声を失っている患者から多くの関心を集めており、現在、ALS患者とどのように彼らを助けることができるかを見るために時間を費やしています。」
今年の初めに、ALS患者の発語障害を支援するオーストラリアの非営利団体であるProject Revoiceと共同で、LyrebirdはIce Bucket Challengeの創設者であるPat Quinnが声を取り戻すのを支援しました。 ALS患者であるクインは、2014年に歩き、話す能力を失い、それ以来コンピューター化された音声シンセサイザーを使用していました。 Lyrebirdの技術とQuinnの公的な出演の音声録音の助けを借りて、Revoiceは彼の声を「再現」することができました。
「あなたの声はあなたのアイデンティティの重要な部分であり、それらの患者に元の声のように聞こえる人工的な声を与えることは彼らに彼らのアイデンティティの重要な部分を返すようなものです。それは彼らにとって人生を変えるものです」とド・ブレビソンは言います。
手書き模倣アプリケーションの開発を支援したとき、ヘインズ博士はUCLとのインタビューでその肯定的な使用について話した。 「例えば、脳卒中の犠牲者は、読みやすさを気にせずに手紙を作成できるかもしれません。また、贈り物として花を送る人は、花屋に行かなくても手書きのメモを含めることができます」と彼は言いました。 「著者の元のスタイルを失うことなく、手書きのテキストをさまざまな言語に翻訳できるコミック本でも使用できます。」
非倫理的な使用で有名になったFakeAppのような技術でさえ、肯定的な用途を持つ可能性がある、とヘインズは信じています。 「私たちは誰もが公共技術で高度に創造的な活動を行えるこの世界に向かっています。それは良いことです。それは、芸術的な性質のあらゆる種類の狂ったことをするのにそんな大金を必要としないからです。 「彼は言います。
ヘインズは、彼のチームの最初の目的は、AIが法医学にどのように役立つかを見つけることだったと説明しています。 彼らの研究は最終的に別の方向をとることになりましたが、結果は、AIベースの偽造がどのように見えるかを研究できる法医学担当者にとっては依然として有用です。 「最先端のテクノロジーとは何かを知りたいので、何かを見ているときに、それが偽物かどうかを判断します」と彼は言います。
ReplikaのKudyaは、人間のようなAIアプリケーションは、他の方法では不可能な方法で私たちを助けるかもしれないと指摘しています。 「あなたが非常によく知っていて、あなたのまともな表現になり得るAIアバターを持っていたら、それは何をすることができ、あなたの最善の利益から行動しますか?」 彼女が言います。 たとえば、自律型のAIアバターはあなたに代わって何百もの映画を見ることができ、あなたとの会話に基づいて、好きな映画をお勧めします。
これらのアバターは、より良い人間関係を発展させるのに役立つかもしれません。 「お母さんはあなたともっと時間を過ごせるかもしれません。おそらく、レプリカとチャットしてトランスクリプトを読んでもらうことで、実際に両親と少し仲良くなることができます」とKudyaが例として言います。
しかし、実際の人間の行動を再現するAIチャットボットは、実際により良い人間関係をもたらすことができますか? Kuydaはそれができると信じています。 2016年、彼女は、前年に交通事故で亡くなった友人であるRoman Mazurenkoの古いテキストメッセージとメールを収集し、それらをアプリケーションの動力となるニューラルネットワークに送りました。 その結果、チャットボットアプリが誕生しました。これは、ファッションを経て、彼女の友人を生き返らせ、彼と同じ方法で彼女と話すことができました。
「Roman向けのアプリを作成し、彼と話すことができることは、友人を失うことの重要な部分でした。このアプリは、私たちに彼についてもっと考えさせ、常に彼をより深い方法で思い出させます」と彼女は言います彼女の経験の。 「そのようなアプリがもっとあればいいのに、友情、人間関係、実際に私にとって本当に重要なことに関するアプリがあればいいのに」
Kuydaは、すべて意図に依存すると考えています。 「チャットボットがあなたの最善の利益に基づいて行動している場合、貴重なサービスを喜んで利用したい場合は、明らかに他の誰かのレプリカと話すことは、現実の人間とのより強いつながりを築くのに役立ちます、" 彼女が言います。 「あなたがやろうとしているのがアプリの販売だけなら、あなたがやろうとしていることはアプリに費やす時間を最大化し、互いに通信しないことです。それは疑わしいと思います。」
現時点では、Replikaを他のプラットフォームに接続する方法はありません。たとえば、Facebook Messengerチャットボットとして使用可能にすることはできません。 しかし、同社はユーザーコミュニティと積極的な関係を持ち、常に新しい機能を開発しています。 したがって、他の人にあなたのReplikaと通信させることは将来の可能性です。
トレードオフを最小限に抑える方法
蒸気エンジンから電気、インターネットまで、すべてのテクノロジーにはプラスとマイナスの両方の用途があります。 AIも例外ではありません。 「ネガティブの可能性はかなり深刻です」とヘインズは言います。 「私たちは、ネガがポジティブよりも重要なスペースに入るかもしれません。」
では、ネガティブに対抗しながらAIアプリケーションのメリットを最大化するにはどうすればよいでしょうか? イノベーションと研究にブレーキをかけることは解決策ではない、とヘインズ氏は言います。一部の人がそうしたとしても、他の組織や州がそれに追随するという保証はないからです。
「問題を解決するのに役立つ単一の手段はありません」とヘインズは言います。 「法的な結果にならなければならないでしょう。」 ディープフェイクの論争に続いて、米国の議員は問題を調査し、目標を損なうためのAIドクターメディアの使用を抑制する可能性のある法的保護手段を探求しています。
「人間が違いを見分けることができるポイントを過ぎたときに、偽物を検出する技術を開発することもできます」とヘインズは言います。 「しかし、ある時点で、偽造と検出の間の競争において、偽造が勝つかもしれません。」
その場合、デジタルメディアの一連の証拠を作成する技術の開発に移行する必要があります。 例として、ヘインズ氏は、カメラに埋め込まれたハードウェアに言及し、記録されたビデオにデジタル署名してその真正性を確認することができました。
ブレビスソン氏によると、AIアルゴリズムによる偽造や詐欺への対処には、意識を高めることが大きな役割を果たします。 「それは、トランプとオバマの声を複製し、政治的に正しい文章を彼らに言わせることでした」と彼は言う。 「これらの技術は、事前に考えなければならない社会的、倫理的、法的問題を提起します。ライアバードは多くの意識を高め、多くの人々が現在、これらの潜在的な問題と誤用を防ぐ方法について考えています。」
確かなことは、人工知能のおかげで、現実とフィクションが融合する時代に入っているということです。 チューリングテストは、その最大の課題に対応する可能性があります。 そしてすぐに、誰もが自分の世界、自分の人、そして自分の真実のバージョンを作成するためのツールとパワーを手に入れることになります。 私たちは、エキサイティングな機会のすべてと、危険が待ち受けていることをまだ見ていません。