ディープフェイクとは何ですか?騙すAI

ディープフェイクは、一部の視聴者やリスナーをだまして誤ったイベントや誤ったメッセージを信じさせようとするディープラーニングを利用して作成、変更、または合成されたメディア(多くの場合、ビデオですが、場合によってはオーディオ)です。

ディープフェイクの元の例(redditユーザー/ u / deepfakeによる)は、ビデオで女優の顔をポルノパフォーマーの体に交換しました。もちろん、最初は違法ではありませんでしたが、完全に非倫理的でした。他のディープフェイクは、有名人が言っていること、または彼らが話している言語を変えました。

ディープフェイクは、何十年にもわたって行われてきたビデオ(または映画)合成のアイデアを拡張します。重要なビデオスキル、時間、および機器がビデオ合成に使用されます。ビデオディープフェイクは、注意深い観察者には納得がいかないことがよくありますが、必要なスキル、時間(GPUがあると仮定)、および機器ははるかに少なくて済みます。

ディープフェイクの作成方法

もともと、ディープフェイクは教師なしニューラルネットワークの一種であるオートエンコーダーに依存していましたが、今でも多くの人がそうしています。一部の人々は、GAN(生成的敵対的ネットワーク)を使用してその手法を洗練しました。ディープフェイクには他の機械学習手法も使用されており、非機械学習手法と組み合わせて使用​​されることもあり、結果はさまざまです。

オートエンコーダ

基本的に、画像内のディープフェイク顔のオートエンコーダーは2段階のプロセスを実行します。ステップ1は、ニューラルネットワークを使用してソース画像から顔を抽出し、それを一連の特徴と場合によってはマスクにエンコードします。通常は、いくつかの2D畳み込みレイヤー、いくつかの密なレイヤー、およびソフトマックスレイヤーを使用します。ステップ2は、別のニューラルネットワークを使用して特徴をデコードし、生成された顔をアップスケールし、必要に応じて顔を回転およびスケーリングし、アップスケールされた顔を別の画像に適用することです。

ディープフェイクの顔を生成するためのオートエンコーダのトレーニングには、さまざまな照明条件で、複数の視点からのソースとターゲットの顔の多くの画像が必要です。GPUがないと、トレーニングに数週間かかる場合があります。GPUを使用すると、はるかに高速になります。

GAN

生成的敵対的ネットワークは、たとえば、2つのニューラルネットワークを互いに対抗することによって、オートエンコーダの結果を改善できます。生成ネットワークは元のデータと同じ統計を持つ例を作成しようとしますが、識別ネットワークは元のデータ分布からの逸脱を検出しようとします。

GANのトレーニングは時間のかかる反復手法であり、オートエンコーダよりも計算時間のコストが大幅に増加します。現在、GANは、ディープフェイクビデオを作成するよりも、架空の人物のリアルな単一画像フレーム(StyleGANなど)を生成するのに適しています。ディープラーニングハードウェアが高速になるにつれて、状況は変わる可能性があります。

ディープフェイクを検出する方法

2020年の初めに、AWS、Facebook、Microsoft、パートナーシップオンAIのメディア整合性運営委員会、および学者のコンソーシアムがDeepfake Detection Challenge(DFDC)を構築し、Kaggleで4か月間実行されました。

コンテストには、十分に文書化された2つのプロトタイプソリューションが含まれていました。紹介とスターターキットです。Selim Seferbekovによる受賞ソリューションにも、かなり良い記事があります。

ディープニューラルネットワークや画像処理に興味がない場合は、ソリューションの詳細に目を奪われます。基本的に、勝利したソリューションは、フレームごとの顔検出を行い、SSIM(構造的類似性)インデックスマスクを抽出しました。ソフトウェアは、検出された面と30%のマージンを抽出し、エンコード(分類)のためにImageNetで事前トレーニングされたEfficientNetB7を使用しました。ソリューションは現在オープンソースです。

残念ながら、勝ったソリューションでさえ、DFDCテストデータベースのディープフェイクの約3分の2しかキャッチできませんでした。

ディープフェイクの作成および検出アプリケーション

最高のオープンソースビデオディープフェイク作成アプリケーションの1つは、現在、元のディープフェイクアルゴリズムに基づいて構築されたFaceswapです。ArsTechnicaのライターであるTimLeeは、Faceswapを使用して、スタートレック:次世代の司令官データ中尉(ブレントスパイナー)の顔を議会の前に証言するマークザッカーバーグのビデオに交換するディープフェイクを作成するのに2週間かかりました 。ディープフェイクで一般的であるように、結果は、グラフィックがかなり洗練されている人のスニフテストに合格しません。そのため、ディープフェイクの最新技術はまだあまり良くありませんが、技術よりも「アーティスト」のスキルに依存するまれな例外があります。

受賞したDFDC検出ソリューションもあまり良くないことを考えると、これはやや快適です。一方、Microsoftは、Microsoft Video Authenticatorを発表しましたが、この記事の執筆時点ではリリースしていません。Microsoftによると、Video Authenticatorは静止画またはビデオを分析して、メディアが人為的に操作された可能性のパーセンテージまたは信頼スコアを提供できるとのことです。

ビデオオーセンティケーターは、DFDCデータセットに対してテストされました。Microsoftは、Seferbekovの受賞歴のあるKaggleソリューションよりもどれだけ優れているかをまだ報告していません。AIコンテストのスポンサーが、コンテストで勝ったソリューションを構築して改善するのは一般的なことです。

Facebookもディープフェイク検出器を約束していますが、ソースコードを閉じたままにする予定です。Seferbekovのようなオープンソースのディープフェイク検出器の問題の1つは、ディープフェイク生成開発者がGANの識別器として検出器を使用して、偽物がその検出器を通過することを保証し、最終的にディープフェイク生成器とディープフェイク検出器の間のAI軍拡競争を助長することです。

オーディオの面では、Descript OverdubとAdobeのデモ済みですが、まだリリースされていないVoCoを使用すると、テキスト読み上げを現実に近づけることができます。オーバーダブを約10分間トレーニングして、自分の声の合成バージョンを作成します。トレーニングが完了すると、ナレーションをテキストとして編集できます。

関連するテクノロジーはGoogleWaveNetです。Google自身のテストによると、WaveNetで合成された音声は、標準のテキスト読み上げ音声よりも現実的ですが、自然な音声のレベルではありません。最近Googleアシスタント、Google検索、またはGoogle翻訳からの音声出力を使用した場合、WaveNetの音声を聞いたことがあるでしょう。

ディープフェイクと合意に基づかないポルノ

先に述べたように、元のディープフェイクは、ビデオで女優の顔をポルノパフォーマーの体に交換しました。Redditは、コンテンツのほとんどが合意に基づかないポルノであり、少なくとも一部の法域では違法であるため、それやその他のポルノディープフェイクをホストする/ r / deepfakeサブRedditを禁止しました。

ポルノ以外のディープフェイク用の別のサブRedditは、/ r / SFWdeepfakesにまだ存在します。そのサブRedditの住人は彼らが良い仕事をしていると主張していますが、たとえば、ジョー・バイデンの顔がロッド・サーリングの体にひどく偽造されているのを見るのは価値があるかどうか、そしてそこにあるディープフェイクのいずれかが通過するかどうかを自分で判断する必要があります信頼性のスニフテスト。私の意見では、本物として自分自身を売ることに近づく人もいます。ほとんどは慈善的に粗雑であると説明することができます。

もちろん、/ r / deepfakeを禁止しても、それ自体が米国の犯罪であるリベンジポルノなど、複数の動機を持つ可能性のある合意に基づかないポルノが排除されるわけではありません。合意に基づかないディープフェイクを禁止している他のサイトには、Gfycat、Twitter、Discord、Google、Pornhub、そして最後に(足を引っ張った後)FacebookとInstagramがあります。

カリフォルニア州では、同意なしに作成された性的に露骨なディープフェイクコンテンツの標的となった個人は、コンテンツの作成者に対して訴因を持っています。また、カリフォルニア州では、選挙から60日以内に公職に立候補する候補者を標的とした悪意のあるディープフェイクオーディオまたはビジュアルメディアの配布が禁止されています。中国は、ディープフェイクにそのように明確にラベルを付けることを要求しています。

政治におけるディープフェイク

他の多くの管轄区域に、政治的ディープフェイクに対する法律がありません。これは、特に政治家の高品質のディープフェイクが広く配布される場合には、厄介なことがあります。ナンシーペロシのディープフェイクは、ペロシが言葉をぼんやりさせているように聞こえるように操作された、従来の速度低下したビデオよりも悪いでしょうか?うまく生産されれば、そうなる可能性があります。たとえば、2020年の大統領選挙に関連するディープフェイクに焦点を当てたCNNのこのビデオをご覧ください。

言い訳としてのディープフェイク

「これはディープフェイクだ」というのは、本物の恥ずかしいビデオが流出した政治家にとっても言い訳になる可能性があります。テープに写っている他の男がそれが本物であると誓ったにもかかわらず、ゲイのセックステープが経済大臣によってディープフェイクとして却下されたとき、それは最近マレーシアで起こった(または起こったと言われている)。

反対に、ガボンの病んでいるアリボンゴ大統領のアマチュアディープフェイクの可能性のある分布は、ボンゴに対するその後の軍事クーデターの一因となった。ディープフェイクのビデオは、ボンゴがメディアから長期間欠席したこと以上に、何かがおかしいと軍隊に知らせました。

よりディープフェイクの例

最近のdeepfakeビデオオールスタークラシック、1999スマッシュ口は、偽のリップパクに(この場合では、人気の映画からマッシュアップ)のビデオを操作する例です。作成者であるYouTubeユーザーのontyjは、「wav2lipのテストに夢中になり、今ではこれが存在します...」と述べています。説得力はありませんが、面白いです。それにもかかわらず、それは偽の唇の動きがどれほど良くなったかを示しています。数年前、不自然な唇の動きは通常、偽のビデオの死んだプレゼントでした。

それはもっと悪いかもしれません。オバマ大統領を標的とし、ジョーダン・ピールを運転手とするこのディープフェイクのビデオをご覧ください。ここで、それが偽物であることを明らかにするコンテキストが含まれておらず、焼夷的な行動を促すフレーズが含まれていると想像してみてください。

もうおびえていますか?

機械学習とディープラーニングの詳細:

  • ディープラーニングと機械学習:違いを理解する
  • 機械学習とは何ですか?データから得られるインテリジェンス
  • ディープラーニングとは何ですか?人間の脳を模倣するアルゴリズム
  • 機械学習アルゴリズムの説明
  • 自動機械学習またはAutoMLの説明
  • 教師あり学習の説明
  • 半教師あり学習の説明
  • 教師なし学習の説明
  • 強化学習の説明
  • コンピュータビジョンとは何ですか?画像とビデオのAI
  • 顔認識とは何ですか?ビッグブラザーのAI
  • 自然言語処理とは何ですか?スピーチとテキストのためのAI
  • Kaggle:データサイエンティストが学び競争する場所
  • CUDAとは何ですか?GPUの並列処理