AI音声は見破れるのか、高市首相答弁が問いかけた「声の証拠能力」

参院予算委員会で答弁する高市首相(6月5日、写真:つのだよしお/アフロ)

 自民党総裁選などで高市早苗首相の陣営が他候補を中傷する内容の動画を作成してSNSに投稿していたと報じた週刊文春の記事を巡って、衆参両院の予算委員会で野党が首相を厳しく追及しています。

 とりわけ、首相の公設第一秘書と動画を作成した人物とのものだという録音された会話について、本当に公設第一秘書の声なのかが、追及と答弁の焦点になっているようです。

 さて、今回はこのケースを題材に、AIで作成した音声と本人の肉声を聞き分けられるのかについて取り上げたいと思います。

 6月5日の参院予算委員会の答弁で首相は「いずれにしても、やり取りの内容について、他候補を批判するものでもないし、これはどう考えても確認のしようがない」と述べています(産経新聞の記事など)。

 政治的な背景のある事案であり、答弁にある「確認のしようがない」という部分も真意はよく分かりません。

 しかし、もし「確認のしようがない」というのが、公設第一秘書本人が話しているものかAIが生成した録音なのかを指しているのであれば、当該分野の国立大学教官として指摘したい点があります。

 自然な録音とAIによる合成音は、適切な解析を行うことで、相当程度弁別できる場合があるからです。

 本稿は具体的な根拠の例とともに、これを広く公衆にお伝えし、未来を危ぶむことのないようリテラシー向上に資したいと考えるものです。

AI合成音声はどう判別できるのか

 一連の経緯について、郷原信郎弁護士が詳細に解説する動画を公開しています。

 郷原さんは東京大学理学部で私の先輩にあたり、様々な仕事で長年のお付き合いがあります。そこで、今回は許可をいただいたうえで彼の声をサンプリング、AIに学習させ「偽郷原弁護士」ボイスを試作してみました。

 その波形や「スペクトル(周波数分布)」を用いた各種演算、特に、私の研究室では情報幾何学の父とも称される甘利俊一・東京大学名誉教授が構築された情報幾何の手法を用いる解析を行っていますので、その結果や、材料工学で用いられるパーシステント・ホモロジーによるトポロジカル・マッピングなど進んだ解析による結果もご紹介します。

 学習させるのはこのリンクの7分12秒~22秒周辺で、以下のように郷原さんが語っている部分です。

「この・・・、木下秘書の声とされる声は、なんかちょっと違和感を感じました、なんか甲高いような違和感」という音声を取り出してシステムに学習させます。

 次に、そのデータをもとに新たにテキストを指定すれば「AIゴウハラ弁護士」に任意の内容を読み上げさせることができます。

 各々のデータを見てみましょう。まず、生身の郷原さんによる自然音声は次のようなスペクトルがあります。

 目視でも分かるように、言葉と言葉の間の間隔がランダムだったり、母音が様々に変化していたり、「一様でないムラ」が随所に見られます。

 といっても分かりにくいと思いますので、合成音声のデータと比較してみましょう。

 一目見て、下半分の「スペクトル」の赤や黄色が横一線になっているのが分かると思います。

 このエリアは<あ、え、い、お、う>など「母音」に当たる周波数帯域で、「自然音声」の場合、生きた人間の声帯振動は決して一様にならないので、ムラが見えます。

 これに対して合成音声では、学習データに基づいて生成された音響特徴に一定の規則性が見られ、ムラを創り出すのが難しい。

 これは「波形」を拡大するともっと露骨に分かります。

 一般に、単純に生成された合成音声では、背景雑音や偶発的な物音が乏しい場合があります。これに対して自然な録音では、まず背景雑音があり、さらに意図せざる物音が随時混ざってきますから「細かい」「汚い」波形になります。

 図の上に示したのが「自然な音声の録音」で、下に示したのが「合成音声のゴウハラ弁護士」の同じ0.05秒区間の波形です。

 この試作例では、自然音声と合成音声の波形・スペクトルに明瞭な差が見られます。

 こうした事情は「AI画像」「AI動画」でも同様で、画像の圧縮や再撮影、編集方法により難易度は変わりますが、「空間周波数」という指標などを用いることで判別の手がかりが得られる場合があります。

より厳密な解析を行ってみた

情報幾何、データ駆動科学などを用いた実証

 以上は、一般向けに平易な事例で記しました。しかし昨今のAIの技術革新は著しいので、最先端のAIを使って作られた合成音声は本物と区別がつきにくいのではないかと考える方も多いかもしれません。

 確かに、AIによって生成された音声かどうかをAIによって自動的に検知する研究は進んでいますが、自動判定させようとすると誤判定が多く、これをもってAI生成かどうかの判別が難しいと結論づけられません。

 実際、一つひとつの録音を丁寧に扱って分析すれば、AI生成なのかどうかは判別できる場合が多いのです。

 そこで、もう少し専門的な分析を披露したいと思います。

 人間の音声言語には、例えば「母音の非一意性」といった特徴があります。例えば、「ありがとー」と発音するとして、これをローマ字表記すれば「ARIGATOー」になり、最後の「O(お)」を幾分口を広めに開けた「O」で発語したとしましょう。

 で、この「O」の発音をそのまま利用して、もう一度「ありがとー」と発音してみます。試してみてください。教室でやってみせると多くの学生が興味を持ってくれるポイントです。

 物理的には全く同じ音を発しているのに、「O」が「お」にも聞こえたり「あ」にも聞こえたりする。

 こうした不思議な知覚現象は「母音の非一意性」あるいは「音声知覚の多義性」「話者正規化による不変性」の問題などとして、関連する専門家に広く知られている基礎の代表例の一つです。

 これは逆に言うと、生きた人間が話す言葉では、およそ様々な「音(音響=物理的音波)」が同一の「あ」「い」「う」「え」「お」などの「音素(発音を示す字母)」と対応していることを意味します。

 要するに、生きた人間は、多様なバラエティをもった音を、物理的な声帯や喉、舌や唇を震わせて、発話している。

 これに対してAI合成音声は、限られた学習データから音素(字母)に対応する音響を合成して繋げるので、音のバラエティが少ないのです。一つの音素には類似した響きが割り当てられる形で合成音声が出力されます。

 いま、生身の郷原信郎弁護士が発音する「あ」「い」「う」「え」「お」の音と、それらを学習した音声合成AIが出力した「a」「i」「u」「e」「o」の音のサンプルを作ってみます。

 以下、少し分かりにくいかと思いますが、関心のある方はお付き合いください。そうでない方は次の中見出しまで読み飛ばしていただいて構いません。

 これらを「周波数分解」して「スペクトル」に直し(これを「確率密度関数」として見るために、スペクトルの値の合計が1になるように調整し)ます。

 次に、このようなスペクトル(確率密度)同士が、どれくらい「違っているか」を測る指標として「Wasserstein計量」という一種の「距離」がありますので、これで「自然音声の郷原弁護士」の「あいうえお」と「AIゴウハラ氏」合成音声の「aiueo」の「自己距離行列」というものを計算すると、以下のようになります。

 この図表、正確には「行列」が何を意味するかというと、「AIゴウハラ氏」の合成音声は似たようなスペクトルで音声らしき音響を合成しているのに対して、「自然音声の郷原弁護士」の発音は、よりバラエティに富んだ音で構成されていることを示す一例になっています。

 私自身ならびに当研究室の修士2年生、田村優成君とで計算した例で、これだけでは十全とは言い難いですが、「最適輸送問題」の情報幾何を用いて合成音声の特徴を端的に示す一例にはなっていると思います。

 同じ「自然音声の郷原弁護士」と「AIゴウハラ氏」の母音スペクトルがWasserstein距離で測ってどの程度かけ離れているかをパーシステント・ホモロジーの手法を用いてトポロジカル・マッピングした結果を示します。

 自然音声と合成音声、双方の音声スペクトル同士の距離(「Wasserstein距離」)を保ったまま空間上にマッピングしてみると、合成音声のグループと自然な音声のグループが明瞭に分離されるのが分かるかと思います。

 何分、短時間で計算した例ですので最善とは言えないかもしれませんが、合成音声は自然音声と異なるスペクトル構造を持ち、その特徴は情報幾何の手法や、トポロジカル・マッピングなどの手法を適切に用いれば、明瞭に示すことが可能である一例をお目にかけました。

首相による国会答弁の重み

 かつて、戦後法学を代表する刑法学者で最高裁判事も務めた團藤重光先生と「反骨のコツ」などの書籍やプロジェクトを通じて、様々な法制度検討の議論をさせていただいたのを思い出します。

 その中で、閣僚の国会答弁は、それ自体に国民や外部の裁判所を直接縛るような「法的拘束力」はないけれど、行政内部や、法解釈・政策の方向性を決定づける場においては実質的に法に準ずる非常に強い統治上の拘束力・責任を持つ、という論点がありました。

 例えば、1970(昭和45)年3月18日、第3次佐藤栄作内閣の中曽根康弘防衛庁長官(当時)は衆院予算委員会、日本社会党の楢崎弥之助代議士(当時)の質問に対し、我が国の防衛の基本概念である「専守防衛」について「戦略上も戦術上も防御であり、相手国を直接攻撃するような兵器は持たない」と明言しました。

 この答弁により日本の安全保障は「相手から攻撃を受けて初めて防衛力を行使する」という受動的な国家方針として、長年にわたり政策運用上の重要な基準となりました。

 今日に至るまで実質的な安全保障基本法の役割を果たし続けています。

 閣僚の国会答弁一つひとつに重みがあることを、團藤先生はご自身が判事を務められた最高裁判所での判例(法と同様の拘束力を以後に残す)と対照して強調しておられました。

 ましていわんや、内閣総理大臣の国会答弁は、その場の勢いで為されるようなものであってはなりません。

 録音音声に関して、それがAI合成かそうでないかの「判断は難しい」かどうかは、まずは専門家に分析を任せるべきだと思います。

 自然人の発声かAI合成かについては、専門家が波形・スペクトル・発話間隔・背景音・編集痕跡などを総合的に解析することで、相当程度評価できます。

 次いで、警察が犯罪捜査で用いるような分析システムを用いれば、他の証拠と併せて、同一人性を判断する有力な材料となり得ます。

 我が国のAIコンテンツリテラシーの未来のため、根拠とともに明記しました。

関連記事

AIは相談相手になれるのか、阿部監督事件が突きつけた「人間不在のコミュニケーション」の危うさ

イタリア首相を襲ったディープフェイク・ポルノ、AIが民主主義を揺るがす

「ドラえもん」のび太はなぜ勉強嫌いなのか、東大教授が読み解く戦後教育とGHQの原点