AI音声は見破れるのか、高市首相答弁が問いかけた「声の証拠能力」

参院予算委員会で答弁する高市首相（6月5日、写真：つのだよしお/アフロ）

　自民党総裁選などで高市早苗首相の陣営が他候補を中傷する内容の動画を作成してSNSに投稿していたと報じた週刊文春の記事を巡って、衆参両院の予算委員会で野党が首相を厳しく追及しています。

　とりわけ、首相の公設第一秘書と動画を作成した人物とのものだという録音された会話について、本当に公設第一秘書の声なのかが、追及と答弁の焦点になっているようです。

　さて、今回はこのケースを題材に、AIで作成した音声と本人の肉声を聞き分けられるのかについて取り上げたいと思います。

　6月5日の参院予算委員会の答弁で首相は「いずれにしても、やり取りの内容について、他候補を批判するものでもないし、これはどう考えても確認のしようがない」と述べています（産経新聞の記事など）。

　政治的な背景のある事案であり、答弁にある「確認のしようがない」という部分も真意はよく分かりません。

　しかし、もし「確認のしようがない」というのが、公設第一秘書本人が話しているものかAIが生成した録音なのかを指しているのであれば、当該分野の国立大学教官として指摘したい点があります。

　自然な録音とAIによる合成音は、適切な解析を行うことで、相当程度弁別できる場合があるからです。

　本稿は具体的な根拠の例とともに、これを広く公衆にお伝えし、未来を危ぶむことのないようリテラシー向上に資したいと考えるものです。

AI合成音声はどう判別できるのか

　一連の経緯について、郷原信郎弁護士が詳細に解説する動画を公開しています。

　郷原さんは東京大学理学部で私の先輩にあたり、様々な仕事で長年のお付き合いがあります。そこで、今回は許可をいただいたうえで彼の声をサンプリング、AIに学習させ「偽郷原弁護士」ボイスを試作してみました。

　その波形や「スペクトル（周波数分布）」を用いた各種演算、特に、私の研究室では情報幾何学の父とも称される甘利俊一・東京大学名誉教授が構築された情報幾何の手法を用いる解析を行っていますので、その結果や、材料工学で用いられるパーシステント・ホモロジーによるトポロジカル・マッピングなど進んだ解析による結果もご紹介します。

　学習させるのはこのリンクの7分12秒～22秒周辺で、以下のように郷原さんが語っている部分です。

「この・・・、木下秘書の声とされる声は、なんかちょっと違和感を感じました、なんか甲高いような違和感」という音声を取り出してシステムに学習させます。

　次に、そのデータをもとに新たにテキストを指定すれば「AIゴウハラ弁護士」に任意の内容を読み上げさせることができます。

　各々のデータを見てみましょう。まず、生身の郷原さんによる自然音声は次のようなスペクトルがあります。

　目視でも分かるように、言葉と言葉の間の間隔がランダムだったり、母音が様々に変化していたり、「一様でないムラ」が随所に見られます。

　といっても分かりにくいと思いますので、合成音声のデータと比較してみましょう。

　一目見て、下半分の「スペクトル」の赤や黄色が横一線になっているのが分かると思います。

　このエリアは＜あ、え、い、お、う＞など「母音」に当たる周波数帯域で、「自然音声」の場合、生きた人間の声帯振動は決して一様にならないので、ムラが見えます。

　これに対して合成音声では、学習データに基づいて生成された音響特徴に一定の規則性が見られ、ムラを創り出すのが難しい。

　これは「波形」を拡大するともっと露骨に分かります。

　一般に、単純に生成された合成音声では、背景雑音や偶発的な物音が乏しい場合があります。これに対して自然な録音では、まず背景雑音があり、さらに意図せざる物音が随時混ざってきますから「細かい」「汚い」波形になります。

　図の上に示したのが「自然な音声の録音」で、下に示したのが「合成音声のゴウハラ弁護士」の同じ0.05秒区間の波形です。

　この試作例では、自然音声と合成音声の波形・スペクトルに明瞭な差が見られます。

　こうした事情は「AI画像」「AI動画」でも同様で、画像の圧縮や再撮影、編集方法により難易度は変わりますが、「空間周波数」という指標などを用いることで判別の手がかりが得られる場合があります。

より厳密な解析を行ってみた

情報幾何、データ駆動科学などを用いた実証

　以上は、一般向けに平易な事例で記しました。しかし昨今のAIの技術革新は著しいので、最先端のAIを使って作られた合成音声は本物と区別がつきにくいのではないかと考える方も多いかもしれません。

　確かに、AIによって生成された音声かどうかをAIによって自動的に検知する研究は進んでいますが、自動判定させようとすると誤判定が多く、これをもってAI生成かどうかの判別が難しいと結論づけられません。

　実際、一つひとつの録音を丁寧に扱って分析すれば、AI生成なのかどうかは判別できる場合が多いのです。

　そこで、もう少し専門的な分析を披露したいと思います。

　人間の音声言語には、例えば「母音の非一意性」といった特徴があります。例えば、「ありがとー」と発音するとして、これをローマ字表記すれば「ARIGATOー」になり、最後の「O（お）」を幾分口を広めに開けた「O」で発語したとしましょう。

　で、この「O」の発音をそのまま利用して、もう一度「ありがとー」と発音してみます。試してみてください。教室でやってみせると多くの学生が興味を持ってくれるポイントです。

　物理的には全く同じ音を発しているのに、「O」が「お」にも聞こえたり「あ」にも聞こえたりする。

　こうした不思議な知覚現象は「母音の非一意性」あるいは「音声知覚の多義性」「話者正規化による不変性」の問題などとして、関連する専門家に広く知られている基礎の代表例の一つです。

　これは逆に言うと、生きた人間が話す言葉では、およそ様々な「音（音響＝物理的音波）」が同一の「あ」「い」「う」「え」「お」などの「音素（発音を示す字母）」と対応していることを意味します。

　要するに、生きた人間は、多様なバラエティをもった音を、物理的な声帯や喉、舌や唇を震わせて、発話している。

　これに対してAI合成音声は、限られた学習データから音素（字母）に対応する音響を合成して繋げるので、音のバラエティが少ないのです。一つの音素には類似した響きが割り当てられる形で合成音声が出力されます。

　いま、生身の郷原信郎弁護士が発音する「あ」「い」「う」「え」「お」の音と、それらを学習した音声合成AIが出力した「a」「i」「u」「e」「o」の音のサンプルを作ってみます。

　以下、少し分かりにくいかと思いますが、関心のある方はお付き合いください。そうでない方は次の中見出しまで読み飛ばしていただいて構いません。

　これらを「周波数分解」して「スペクトル」に直し（これを「確率密度関数」として見るために、スペクトルの値の合計が1になるように調整し）ます。

　次に、このようなスペクトル（確率密度）同士が、どれくらい「違っているか」を測る指標として「Wasserstein計量」という一種の「距離」がありますので、これで「自然音声の郷原弁護士」の「あいうえお」と「AIゴウハラ氏」合成音声の「aiueo」の「自己距離行列」というものを計算すると、以下のようになります。