2026年問題でAIの学習データが底をつく? サム・アルトマン「巨大モデルへ突き進む時代は終わった」

Photo:Justin Sullivan/gettyimages
AI学習に使用できる高品質なテキストデータが2026年までに枯渇すると予測されている「2026年問題」。このデータ不足の解消策の1つに、別のAIが生成したデータを学習に利用する「データ合成」という方法がある。AI開発においては遅れを取っている日本だが、この新たなフェイズにおいて、勝ち筋が見えるという。筆者が注目する自動運転AIの事例を紹介しよう。※本稿は、国立情報学研究所・情報社会相関研究系教授の佐藤一郎『2030 次世代AI 日本の勝ち筋』(日経BP)の一部を抜粋・編集したものです。
AIの学習データは
底をついてしまう
AIの著名研究者のひとり、スチュアート・ラッセル氏(米カリフォルニア大学バークレー校教授)が、2023年7月の国際的標準化組織ITUのAI関連イベントで「AIの学習データが底をつく」と発言して話題を集めました。その背景には、AI業界で当時指摘されていた「2026年問題」があります。
「2026年問題」とは、言語生成AIの学習モデルの巨大化が進むと、そのモデルのための学習用データとして利用できる、一定の品質以上の文章データ、例えばニュース記事、論文、ウィキペディアなどは2026年で足りなくなるというものです。
オープンAIのサム・アルトマンCEOは2023年4月、米MITのイベントにおいて「巨大モデルへと突き進んでいく時代は終わったと思う。我々は別の方法で改善に取り組んでいる」と述べていますが、これも一定品質以上の学習用データが不足することが念頭にあったといわれています。
別の生成AIによる出力が
混ざるのは避けられない
現在、学習用データ不足の解消策がいくつか検討され、実行に移されています。
そのひとつは、学習モデルの構造を見直し、モデルをコンパクト化することです。
言語生成AIの学習モデルは冗長部分があるので、性能を維持しながら学習モデルの規模を圧縮することで、学習モデルを構築するための学習用データを減らせるという考え方です。
もうひとつ有力な策は、従来のウェブや各種コンテンツデータベースから集めたデータに加えて、別の言語生成AIが生成したデータも学習に利用する方法で、データ合成と呼ばれています。特に英語以外の特定言語を重視した言語生成AIの構築では、一定の品質以上の文章データの確保が難しいとされています。
実際、日本の言語生成AI開発プロジェクトには、従来の強化学習による学習用データのかさ上げに加えて、生成AIで作成した文章を学習用データとして付加しているものもあります。
これはAIが別の生成AIの出力を学習している状況であり、その別の生成AIが間違った出力を行うと、それを学習したAIもその間違いを再生産してしまう可能性があります。しかし、現在のAI開発において、合成データの活用は避けられなくなっています。
というのは、ウェブ上には生成AIが作り出した文章や画像、動画が増えてきており、生成AIがウェブ上のコンテンツを学習用データとして利用している限り、結果的に「別の生成AIが作り出した文章や画像、動画」を学習することは不可避だからです。
学習モデルの構築において、AI開発者が「意図的に」別の生成AIの出力を利用することと、ウェブコンテンツ収集などの「結果として」別の生成AIの出力を利用することを比べたときに、前者の方が品質や対象をコントロールしやすいというのが、合成データを学習用データに使う理由です。
「データ合成」の
発展的な利用法とは?
データ合成の発展的な利用法として、生成AIを自動運転AIに利用する事例を考えましょう。自動運転AIに求められる能力は多様ですが、最も重要な能力は、自動車から撮影した画像から、道路の構造や状況、例えば周辺の自動車や歩行者などを適切に把握して、自動車を制御することです。
したがって、性能がいい自動運転AIを開発するには、道路の構造や状況の認識能力を高める必要があり、それには多様な道路の構造や状況に関する学習用データを集める必要があります。
実際、自動運転AIの性能は学習用データとなる走行画像の量と多様性に強く依存しており、そのためにグーグルやテスラは自動車を大量に走らせて走行画像を集めており、それが自動運転AIにおける彼らの優位性といえました。
しかし、生成AIの進歩により、こうした状況は一変したといえます。というのは、実際の走行画像と画像生成AIを組み合わせ、多様な走行画像を容易に合成できるようになったからです。
例えば実走行画像の場合、晴れの日の日中という状況で録画した場合、その状況の走行画像にしかなりません。しかし、画像生成AIを利用することにより、晴れの日の走行画像から雨の日の走行画像を容易に合成できますし、日中の走行画像を夜間の走行画像に変えることもできます。自動車を道路上で実際に走らせて走行画像を収集するよりも、はるかに容易に多様な走行画像を作り出すことができます。
生成AIの進歩により
自動運転レベルが格段に上がる!
同様に画像生成AIは多様な道路状況、例えば周辺の自動車の数や位置、方向、また歩行者の有無などを変えた走行画像を合成することができます。特に自動運転AIにとって有用なのは、「事故が起きそうな状況」の合成です。
自動運転AIは事故を起こさないことが最優先されますが、事故を起こさないようにするには、事故の起きそうな状況を事前に回避することが重要です。しかし、実際に自動車を走らせる場合、事故が起きた、または事故が起きそうな状況に出くわすことはまれです。
一方、生成AIを使えば、事故が起きそうな状況を大量に作り、それを学習させることで、自動運転AIの事故回避能力を高めることもできます。したがって、実際に自動車を走らせて走行画像を撮影・収集するより、画像生成AIを駆使して多様な状況の走行画像を合成した方が、事故が起きそうな状況に関しては自動運転AIの判断能力を高めることができるのです。
こうした状況はコンピュータシミュレーションに基づく3次元CGでも再現でき、実際にメーカーはCGを学習用データに活用していますが、実社会における複数の人間や車の動きを設定するのは大変手間がかかります。生成AIを使えば、プロンプトの指示に基づき、事故が起こりそうな状況を合成できます。
生成AIが一変させる
企業のデータ戦略
2010年前後に「ビッグデータ」という言葉が流行したこともあり、多くの企業はデータはいずれ価値を生むという前提で、様々なデータの収集に乗り出しました。その結果として、具体的な利用目的が決まっていようとなかろうと、「とりあえず」データを収集・保存している企業は少なくありません。ただ、データの収集・保存もコストと手間がかかります。
一方、データを生成AIで合成できるのであれば、データを収集するより合成した方がコスト効率がいいということになります。結果として、これまではビッグデータビジネスにおいてデータを蓄積している企業が有利だったのが、今後は必要なデータを合成できる企業が有利になります。前述した自動運転AIの例でいえば、テスラやグーグルと比較して実走行画像の大量収集に出遅れた日本の自動車メーカーにも、勝ち筋が見えることになります(※1)。

『2030 次世代AI 日本の勝ち筋』 (佐藤一郎 日経BP)
一方で企業において生成AIによる合成データが増えれば、データ収集に代わって、生成AIが生み出した大量のデータを学習させて学習モデルを構築する処理に向けた計算能力の確保が、企業の差別化要素になる可能性があります。
その結果、企業のデータ戦略は大きく変わります。闇雲に実データを集めるのではなく、図表5-1のようにデータ合成に資するデータセットを想定しておいて、そのデータセットを収集して、あとは生成AIによる合成を行うことになります。そのデータ戦略は、イメージ的にはパズルの数独に近いかもしれません。
一部のマス目の数字をあらかじめ与えておくと、残りのマス目の数字が埋められるように、与えておくべき数字に相当するデータセットを見極めて、それをまず集めておいて、残りのデータは生成AIを駆使して合成していくことになるでしょう。
※1 ただ、その日本の自動車メーカーが生成AIによる合成データに積極的に取り組んでいるかは別の問題となります。

同書から転載