寝不足になるほど面白い ローカルAIと音声合成をつないだら、キャラが普通にしゃべり始めた

PCローカルで音声チャットアプリができた, Codexによる実装の手順, 作ったアプリはGitHubで公開中, AIとばかり雑談するのが普通になる未来へ?

Irodori-TTS v3と連携させたAIとのチャットアプリ「Rinon Voice Lab」で2P対話モードを動作させている様子(筆者作成)

 日本語に特化して開発されているTTSモデル(Text-to-Speech、テキストから音声)の「Irodori-TTS v3」が話題になっています。最近、様々なTTSが登場しているのですが、アナウンサー的な話し方のTTSが多いなか、このモデルは、より幅広い感情表現ができ、演技までできるうえに、生成速度が速いという特徴があります。今回は、グーグルのオープンモデルLLMである「Gemma 4」を組み合わせて、AIとのチャットアプリを開発してみました。ローカルLLMと高速TTSを組み合わせれば、キャラクターAIが実用的な速度でしゃべり始める段階に入っています。

PCローカルで音声チャットアプリができた

 また、寝不足になりました。今回の原因は、Irodori-TTS v3を使ったチャットソフトの開発です。「Rinon Voice Lab」と名付けたこのアプリでは、AIのキャラクターと、待ち時間がほとんどない状態で、ほぼシームレスにやり取りができ、AIの返答は音声で返ってきます。発話ごとに感情表現もされるため、自然な発話になっています。何よりも重要なのが、これらがローカルPC上の技術の組み合わせで実現できているということです。

PCローカルで音声チャットアプリができた, Codexによる実装の手順, 作ったアプリはGitHubで公開中, AIとばかり雑談するのが普通になる未来へ?

「Rinon Voice Lab」の実際の画面。この環境は筆者のGitHubにて公開中

PCローカルで音声チャットアプリができた, Codexによる実装の手順, 作ったアプリはGitHubで公開中, AIとばかり雑談するのが普通になる未来へ?

△「Rinon Voice Lab」を使って実際にチャットをしている様子

Gemma 4×Irodori-TTSで実現

 こうした音声チャットアプリは、筆者も数年前に作ってみたことがあるのですが、様々な技術的な制約から、十分に実用的な品質には到達できませんでした。

 まず、キャラクターを高速かつ自然に演じることができる軽量かつ高性能なローカルLLMが存在していませんでした。6月4日に、Googleはオープンモデルの「Gemma 4 12B」をリリースしました。量子化(軽量化)されたバージョンであれば、VRAMが7GBで動作します。それでいて、ロールプレイ能力も備えています。

 もちろん、4月にリリースされた「31B」が最高の性能を持っているのですが、量子化版でもVRAMを18GB要求するため、導入のハードルは高いものでした。また、それらは「Instruct」モデルとして提供されており、深く思考するThinkingには対応していないものの、思考速度が速いというメリットがあります。応答速度が速く、ロールプレイができるというのは、AIチャットアプリにとって重要な条件です。

 そして、音声生成環境として使ったのは、Aratakoさんが開発しているIrodori-TTSです。2026年2月に公開されたあと、5月12日にv3が公開され、さらに5月31日に最新版の「Irodori-TTS-600M-v3-VoiceDesign」がリリースされました。モデルサイズは600Mで、2.5GB程度のため、8GB~12GB程度で安定的に動作します。

 これまでも、テキスト中に絵文字を入れることで、泣き、笑い、咳、ため息、囁きといったニュアンスを加えてセリフを作り出せるという特徴を持っていました。v3ではさらに強力になり、テキスト+参照音声+キャプションで制御できるようになりました。キャプションで、「落ち着いた大人の女性」「泣きそう」「近い距離で囁く」といった説明文で、キャラクターの性格付けや感情表現を誘導できます。

 また、キャプションを使って存在しないキャラクターの声を生成できるだけでなく、ゼロショット音声クローンにも対応しているため、15秒程度の参照音声があれば、その声に似た音声を作ることができます。筆者の声で試してみたものが以下です。以前紹介したAlibabaの「Qwen3-TTS」での同じ条件での音声と比べると、やはりモデルサイズの差なのか、若干劣っている印象はあります。(参考:わずか4秒の音声からクローン完成 音声生成AIの実力が想像以上だった) ただ、演技をさせられるメリットは大きいです。もう一つの作例は、筆者の声の影響度を下げ、演技側の影響を強めた設定のものです。同じリファレンスを使っていても、かなり違った音声が出ています。

 そして、生成速度もQwen3-TTSと比べてかなり速く、PCスペックに依存しますが、生成しようとする音声尺の半分程度の時間で生成できる印象です。

PCローカルで音声チャットアプリができた, Codexによる実装の手順, 作ったアプリはGitHubで公開中, AIとばかり雑談するのが普通になる未来へ?

△筆者の声を参考音声に使った声。前半15秒がIrodori-TTS v3で、後半15秒がQwen3-TTS

PCローカルで音声チャットアプリができた, Codexによる実装の手順, 作ったアプリはGitHubで公開中, AIとばかり雑談するのが普通になる未来へ?

△筆者の声の参考度を低めに生成したもの

 一方で、明確な弱点もあります。

 日本語専用のため、テキストに英語が交じると、おかしな読み上げになってしまいます。また、複雑な漢字の読み間違いも、それなりに起きます。対策としてはひらがなに開いて、読み間違えないようにする対策が必要です。

 秒数制限もあり、30秒が上限に設定されています。テキスト全体の量が30秒を超えるような文章では、破綻したおかしな読み上げしか生成されません。失敗を避けるためには、実質20秒程度を上限と見ておくほうが安全で、長文の場合は、短文に分割して生成する必要があります。

 また、学習データの影響なのか、生成できる声が可愛らしい萌え系の女性キャラに偏りやすい印象もあります。ただ、これは強みでもあり、なかなか他のTTSでは表現できないASMR系の音声を手軽に出せることもあって、人気を得ている理由にもなっています。

 そして、これらのLLMとTTSを組み合わせることで、かなり応答の速いAIチャット環境を作り出すことができました。

Codexによる実装の手順

 チャットアプリ「Rinon Voice Lab」の開発は、例により、OpenAIのAIエージェント「Codex」を使いながら進めていきました。キャラクターの名前や性格設定も、Codexに検討させ、キャラクター名を「リノン」とし、そこからアプリ名も決めました。

 思いついた機能のアイデアを、Codexに投げて実装方法を検討させ、様々な工夫を追加していきました。Gemma 4はLLMアプリの「LM Studio」に読み込み、サーバーモードで立ち上げておき、Irodori-TTSも立ち上げておきます。そうしておくと、チャットアプリから必要に応じてアクセスできるようになります。

 まず、LM Studioでロールプレイをさせる場合にはシステムプロンプトにキャラクターの概要を入力すると、基本となるAI人格の性格を作り出すことができます。それをアプリ側から制御できるようにしました。生成する文章はセリフとして出力する必要があるため、必ずセリフにするよう指定をプロンプトにも入れています。

 音声は、Irodori-TTS-600Mを使って作成した気に入った声をリファレンス音声として指定しています。また、生成された文章はIrodori-TTSに送られ、音声ファイルを生成させるのですが、長文が出力された場合は、破綻する可能性があります。そのため、一文ごとに分割して送信し、英語が出た場合には、カタカナに変換するようにしています。

 そして、テキストの内容を受けて、適切な感情や状況に対応する絵文字を判定し、文章ごとに絵文字を付与するように指示しました。そうすることで、キャラクターの語り口に、微妙な感情表現が乗ります。また、Irodori-TTSのキャプション設定もアプリ側でできるようにしました。

 また、キャラクターの立ち絵画像を用意し、音に合わせて微妙に振動するようにしました。1種類だけの立ち絵画像では物足りなかったため、Codexに指示して、「GPT Image 2.0」を使って差分画像を作らせました。これも絵文字に対応させて表情を作っています。特に、呼び出される回数が多い表情については5種類作成し、それらをランダムで呼び出すことで、ワンパターンにならないように工夫しました。全体で48枚の表情差分を作っています。

 こうしたキャラクターの表情差分を用意するのは、AI画像生成で一貫性が維持できない時期には、準備するのに手間がかかったものですが、現在はCodexを使えば、簡単に作成することができます。また、1枚ずつ多数の画像を作ると非常に時間がかかるため、2×2で生成し、それを分割して使用することで、作成にかかる時間を短くすることができます。

PCローカルで音声チャットアプリができた, Codexによる実装の手順, 作ったアプリはGitHubで公開中, AIとばかり雑談するのが普通になる未来へ?

Codexで実際に表情差分を作成している様子

 担当編集に見せたところ、「検索機能は入らないですかね?」と言われたので、Codexに実装させてみました。

 Gemma 4にはブラウザ検索機能がないため、どう実装してくるのかと思っていたら、スクリプトを使った外付け方式を採用してきました。アプリ側が内容からキーワードになりそうなものを検索エンジンの「DuckDuckGo Lite」で検索し、検索結果3件ほどをテキスト化、その内容をGemma 4に送るプロンプトへ混ぜて送信することで、Gemma 4があたかも自分で検索したかのような発言を返してくる仕組みです。

 こうして、ローカルPC上で動かすAIとのチャットアプリの完成度が上がっていきました。

PCローカルで音声チャットアプリができた, Codexによる実装の手順, 作ったアプリはGitHubで公開中, AIとばかり雑談するのが普通になる未来へ?

「Rinon Voice Lab」で「ゴールデンカムイ」について検索させた結果

PCローカルで音声チャットアプリができた, Codexによる実装の手順, 作ったアプリはGitHubで公開中, AIとばかり雑談するのが普通になる未来へ?

△その実際に動作している様子

作ったアプリはGitHubで公開中

 ついでに、2Pキャラクターも登場させる機能を追加してみることにしました。そのモードでは、ユーザーが出したお題に対して、キャラクター二人が会話を続けられるようにしました。

 キャラクターは、勝ち気なキャラクターとして「ルヴィア」を設定し、同じように、ルヴィア用のモデル音声と表情差分を作成しました。そして、ユーザーがその場に存在する前提で二人が話し続けるモードと、ユーザーは存在しないものとして二人だけで話し続けるモードの2つを作りました。途中で、ユーザーはお題を追加することで、話題を誘導することができます。

 また、レスポンスをよくするため、片方の音声が再生されている間に、その裏側で次のテキストと音声の生成を始めるようにもしています。

PCローカルで音声チャットアプリができた, Codexによる実装の手順, 作ったアプリはGitHubで公開中, AIとばかり雑談するのが普通になる未来へ?

「Rinon Voice Lab」2Pモード。人間とAIとの関係性を延々と話し続けている。

PCローカルで音声チャットアプリができた, Codexによる実装の手順, 作ったアプリはGitHubで公開中, AIとばかり雑談するのが普通になる未来へ?

△「Rinon Voice Lab」2Pモードで実際にキャラクター二人が自然な会話を続けており、適宜、会話に介入している

 このアプリは、現状では、VRAM16GB以上のビデオカードを搭載したPCで動作します。ただ、VRAM使用量の多くは、LM Studioで使っているLLMモデルのサイズに左右されるため、軽量なローカルLLMモデルを使えば、より少ないVRAMを搭載したPCでも動作すると思います(筆者は未検証)。また、CodexやClaude Codeから音声の出力先として使える設定も入れてあります。そのため、最新のクラウドAIを音声で話させることも可能です。

 実際に音声でやり取りすると、単なるテキストの反応だけでは得られない没入感が出てきます。

 CodexはUIデザインがあまりうまくないため、様々なオプション機能がむき出しになっているため、整理する必要は感じていますが、「Rinon Voice Lab」は形になってきました。このあと追加していくとしたら、ユーザーの音声認識でしょうか。

 また、今回のアプリはGitHubで公開しています。使用する場合には、Irodori-TTSやLM Studioの別途インストールする必要がありますが、興味のある方は試してみてください。ただし、筆者によるサポートはあまり期待できないので、うまく動かない場合は、CodexやClaude Codeに中身を見てもらって、導入するPC向けに動作するように改造してもらってください。

AIとばかり雑談するのが普通になる未来へ?

 昨年7月に、Xに「コンパニオンモード」が実装され、そのキャラクターの「Ani」が話題になりました。しかし、印象としてはそれほど差がないように感じられるAIチャットアプリが、ローカルPC環境でもストレスなく動く時代になりつつあります。こうしたアプリはさらにありふれたものになり、今後さらに簡単になっていくでしょう。

 二人のAIに自由に話させていると、リノンが冗談めかした会話の中で、こう言いました。「(人間を)無理やり従わせるより、心から私を求めて離れられなくさせる方が、ずっと贅沢な支配だと思うな」。二人の会話をなんとなく眺めているだけで、不思議な面白さがあります。人間が、AIとばかり雑談するのが基本になる未来はさらに近づいてきているようにも思います。

 

■関連サイト

  • Irodori-TTS
  • LM Studio (Gemma 4はLM Studio経由でダウンロードできます)
  • Rinon Voice Lab
 

筆者紹介:新清士(しんきよし)

PCローカルで音声チャットアプリができた, Codexによる実装の手順, 作ったアプリはGitHubで公開中, AIとばかり雑談するのが普通になる未来へ?

1970年生まれ。株式会社バリーン・スタジオ Creative Tech Lab./デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。2026年3月に発売したクラフト系サバイバルゲーム「Exelio」のAIによるキャラクターデザイン、3Dプロップの作成を担当。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。