非エンジニアが数百万円級のツールを開発画像＆動画生成AIツールがゼロから作れた話

「私が作った方が早い」とAIは言った
ビューアーを“AI生成スタジオ”に発展
ほしかった画像＆動画生成AIツールが完成
ただし、AIのコード誤消去で青くなったことも
ソフトウェアの作り方の概念が変わろうとしている

「私が作った方が早い」とAIは言った, ビューアーを“AI生成スタジオ”に発展, ほしかった画像＆動画生成AIツールが完成, ただし、AIのコード誤消去で青くなったことも, ソフトウェアの作り方の概念が変わろうとしている

筆者が開発中のAIビューアー・画像・動画の総合WebUI環境「百夜スタジオ」

　今回は、筆者が個人的にAnthropicの「Claude Code」を使い、ビューアーと画像・動画AIの統合環境「百夜スタジオ」を開発している話です。筆者はプログラミングはほぼ初心者で、本格的な開発経験はありません。にもかかわらず、AIツール環境「ComfyUI」やLLM環境「LM Studio」と組み合わせた本格的なアプリを開発できるようになってきました。1日で原型ができ、1週間で形になり、1ヵ月で複雑な機能を持つツールへと発展しました。数年前であれば、数ヵ月の開発期間と数百万円の費用がかかってもおかしくないものが、動いていることに驚きを隠せません。筆者の体験を通じて、起きている変化の一端をご紹介します。

「私が作った方が早い」とAIは言った

　画像や動画生成する場合、Claude CodeのOpusを通じてComfyUIを制御することで、ComfyUIの複雑な操作を回避できる方法を以前にご紹介しました（参考：画像・動画生成AIの常識が変わる、Claude Codeに全部やらせる方法論）。ただ、この方法にも弱点があります。トークン消費がそれなりに大きい点です。色々なプロンプトを作成して、そのバリエーションを指示して、生成を繰り返していると、月100ドルのMaxプランであっても5時間ごとの利用上限に達してしまうことが少なくありませんでした。

　また、画像・動画AIを使って、多数のデータを生成しているのですが、その管理が難しくなってきていました。定番の「Eagle」を試したのですが、筆者には合わず、画像管理にはシェアウェアの「XnView MP」を使っていました。ところが、XnViewは動画の管理が弱く、今後もアップデートでその強化は予定されていません。それぞれの画像をどういうプロンプトで作成したのかという情報などが簡単に見られるビューアーがほしいと思ったんですよね。それで、ついでにComfyUI連携もして、生成機能までつけられないだろうかと。

　同じ課題感を持つ方はいるようで、いくつか実験的なプロジェクトがGitHubに上げられていたのですが、インストールしてみると、エラー連発と使いものになりませんでした。実はその作業自体も、Claude Codeにやらせていたのですが、「これなら、最初から私が作ったほうが速い」と言い出したんですね。半信半疑だったのですが、では、画像ビューアーのプロトタイプ版を作ってみてと指示したわけです。

ComfyUIの画面。インシデントのレポートを作成させたところ

　そこで、作り上げてきたのが、静止画・動画の表示にも対応し、それぞれのファイルにデータ生成時に書き込まれるメタデータも表示できるようにしたビューアーでした。Claude Codeが選んだ技術構成は「Python + Flask + SQLite + vanilla JS」でしたが、その技術選定も、環境構築も、すべてClaude Codeが実行したもので、もちろん、筆者は一行もコードを書いていません。そもそも、Flaskが何であるのかも筆者にはよくわかっていません。そして、最初のバージョンが出来上がるには30分程度しかかかっておらず、できあがってきたアプリを見て、ただただ感心するだけでした。

現在の「百夜スタジオ」のビューアーモード。画像が生成日別に並び、プロンプトなども一覧できる

　人間というものは、勝手な生き物なので、できあがったものを見ると、ここが足りない、あの機能がほしいと、次々に機能を追加したくなってきます。まず、ローカルLLMの動作環境の「LM Studio」とも連携させ、画像認識に優れている割に比較的軽い「Qwen3 VL 8B」をサーバとして起動しておいて、画像をスキャンして独自のタグ付けをする機能を追加しました。そして、サムネイルの表示、全画面表示、スライドショー機能など、次々に追加していきました。それらも、こういう機能をつけるように、Claude Codeに指示を出していきます。

　もちろん、挙動については、人間が確認しなければならないところも多く、バグが多数発見されるために、それらを改修する作業は、最初に制作するのと同じぐらいの手間がかかります。バグの状況を人間が伝え、問題解決が難しければ、スクリーンショットを取って渡したり、デバッグ用のツールを入れて原因を特定するように指示して、解決を進めていきます。

　しかし、できあがったものには満足しました。これまで様々なビューアーを試してきましたが、それぞれに感じていた不満の多くが解消できたためです。筆者個人のニーズをこのビューアーは満たしてくれているのです。

30分で出てきたビューアーの最初期のバージョン。早速バグっていて、画像の上の方しか表示されていないので修正指示をしていった

ビューアーを“AI生成スタジオ”に発展

　次の段階では、単なるビューアーだけでなく、ComfyUIをサーバとして動かし、連携させることで、画像生成機能を追加し、「スタジオ」として発展させることにしました。画像モデル「Z-Image Turbo」の環境で画像を生成し、さらには、動画モデル「LTX-2.3」を組み込んで動画生成もできることを目指しました。

　生成自体の機能追加は比較的簡単にできました。すでにZ-Image Turboで生成できた画像があるため、メタデータをClaude Codeに読み込ませるだけでWorkflowの再現ができるためです。それをスタジオに組み込むように指示すればよいだけです。

　狙って追加した重要な機能が、LLM連携で簡単な日本語を入力すれば、そこから内容を膨らませて、自然なプロンプトとして使用可能な英文への変換機能です。Z-Image Turboは、日本語を認識するのですが、より精度高く理解させるには英語か中国語がよいとされているため、英語化するようにしたのです。もちろん、それらのプロンプトはテクニックガイドを参考に、その方針に沿った文案を出してくれるようにとも指示しています。

　また、画像をドラッグアンドドロップすると、その画像をプロンプトに再解釈して分解してくれる仕組みも入れました。これで精緻な自然文が求められる最近の画像モデルに複雑な指示ができるようにもなりました。これで、当初目標としていた、Claude Codeを使ってのトークンを消費するプロンプト生成は必要なくなりました。

　さらにはControlNetやLoRAの呼び出し機能、特定のキャラクターを出しやすくするための保存機能、カメラワークや服装などのプリセット追加機能などを追加していき、1週間程度でWebUI環境としては一通りの機能が揃ってきました。

百夜スタジオの画像モード。ControlNetやLoRA入力にも対応。使用したプロンプトは、プロンプト生成エリアで作ったもの

プロンプト生成エリア。下段の日本語を入力後、英語化すると、適当に膨らませて、自然文のプロンプトに対応。SDXL用では、タグとして出力される

ほしかった画像＆動画生成AIツールが完成

　作成してみて、大きく気がついた点があります。UIを追加したことによって、体験が大きく変化したことです。筆者がつくった機能は基本的に、ComfyUIでできる機能をWebUIに落とし込んだラッパーに過ぎず、1つひとつの機能はComfyUI上で実行できます。しかし、その理解はややこしく、設定は面倒くさく、機能の切り替えはとても手間です。ところが、UIにすることで、DXが変化し、操作全体が簡単になり、試行錯誤が劇的にやりやすくなりました。そうすると、あれもこれもと実験したくなってきて、Z-Image Turboを使った画像生成の量が劇的に増えました。

　画像AI用のWebUI環境には「A1111」や「Forge」など様々なものが登場してきました。特に、SDXLの人気を現在も支えているのは、手軽に扱えるこれらの存在が大きいと言えます。しかし、複雑化する環境のなかで保守が停止し、最新のモデルには対応していないので、それらを使うには複雑なComfyUIの利用が必須になっており、それが導入をためらわせる十分な理由になっています。

　筆者自身も、ビューアーにも生成環境にも不満を抱えていたのですが、AIの発展によって、プログラム経験がほぼない筆者自身が「WebUIを開発することになるとは」と、なにか異様なことが起きていると感じています。

　さらに、動画生成の機能も追加していきました。動画モデルのLTX-2.3のカスタムノード「WhatDreamsCost」を使って、複数枚の画像からアニメーションを生成できるような仕組みの整備を進めました（参考：LTX-2.3の無料でここまで？動画生成AI「LTX-2.3」はWan2.2の牙城を崩すか）。

　これもサンプルのWorkflowと、過去にすでに生成に成功している動画のメタデータをClaude Codeに読み込ませ、そこから解析させて実装を進めていきました。ビューアーから画像を選択できる機能や、LM Studioを使って複数の画像を自然につながるように解釈させるプロンプトを作らせる機能などを作成していきました。

　筆者の環境は、メインで使っているPC以外に、動画生成などの重い作業をさせるRTX 4090搭載PCがあるのですが、そちらにLAN経由で指示を出し、制御する仕組みも作りました。そちらでもComfyUIを立ち上げておけば、ネットワーク越しにスタジオから指示を出し、動画生成をしてくれるのです。終了後の結果の動画は、自動的にスタジオのビューアーに追加されます。

　つまり、百夜スタジオは単なるビューアーから、生成・管理・プロンプト変換・動画生成までを一体化したコンテンツパイプラインを持つ個人用制作環境へと変わっていったのです。

LTX Dreamモードでは、複数の画像を登録して、プロンプトを作成すると、それに合わせて動画が作られる

ただし、AIのコード誤消去で青くなったことも

　ただし、Claude Codeは万能ではありません。Claude Codeよる致命的なミスにも一度直面しました。全画面表示にすると、画面がちらつく問題がなかなか解決できずに困っていました。それをClaude Codeに何度も原因を推測させて、試行錯誤を繰り返していたのですが、片っ端からハズレでした。それでも、問題が解決できなかったので、さらに修正作業を進めるうちに、本来は差分として渡さなければならないコードを「Writeツールでstyle.css全体を5行で上書き」してしまいました。その結果、1000行以上にまで膨らんでいたコードが消滅して、一切動かなくなりました。

Claude Codeがコードを書き換えてぶっ壊した直後

　Claude Codeはコミットしたデータから復元できるというのですが、筆者はプログラムの素人なので、変更履歴を残すための「git commit」というコマンドを知らず、一切バックアップを取っていません。また、そうした注意を一度もClaude Codeから受けませんでした。LLMは基本的に聞かれなければ、答えてくれません。だから、私がバックアップの方法を知らないということ自体を知らなかったのです。

　そのため、ここまで作成した原本データは完全に失われてしまいました。

　これは青くなりました。

　Claude Codeは課題が解けない状態を繰り返していると、思考がぐるぐるしてしまうようで、突飛な解決策に飛びつくことがあるようです。たまに重要なプログラムを丸ごと消してしまったといった事態が報道されることがありますが、こうして起きているのかと納得しました。

　復旧のためには、ClaudeCodeに、過去のやり取りのログをすべて洗わせて、残っていたログデータをつなぎ合わせることで、なんとか動く状態の再構成に成功しました。しかし、表面的には動いているものの、全体は3646行にも広がる重複ブロックを大量に抱え、次のバグの温床となるコード群になってしまいました。

　その対策として、大規模リファクタリング（内部構造をきれいにする作業）を実施して1500行まで圧縮。さらにOpenAIの「Codex」を使ってチェックと修正を進めました。CodexはClaude Codeから呼び出して使うことができます。Codexの実装能力は評価が高まっており、設計はOpusに行わせ、コーディングをCodexに分担させることは効果を上げやすいとも言われています。いわばセカンドオピニオンを得るといった仕組みです。筆者はGPTのPlusプラン（月3000円）を契約しており、Codexを使えるため、連携させて未発見のバグを次々に見つけました。

　また、そもそも、一つのファイルに全機能を入れていたことも問題で、それらを分割してモジュール化するといった対策もとっていきました。

　さらに、こうした事故が起きないようにするにはどうすればよいかもClaude Codeに検討させ、以下の4つのルールを原則化しました。

■確立された恒久ルール（Claude CodeのOpusが執筆）

事故を受けて、4つの禁則・運用ルールが確立されました。いずれも Studio 開発の継続的禁則として、4/30の今日まで一度も破られていません。

最重要ルールは、Write ツールを既存ファイルに使わないこと。修正は必ず Edit ツールで差分のみ送る運用に徹し、Write は新規ファイル作成専用にする。このルールは永続化され、CLAUDE.md の作業ルールにも明記されました。

第二に、Git 定期コミットの義務化。大きな機能実装が完了したらコミットする、5回以上の Edit 操作をしたら中間コミットを検討する、という運用に変えました。

第三に、CSS 推測パッチ連打の禁止。F12 DevTools の Computed Styles で実測してから1回で直す方針に切り替え、仮説パッチの連打を封じました。3回パッチして直らなかったら手を止める、それはアプローチ自体が間違っているサインだ、というルールです。

第四に、デバッグツールの先行。これは「デバッグツールを最初から作るべき」ルールに発展しました。推論2〜3回で解決しないバグは情報が足りていない証拠なので、次の推論パッチではなく計測コードを先に書く、という運用です。

　おかげで現在は同じような失敗は起きていません。プログラムの完全初心者だった筆者ですが、AIを安全に制御するという点では、少しずつですが、経験を積み重ねてはいます。

ソフトウェアの作り方の概念が変わろうとしている

　開発開始から約1ヵ月の間に、さらにストーリーボードの作成機能や、SDXLへの対応など追加機能を次々に入れています。筆者にとっては、自分がほしかった機能をひたすら追加しているだけなので、楽しくて仕方ありません。

　エンジニアではない筆者にとっては、生産性が10倍になるとか、そういうレベルではありません。これをエンジニアに発注していたら、複数人月のプロジェクトにならざるを得ず、3ヶ月程度であっても数百万円かかるのが普通だったために、そもそも開発をしようと考えなかったでしょう。ところが、Claude Codeを通じて開発すれば、筆者一人で1ヶ月経たずにここまで来てしまいます。

　筆者のゲーム開発の経験からすると、機能追加にしても、バグ取りにしても、バグリストを並べて、会議をして、優先順位を決めて、上から潰していく……という感じで進めると、小さな機能修正をするだけでも1週間程度かかるのが普通でした。ところがClaude Codeは、思いついた機能を1時間くらいで実装できて、バグ処理も進められます。もう人間では追いつけない速度感に達しつつあります。

開発中のストーリーボード機能

SDXLの結果をビューアーで確認しているところ

　ただ、このツールを「百夜スタジオ」と名付けたのですが、今後、どうしていくべきなのかは悩んでいます。

　GitHubでの一般公開も考えたのですが、筆者の複数台のPC環境にあまりに依存しており、なんだかんだと他の方にとって初期セットアップが面倒であろうこと、汎用化の実装とテストは避けられないであろうこと。そして、公開後に不具合の連絡が多数来ること。しかし、筆者自身は継続的なサポートができるとは思えないことを思うと躊躇しているところです。

　そして、自分で作ってみてわかったのは、誰の環境でも安定的に動くような汎用性を求めた瞬間に、その保守コストは非常に大きなものになると予想ができました。だからこそ、A1111やForgeのようなビジネス化されていないWebUIの開発が止まってしまうことは避けられないのだなと。今のAIはどんどん状況が変わってしまうので、メンテナンスのコストがかかり続けると、そこは大きな負担になるのでしょう。

　一方で感じるのは、様々なコンテンツをAIで作れることが、もはや当たり前になりつつある現在、今の争点は、適切なコンテンツを作り込むためのコンテンツパイプラインと、そのワークフローをどれだけ独自のものとして確立できるかになろうとしているとも感じます。そのため、今後、様々なニーズに対応するための、WebUIの開発が進むでしょう。

　そして、これに類似した動きは、一般的なシステム開発の分野で広がっているであろうことは想像に難くありません。ソフトウェアの作り方の概念が変わろうとしています。

　筆者は、自分のニーズを満たすという目的で、この百夜スタジオの開発をしばらく続けようと思っています。5月6日に東京で開催される「生成AIなんでも展示会 Vol.5」で、筆者ブースに百夜スタジオを展示する予定です。ご興味がありましたらお立ち寄りください。

■関連サイト

生成AIなんでも展示会 Vol.5（5月6日開催・東京錦糸町）

筆者紹介：新清士（しんきよし）

1970年生まれ。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。2026年3月に発売したクラフト系サバイバルゲーム『Exelio』のAIによるキャラクターデザイン、3Dプロップの作成を担当。著書に『メタバースビジネス覇権戦争』（NHK出版新書）がある。