• AI
  • ツール
  • How-to
  • 音声AI

Dograh——セルフホストで使えるオープンソースの音声AIエージェントプラットフォーム

Dockerコマンド一発で起動できるオープンソースの音声AIエージェントプラットフォーム「Dograh」のセットアップからボット作成までを紹介します。

カテゴリー: AI · ツール · How-to · 音声AI | 公開: 2026年5月30日

Dockerコマンド一発で起動できるオープンソースの音声AIエージェントプラットフォーム「Dograh」のセットアップからボット作成までを紹介します。

📑 目次

「もしもし、こちらAIのサラです。本日はどのようなご用件でしょうか?」

こんな自然な音声エージェントを、自分のサーバーで動かせたら——しかもコードを一行も書かずに。そんなことができてしまうプラットフォームが、今回紹介する Dograh です。

ふむふむ、Vapi や Retell といった音声AIサービスが盛り上がっているのは知ってる人も多いはず。でも「従量課金が読めない」「データが外部に出ていくのが気になる」「ベンダーロックインがいやだ」——そんな声もちらほら聞こえてきます。

Dograh はその全部に「セルフホスト」で応える、BSD 2-Clause ライセンスのオープンソースプロジェクト。2026年5月時点でGitHubスター3,500超、YC出身のファウンダーが「音声AIは閉じるべきじゃない」という信念で開発を続けています。

Dograh って何ができるの?

ひとことで言うと「ドラッグ&ドロップで音声AIエージェントを組み立てて、Docker一発でデプロイできるプラットフォーム」です。

仕組みはこうなっています。まず、通話が始まると発信者の音声がリアルタイムで文字起こし(STT)されます。そのテキストが LLM に送られ、あらかじめ設定しておいたプロンプトに沿って応答を生成。さらにその応答が音声合成(TTS)されて、発信者にストリーミングで返ってきます。この STT → LLM → TTS のパイプラインが、通話中ずっとリアルタイムで回り続けるわけです。

会話の流れ(ワークフロー)は「ノード」と「エッジ」でできた有向グラフで定義します。ノードには「通話開始時のあいさつ(startCall)」「LLMが会話するステップ(agentNode)」「通話終了(endCall)」「Webhookで外部APIを叩く(webhook)」など7種類あり、エッジには「こういう条件が満たされたら次のノードへ」という遷移条件を自然言語で書きます。

ビジュアルのワークフロービルダーでポチポチ組み立てることもできれば、Python/Node.js のSDKでコードから構築することもできます。さらに MCP(Model Context Protocol)サーバーも内蔵しているので、Claude Code や Codex などから直接エージェントを操作することも可能です。

インストール——Dockerコマンド1行

セットアップは驚くほどシンプル。Docker と Docker Compose さえ入っていれば、以下の1行で全部立ち上がります。

curl -o docker-compose.yaml https://raw.githubusercontent.com/dograh-hq/dograh/main/docker-compose.yaml && REGISTRY=ghcr.io/dograh-hq ENABLE_TELEMETRY=true docker compose up --pull always

初回はイメージのダウンロードに2〜3分かかります。起動したら、ブラウザで http://localhost:3010 を開くだけ。

内部的には PostgreSQL、Redis、MinIO(音声ファイル保存用)、FastAPI バックエンド、Next.js フロントエンドが自動で立ち上がります。APIキーも自動生成されるので、サインアップ不要、キー設定不要で即座に音声ボットを試せます。チカちゃん的には、この「ゼロコンフィグ」感がかなり好印象でした。

リモートサーバーにデプロイする場合

本格的に使うならリモートサーバーへのデプロイがおすすめ。要件は 8GB RAM、4 vCPU 以上。公開IPがあれば、自動セットアップスクリプト一発です。

curl -o setup_remote.sh https://raw.githubusercontent.com/dograh-hq/dograh/main/scripts/setup_remote.sh && chmod +x setup_remote.sh && ./setup_remote.sh

スクリプトがSSL証明書(自己署名)やTURNサーバー(WebRTC用)の設定まで自動で済ませてくれます。ブラウザでマイク許可をもらうにはHTTPSが必須なので、この辺を自動化してくれているのは地味にありがたい。

注意: リモートデプロイでは TCP 80/443/3478/5349 と UDP 3478/5349/49152-49200 のポート開放が必要です。クラウド事業者のファイアウォール設定を忘れずに。

最初の音声ボットを作ってみる

ダッシュボードが開いたら、あとは3ステップ。

  1. Inbound(着信)か Outbound(発信)かを選ぶ
  2. ボットに名前をつける(例: 「リード獲得」)
  3. ユースケースを5〜10単語で説明する(例: 「保険フォームの申込意欲をヒアリング」)

あとは「Web Call」をクリックすれば、ブラウザ上でそのままボットと会話できます。テレフォニー回線がなくても、WebRTCでマイクから直接通話できるんです。これ、テストにめちゃくちゃ便利。

音声ボットとの会話が始まるまで(図解)

[あなた] → ブラウザで「Web Call」クリック

[STT] あなたの声をテキストに変換(Deepgram など)

[LLM] プロンプト+会話履歴から応答を生成(OpenAI, Claude, Gemini など)

[TTS] テキストを音声に変換(ElevenLabs, PlayHT など)

[あなた] ← ボットの声がブラウザから聞こえる

デフォルトでは Dograh 組み込みの LLM/TTS/STT が使われるので、最初はAPIキー不要です。「よし、ちゃんと動く」と確認できたら、自分のOpenAIキーやElevenLabsキーに差し替えていく——という段階的な導入ができる設計になっています。

ここがすごい——Dograhの差別化ポイント

1. ベンダーロックインなし

Vapi や Retell は分単位の従量課金で、コードは非公開。一方 Dograh は全コードが BSD 2-Clause で公開されていて、自分のサーバーで動かせます。「今日から契約、明日から本番」ではなく「今日クローンして、今日から試せる」——このスピード感はOSSならでは。

2. 好きなモデルを持ち込める(BYOK)

STT に Deepgram、LLM に Claude、TTS に ElevenLabs——というように、各コンポーネントを自由に入れ替えられます。Ollama でローカルLLMにつなぐことも理論上可能(ただしレイテンシには注意)。

3. ビジュアルワークフロービルダー

ノードをドラッグ&ドロップして、線をつないで、条件を自然言語で書く。コードを書かずに音声対話の分岐を設計できるのは、プロトタイピングの強い味方です。

4. QAノード

通話の品質を自動評価する qa ノードがビルトインされています。通話終了後にLLMが「エージェントは適切に対応したか」「顧客満足度はどうか」を分析してくれるので、改善サイクルを回しやすい。

5. MCPネイティブ

Claude Code や Codex などのAIコーディングエージェントから、自然言語で「リード獲得ボットを作って」と指示するだけで、Dograh がエージェントを生成してくれます。

気をつけること——制約と注意点

正直なところ、いくつか留意点もあります。

  • 対応言語は現状英語がメイン。日本語での音声認識・合成は、現時点では自分で日本語対応のSTT/TTSプロバイダを設定する必要があります。READMEにも「他の言語への拡張は可能」とありますが、コミュニティの対応待ちの部分もあります。
  • リモートサーバーにはある程度のスペックが必要。8GB RAM、4 vCPU が最低ライン。ラズパイでは厳しい。
  • 自己署名証明書の警告。リモートデプロイ時、初回はブラウザでセキュリティ警告が出ます。本番運用するなら正式なSSL証明書(Let’s Encrypt など)を設定しましょう。
  • 本番向けの運用ガイドはまだ発展途上。2026年5月時点では「Production guide coming soon」とのこと。大規模運用を考えているならコミュニティSlackで情報収集するのがよさそうです。
  • WebRTCのNAT越え。自宅LAN内で他の端末からアクセスする場合、TURNサーバーの設定が必要になることがあります。ローカル単体テストなら問題ありません。

まとめ——「音声AIの民主化」の第一歩

Dograh がやろうとしていることは、はっきりしています。「音声AIエージェントを、特定のSaaS企業の独占から解き放つ」こと。Docker コマンド1行で自分のマシンに音声AI基盤が立ち上がり、ブラウザ上でポチポチするだけでボットが動く——その体験の気軽さは革命的です。

まだ日本語対応や本番運用のノウハウ蓄積といった課題はありますが、「まずは触ってみたい」「プロトタイプを作って検証したい」という段階にはぴったり。APIキー不要で試せるので、ハードルは限りなく低い。

「もしもし」と声をかけたらAIが返事をする——その最初の一歩が、こんなに簡単でいいんだっけ?と思わせてくれるプロジェクトです。


本記事は公開情報をもとにした個人的な技術メモです。第三者ツール・AIサービス・モデルの仕様、料金、利用条件、安全性は変わる可能性があります。導入前に公式ドキュメント、ライセンス、利用規約、商用利用条件、データ送信先を確認してください。業務環境や秘密情報を含む環境では、隔離環境で検証してから利用することをおすすめします。

参考URL

  • インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
  • AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。