Claude Codeをローカルで動かす完全ガイド:Ollama・LM Studioなど4つのツール設定方法
Claude Codeをローカルで走らせるメリット
Claude Codeは通常、Anthropic社のクラウドサービス経由で動きます。でも、自分のパソコンやサーバーで走らせたいときってありますよね。会社のセキュリティポリシーで外部サービス禁止だったり、インターネット接続が限定的だったり、毎月の利用料を抑えたかったり。
そんなときに便利なのが、ローカルで動く生成AI(以降「ローカルLLM」と呼びます)を使う方法です。2026年には、この環境構築がずっと簡単になりました。複数のツールが成熟し、Claude Codeと連携させる仕組みも整ってきたんです。
ANTHROPIC_BASE_URLとは
Claude Codeがローカルのモデルと話すときに使う、いわば「仲立ちの設定」がANTHROPIC_BASE_URLです。この環境変数を指定することで、Claudeではなくあなたが用意したローカルLLMに処理を送り込めます。
公式ドキュメントには詳しく書かれていませんが、Anthropicの互換性設計のおかげで、自分のマシンで走るLLMも、APIの形式さえ合わせれば使えるようになっています。
4つのローカルLLMツール比較
1. Ollama:シンプルさ重視ならコレ
Ollamaは、ローカルLLMの初心者向けに最適なツールです。インストール後、コマンド1行でモデルをダウンロードして走らせられます。
セットアップの流れ
- ollama.aiから最新版をダウンロード(2026年4月時点ではv0.21.1-rc1など)
- インストール完了後、ターミナルで
ollama serveを実行 3.別のターミナルでollama run mistralなどとモデル名を指定 - Webブラウザで
http://localhost:11434にアクセス
Ollamaは自動的にローカルサーバーを起動し、REST APIで他のプログラムから呼び出し可能な状態になります。
ANTHROPIC_BASE_URLの設定例
export ANTHROPIC_BASE_URL=http://localhost:11434/v1
この設定をしたあと、Claude Codeやその他のツールを立ち上げると、クラウドではなくOllamaのモデルが使われるようになります。
2. LM Studio:UIが親切
LM Studioは、GUIでモデル選択・管理ができるため、コマンドラインが苦手な人向けです。
セットアップの流れ
- LM Studioの公式サイトからダウンロード
- アプリを起動し、モデルストアからお好みのモデルを検索
- 「Download」をクリック(GGUFフォーマットが推奨)
- ダウンロード完了後、「Chat」タブから実行可能
LM StudioはWebサーバーもビルトインしており、ANTHROPIC_BASE_URLで指定できます。
ANTHROPIC_BASE_URL の設定例
export ANTHROPIC_BASE_URL=http://localhost:8000/v1
デフォルトではポート8000で起動しますが、設定から変更も可能です。
3. llama.cpp:軽量・高速
llama.cpp は、C++で書かれた軽量な推論エンジンです。リソース限定的なマシン(古いノートパソコンなど)で走らせたいなら、検討価値があります。
セットアップの流れ
- GitHubから llama.cpp をクローン
- ビルド(Makefile や CMake を使用)
- GGUFフォーマットのモデルファイルを準備
./serverコマンドでサーバー起動
llama.cpp はコマンドラインが多いぶん、自由度が高い反面、初心者には少し敷居が高いと思われます。
ANTHROPIC_BASE_URLの設定例
export ANTHROPIC_BASE_URL=http://localhost:8080/v1
4. vLLM:大規模モデル・高スループット向け
vLLM は、複数のGPUを使ったり、大きなモデルを扱うときに活躍します。複数のユーザーからのリクエストを同時に処理できる能力が売り物です。
セットアップの流れ
- Pythonのpipでインストール(要Python 3.8以上)
- コマンド例:
vllm serve mistralai/Mistral-7B-Instruct-v0.1 --port 8000 - サーバーが起動し、OpenAI互換のAPIで受け付け開始
vLLMはエンタープライズ用途や研究向けのイメージが強く、個人利用だと過剰スペックになる可能性もあります。
ANTHROPIC_BASE_URLの設定例
export ANTHROPIC_BASE_URL=http://localhost:8000/v1
実装の流れ:一般的な手順
上記のどのツールを選んでも、以下の流れで進めるとスムーズです。
ステップ1:ローカルLLMサーバーを起動
選んだツール(OllamaやLM Studioなど)のサーバーを走らせます。ターミナルやアプリケーションを起動したままにしておくのがポイントです。
ステップ2:ANTHROPIC_BASE_URLを設定
ターミナルやシェル設定ファイル(.bashrc, .zshrcなど)に、上記の環境変数を記述します。
Linuxやmacの場合:
export ANTHROPIC_BASE_URL=http://localhost:11434/v1
Windowsの場合(PowerShell):
$env:ANTHROPIC_BASE_URL="http://localhost:11434/v1"
ステップ3:Claude Codeやクライアントを起動
いつも通りClaudeのクライアント(VSCode拡張など)を立ち上げます。この時点で、バックエンドはローカルのモデルに切り替わっています。
注意点・落とし穴
メモリ不足のリスク
ローカルLLMはCPUやメモリを多く消費します。大きなモデル(13B以上のパラメータ)を走らせるには、8GB以上のメモリが必要な場合が多いと思われます。起動してみて、パソコンが重くなったら、もっと小さいモデルに変更するか、OllamaなどのツールでGPU加速を有効化してください。
APIの互換性チェック
ANTHROPIC_BASE_URLを指定すると、Claude Codeの呼び出しが「OpenAI互換」のAPIフォーマットに自動変換される仕組みになっています。しかし、ローカルLLMのすべてがこのフォーマットをサポートしているわけではありません。事前に確認するのがおすすめです。
モデル選択の失敗
無料のGGUFモデル(Mistral、Llama 2など)を試す際、「推奨スペック以下のマシン」に高性能モデルを入れると、反応が極度に遅くなります。最初は小さいモデル(3B~7B)から試して、慣れたら大きいものに進むといいでしょう。
ローカルサーバーの停止忘れ
Ollamaやvllamaは、設定完了後も常にバックグラウンド実行されていることを忘れやすいです。パソコンを再起動するたびに手動で立ち上げ直すはめになる場合があるので、自動起動の設定を検討してください。
応用アイデア
チーム内での共有サーバー化
ローカルサーバーをLAN内で公開すれば、チーム全員が同じローカルLLMを使えるようになります。ANTHROPIC_BASE_URLを http://192.168.1.100:11434/v1 のように共有サーバーのIPアドレスに設定するだけです。
###複数のモデルを並列運用 Ollama は複数のモデルを同時にメモリに乗せて運用できます。軽量な処理用に小さいモデル、精度重視の処理に大きいモデルを使い分けると効率的です。
Docker化して本番環境へ
vLLMやllama.cppは、Dockerコンテナ化して本番サーバーにデプロイできます。開発環境で動作確認したあと、そのまんまAWS ECSやKubernetesに流し込む運用も可能です。
GPU最適化でさらに高速化
Ollama や LM Studio は、NVIDIA / AMD GPUを自動認識して高速化できます。ただし、ドライバやCUDA(NVIDIA環境用の開発キット)の設定が別途必要になる場合が多いと思われます。
出典
参考にした情報源:
- Dev.to「Claude Code with Local LLMs and ANTHROPIC_BASE_URL: Ollama, LM Studio, llama.cpp, vLLM」
- Dev.to「Setting up the perfect Claude Code environment in 2026」
- Dev.to「Mistral Medium 3.5 GGUF, FlashQLA Boost for Qwen, & Ollama Playground」
- Ollama GitHub Release(v0.21.1-rc1)