ローカルAIが動かない！「Gemma 4 QAT」インストールエラー・メモリ不足・起動しない症状を初心者向けに徹底解説

「自分のパソコンでAIを動かしてみたい！」と思って試してみたら、「エラーが出て起動しない」「読み込みが止まってしまう」「動いても処理がとにかく遅い」……そんな状況で途方に暮れていませんか？

大丈夫ですよ。あなただけが困っているわけではありません。

2026年6月5日、Googleが「Gemma 4 QAT（ジェンマ4 キュービーエーティー）」という新しいAIモデルを公開しました。これは「自分のパソコンやスマートフォンだけでAIを動かす」ための画期的な技術ですが、リリース直後ということもあって、設定方法や対応ツールのバージョンなど、ちょっとした落とし穴がたくさんあります。

さらに、Microsoftも同時期に「pg_durable（ピージー・デュラブル）」という、AIが行う複雑な作業を安定して続けるための仕組みをオープンソース（誰でも無料で使えるソフトウェア）として公開しました。

この記事では、

何が新しく公開されたのか（やさしい言葉で整理）
よくあるトラブルの原因と対処法（手順どおりにやれば大丈夫）
公式の対応状況と今後の見通し

をわかりやすくお伝えします。一緒に落ち着いて確認していきましょう。

今起きている不具合・エラーの具体的な内容
今すぐ試せる！具体的な対策と手順
公式のアップデートで直る？現在の対応状況
まとめ
- 対策のおさらい
- 最新情報をチェックするには

今起きている不具合・エラーの具体的な内容

まず「Gemma 4 QAT」って何？を3分で理解する

難しそうな名前ですが、要点は3つだけです。

① AI が「自分のパソコン」で動く時代になった

これまでの高度なAI（人工知能）は、インターネットの向こうにある「クラウド」（巨大なコンピューターの集まり）を使っていました。でも今回公開されたGemma 4 QATは、あなたのパソコンやスマートフォンの中だけで動く軽量版です。

② QAT（量子化）とは「AI を軽くする」技術

「量子化」とは、AI の頭脳（モデル）のデータを圧縮して、小さくする技術です。普通に圧縮すると賢さが落ちてしまいますが、QAT（Quantization-Aware Training＝量子化を考慮した学習）は、最初から「圧縮することを前提にして学習させる」方法です。その結果、精度をほぼ保ちながら、メモリ使用量を約40〜50%削減することができます。

③ LiteRT-LM（ライトアールティー・エルエム）は「動かすためのエンジン」

車に例えると、Gemma 4 QAT が「エンジン」、LiteRT-LM が「車体やタイヤ」です。Googleが開発したこの実行エンジンを使うことで、Gemma 4 E4Bモデルでは推論速度が最大2.2倍に高速化されます。

「pg_durable」って何？なぜ重要なの？

こちらはMicrosoftがオープンソースで公開した、「AIが長い作業をする途中でパソコンがクラッシュ（強制終了）しても、作業をゼロからやり直さなくて済む仕組み」です。

身近な例で言うと、長文のレポートを書いている最中にパソコンが落ちても、「自動保存」があれば続きから再開できますよね。pg_durable は、AIエージェント（自動で作業するAI）の「自動保存」機能をデータベース（情報の保管庫）の中に組み込んだものです。

PostgreSQL（ポストグレスキューエル）という、広く使われているデータベースソフトにそのまま追加して使えるため、難しい追加設備が必要ありません。

よくある「困った」症状チェックリスト

症状A： Ollamaや LM Studio でGemma 4を読み込もうとすると unknown model architecture: 'gemma4' というエラーが出る
症状B： モデルを起動したら OOM（Out of Memory）エラー が出てクラッシュする（「メモリ不足」という意味）
症状C： AIの応答がとても遅い（GPU＝グラフィックカードが使われていない状態）
症状D： Error: 500 Internal Server Error: unable to load model と表示される
症状E： ダウンロードが途中で止まる・接続が切れる
症状F： pg_durable のインストール時にバージョンエラーが出る

今すぐ試せる！具体的な対策と手順

対策1：まず「ツールを最新バージョンに更新する」（必ず最初にやること）

Gemma 4のアーキテクチャ（設計の構造）は比較的新しいため、古いバージョンのOllamaやLM Studioでは「モデルの形式を認識できない」エラーが起きます。 これが症状Aや症状Dの最も多い原因です。

Ollamaを使っている場合

現在のバージョンを確認する
- ターミナル（黒い画面）を開いて、以下を入力してEnterを押す
ollama --version
- 表示されたバージョンが 0.22 より古ければ更新が必要です
Windowsの場合：更新する
- ブラウザで https://ollama.com/download を開く
- 「Windows」ボタンをクリックしてインストーラーをダウンロード
- ダウンロードしたファイルをダブルクリックして「上書きインストール」する
Macの場合：更新する
- ブラウザで https://ollama.com/download を開く
- 「macOS」ボタンをクリックしてダウンロード
- ダウンロードしたファイルを開いて、Applicationsフォルダにドラッグ
Linuxの場合：ターミナルで以下のコマンドを実行する curl -fsSL https://ollama.com/install.sh | sh
更新後、ターミナルで再度バージョンを確認して 0.22 以上になっていればOKです

LM Studioを使っている場合

LM Studioを起動する
左下にある「⚙ 設定（Settings）」を開く
「アップデートを確認（Check for Updates）」をクリックする
新しいバージョンが見つかったら「今すぐ更新（Update Now）」を押す
再起動して、再度Gemma 4を読み込んでみる

対策2：「メモリ不足エラー（OOM）」を解消する

パソコンのメモリ（データを一時的に置く場所）が足りないと、モデルを読み込もうとした瞬間にクラッシュします。これが症状Bの原因です。

ステップ1：自分のパソコンに合ったモデルサイズを選ぶ

Gemma 4には複数のサイズがあります。パソコンのメモリ量に合わせて選んでください。

モデル名	必要なメモリの目安	こんな人向け
Gemma 4 E2B (QAT)	約1GB（モバイル版）	スマートフォンや低スペックPC
Gemma 4 E4B (QAT)	約4〜6GB	メモリ16GBの一般的なノートPC
Gemma 4 12B	約8〜10GB	メモリ16GB以上のPC
Gemma 4 26B	約14GB以上	グラフィックカード付きの高性能PC

💡 自分のパソコンのメモリを確認する方法

Windowsの場合：「スタートボタン」を右クリック→「システム」→「実装RAM」の数字を確認

Macの場合：画面左上のリンゴマーク→「このMacについて」→「メモリ」の数字を確認

ステップ2：小さいモデルに切り替える

ターミナルを開いて、以下のコマンドでE4B（小さいサイズ）をダウンロードする ollama pull gemma4:e4b
ダウンロードが終わったら、以下で起動する ollama run gemma4:e4b

ステップ3：他のアプリを閉じてメモリを空ける

ブラウザ（ChromeやFirefoxなど）のタブをできるだけ閉じる
使っていないアプリをすべて終了する
パソコンを再起動してからもう一度試す

対策3：AIの処理が遅い場合（GPU が使われていない状態）

AIの処理が遅い場合、グラフィックカード（GPU）ではなく、CPUという通常の計算チップで動いている可能性があります。これが症状Cの原因です。

ターミナルで以下のコマンドを実行して、GPU が使われているか確認するollama ps
- 表示された結果の中に GPU の文字があればOKです
- CPU しか表示されていない場合は、ドライバー（GPU を動かすためのソフト）が古い可能性があります
NVIDIAグラフィックカードを使っている場合：ドライバーを最新版に更新する
- https://www.nvidia.com/ja-jp/drivers/ を開く
- 「自動検出してダウンロード」ボタンをクリックして、案内に従う
Macを使っている場合（Apple Siliconチップ搭載）：
- Macは基本的に自動でGPU（Apple Neural Engineと呼ばれます）を使うので、特別な設定は不要です
- ただし、Ollamaが最新版であることを確認してください（対策1参照）
ダウンロードが途中で止まる場合（症状E）は：
- ターミナルで ollama pull gemma4:e4b を再実行する（途中から再開されます）
- それでも止まる場合は、Wi-Fiではなく有線LANに接続して試してみてください

対策4：LiteRT-LMでGemma 4を動かす（より高速に使いたい場合）

OllamaやLM Studioではなく、Googleが提供するLiteRT-LMというエンジンを使うと、より高速な処理が期待できます。コマンド操作に慣れてきた方向けの方法です。

LiteRT-LMのインストールページを確認する
- https://github.com/google-ai-edge/LiteRT-LM を開く
以下のコマンドでGemma 4 12BをHugging Face（モデルを配布するサイト）から取得する litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b
ローカルサーバー（自分のパソコン内にAIのサーバーを立てること）を起動する litert-lm serve
起動に成功すると、http://localhost:9379 にAIのサーバーが立ち上がります。
- このアドレスは、ChatGPTなどのAPIと同じ形式なので、対応ツールからそのまま使えます。

💡 「API（エーピーアイ）」とは？ プログラム同士が会話するための「共通言語」のことです。OpenAI（ChatGPTを作っている会社）と同じ形式なので、ChatGPTに対応したツールを、自分のパソコン上のGemma 4に向けて使えます。

公式のアップデートで直る？現在の対応状況

今回の問題は「あなたのせい」ではありません

新しいモデルや技術が公開されたばかりの時期には、対応ツールのバージョンが追いついていないことがあります。「ちゃんと手順どおりにやったのにエラーが出る」のは、ほとんどの場合、ツール側の更新が必要なだけです。落ち着いて、一つひとつ確認していきましょう。

現在の公式対応状況

項目	状況（2026年6月6日時点）
Gemma 4 QAT チェックポイント	公開済み（Hugging Face・Kaggle・Ollamaで配布中）
LiteRT-LM の Gemma 4 対応	公開済み・MTP（高速化機能）にも対応
Ollama での Gemma 4 対応	バージョン0.22以上で動作確認済み
LM Studio での Gemma 4 対応	最新版で対応（古いバージョンは要更新）
pg_durable	オープンソースとして公開済み（GitHub上で開発継続中）
Gemma 4 E2Bのモバイル版メモリ削減	QAT適用後は約1GBで動作可能