「自分のパソコンでAIを動かしてみたい!」と思って試してみたら、「エラーが出て起動しない」「読み込みが止まってしまう」「動いても処理がとにかく遅い」……そんな状況で途方に暮れていませんか?
大丈夫ですよ。あなただけが困っているわけではありません。
2026年6月5日、Googleが「Gemma 4 QAT(ジェンマ4 キュービーエーティー)」という新しいAIモデルを公開しました。これは「自分のパソコンやスマートフォンだけでAIを動かす」ための画期的な技術ですが、リリース直後ということもあって、設定方法や対応ツールのバージョンなど、ちょっとした落とし穴がたくさんあります。
さらに、Microsoftも同時期に「pg_durable(ピージー・デュラブル)」という、AIが行う複雑な作業を安定して続けるための仕組みをオープンソース(誰でも無料で使えるソフトウェア)として公開しました。
この記事では、
- 何が新しく公開されたのか(やさしい言葉で整理)
- よくあるトラブルの原因と対処法(手順どおりにやれば大丈夫)
- 公式の対応状況と今後の見通し
をわかりやすくお伝えします。一緒に落ち着いて確認していきましょう。
今起きている不具合・エラーの具体的な内容
まず「Gemma 4 QAT」って何?を3分で理解する
難しそうな名前ですが、要点は3つだけです。
① AI が「自分のパソコン」で動く時代になった
これまでの高度なAI(人工知能)は、インターネットの向こうにある「クラウド」(巨大なコンピューターの集まり)を使っていました。でも今回公開されたGemma 4 QATは、あなたのパソコンやスマートフォンの中だけで動く軽量版です。
② QAT(量子化)とは「AI を軽くする」技術
「量子化」とは、AI の頭脳(モデル)のデータを圧縮して、小さくする技術です。普通に圧縮すると賢さが落ちてしまいますが、QAT(Quantization-Aware Training=量子化を考慮した学習)は、最初から「圧縮することを前提にして学習させる」方法です。その結果、精度をほぼ保ちながら、メモリ使用量を約40〜50%削減することができます。
③ LiteRT-LM(ライトアールティー・エルエム)は「動かすためのエンジン」
車に例えると、Gemma 4 QAT が「エンジン」、LiteRT-LM が「車体やタイヤ」です。Googleが開発したこの実行エンジンを使うことで、Gemma 4 E4Bモデルでは推論速度が最大2.2倍に高速化されます。
「pg_durable」って何?なぜ重要なの?
こちらはMicrosoftがオープンソースで公開した、「AIが長い作業をする途中でパソコンがクラッシュ(強制終了)しても、作業をゼロからやり直さなくて済む仕組み」です。
身近な例で言うと、長文のレポートを書いている最中にパソコンが落ちても、「自動保存」があれば続きから再開できますよね。pg_durable は、AIエージェント(自動で作業するAI)の「自動保存」機能をデータベース(情報の保管庫)の中に組み込んだものです。
PostgreSQL(ポストグレスキューエル)という、広く使われているデータベースソフトにそのまま追加して使えるため、難しい追加設備が必要ありません。
よくある「困った」症状チェックリスト
- 症状A: Ollamaや LM Studio でGemma 4を読み込もうとすると
unknown model architecture: 'gemma4'というエラーが出る - 症状B: モデルを起動したら
OOM(Out of Memory)エラーが出てクラッシュする(「メモリ不足」という意味) - 症状C: AIの応答がとても遅い(GPU=グラフィックカードが使われていない状態)
- 症状D:
Error: 500 Internal Server Error: unable to load modelと表示される - 症状E: ダウンロードが途中で止まる・接続が切れる
- 症状F: pg_durable のインストール時にバージョンエラーが出る
今すぐ試せる!具体的な対策と手順
対策1:まず「ツールを最新バージョンに更新する」(必ず最初にやること)
Gemma 4のアーキテクチャ(設計の構造)は比較的新しいため、古いバージョンのOllamaやLM Studioでは「モデルの形式を認識できない」エラーが起きます。 これが症状Aや症状Dの最も多い原因です。
Ollamaを使っている場合
- 現在のバージョンを確認する
- ターミナル(黒い画面)を開いて、以下を入力してEnterを押す
ollama --version- 表示されたバージョンが
0.22より古ければ更新が必要です
- Windowsの場合:更新する
- ブラウザで
https://ollama.com/downloadを開く - 「Windows」ボタンをクリックしてインストーラーをダウンロード
- ダウンロードしたファイルをダブルクリックして「上書きインストール」する
- ブラウザで
- Macの場合:更新する
- ブラウザで
https://ollama.com/downloadを開く - 「macOS」ボタンをクリックしてダウンロード
- ダウンロードしたファイルを開いて、Applicationsフォルダにドラッグ
- ブラウザで
- Linuxの場合:ターミナルで以下のコマンドを実行する
curl -fsSL https://ollama.com/install.sh | sh - 更新後、ターミナルで再度バージョンを確認して
0.22以上になっていればOKです
LM Studioを使っている場合
- LM Studioを起動する
- 左下にある「⚙ 設定(Settings)」を開く
- 「アップデートを確認(Check for Updates)」をクリックする
- 新しいバージョンが見つかったら「今すぐ更新(Update Now)」を押す
- 再起動して、再度Gemma 4を読み込んでみる
対策2:「メモリ不足エラー(OOM)」を解消する
パソコンのメモリ(データを一時的に置く場所)が足りないと、モデルを読み込もうとした瞬間にクラッシュします。これが症状Bの原因です。
ステップ1:自分のパソコンに合ったモデルサイズを選ぶ
Gemma 4には複数のサイズがあります。パソコンのメモリ量に合わせて選んでください。
| モデル名 | 必要なメモリの目安 | こんな人向け |
|---|---|---|
| Gemma 4 E2B (QAT) | 約1GB(モバイル版) | スマートフォンや低スペックPC |
| Gemma 4 E4B (QAT) | 約4〜6GB | メモリ16GBの一般的なノートPC |
| Gemma 4 12B | 約8〜10GB | メモリ16GB以上のPC |
| Gemma 4 26B | 約14GB以上 | グラフィックカード付きの高性能PC |
💡 自分のパソコンのメモリを確認する方法
- Windowsの場合:「スタートボタン」を右クリック→「システム」→「実装RAM」の数字を確認
- Macの場合:画面左上のリンゴマーク→「このMacについて」→「メモリ」の数字を確認
ステップ2:小さいモデルに切り替える
- ターミナルを開いて、以下のコマンドでE4B(小さいサイズ)をダウンロードする
ollama pull gemma4:e4b - ダウンロードが終わったら、以下で起動する
ollama run gemma4:e4b
ステップ3:他のアプリを閉じてメモリを空ける
- ブラウザ(ChromeやFirefoxなど)のタブをできるだけ閉じる
- 使っていないアプリをすべて終了する
- パソコンを再起動してからもう一度試す
対策3:AIの処理が遅い場合(GPU が使われていない状態)
AIの処理が遅い場合、グラフィックカード(GPU)ではなく、CPUという通常の計算チップで動いている可能性があります。これが症状Cの原因です。
- ターミナルで以下のコマンドを実行して、GPU が使われているか確認する
ollama ps- 表示された結果の中に
GPUの文字があればOKです CPUしか表示されていない場合は、ドライバー(GPU を動かすためのソフト)が古い可能性があります
- 表示された結果の中に
- NVIDIAグラフィックカードを使っている場合:ドライバーを最新版に更新する
https://www.nvidia.com/ja-jp/drivers/を開く- 「自動検出してダウンロード」ボタンをクリックして、案内に従う
- Macを使っている場合(Apple Siliconチップ搭載):
- Macは基本的に自動でGPU(Apple Neural Engineと呼ばれます)を使うので、特別な設定は不要です
- ただし、Ollamaが最新版であることを確認してください(対策1参照)
- ダウンロードが途中で止まる場合(症状E)は:
- ターミナルで
ollama pull gemma4:e4bを再実行する(途中から再開されます) - それでも止まる場合は、Wi-Fiではなく有線LANに接続して試してみてください
- ターミナルで
対策4:LiteRT-LMでGemma 4を動かす(より高速に使いたい場合)
OllamaやLM Studioではなく、Googleが提供するLiteRT-LMというエンジンを使うと、より高速な処理が期待できます。コマンド操作に慣れてきた方向けの方法です。
- LiteRT-LMのインストールページを確認する
https://github.com/google-ai-edge/LiteRT-LMを開く
- 以下のコマンドでGemma 4 12BをHugging Face(モデルを配布するサイト)から取得する
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b - ローカルサーバー(自分のパソコン内にAIのサーバーを立てること)を起動する
litert-lm serve - 起動に成功すると、
http://localhost:9379にAIのサーバーが立ち上がります。- このアドレスは、ChatGPTなどのAPIと同じ形式なので、対応ツールからそのまま使えます。
💡 「API(エーピーアイ)」とは? プログラム同士が会話するための「共通言語」のことです。OpenAI(ChatGPTを作っている会社)と同じ形式なので、ChatGPTに対応したツールを、自分のパソコン上のGemma 4に向けて使えます。
公式のアップデートで直る?現在の対応状況
今回の問題は「あなたのせい」ではありません
新しいモデルや技術が公開されたばかりの時期には、対応ツールのバージョンが追いついていないことがあります。「ちゃんと手順どおりにやったのにエラーが出る」のは、ほとんどの場合、ツール側の更新が必要なだけです。落ち着いて、一つひとつ確認していきましょう。
現在の公式対応状況
| 項目 | 状況(2026年6月6日時点) |
|---|---|
| Gemma 4 QAT チェックポイント | 公開済み(Hugging Face・Kaggle・Ollamaで配布中) |
| LiteRT-LM の Gemma 4 対応 | 公開済み・MTP(高速化機能)にも対応 |
| Ollama での Gemma 4 対応 | バージョン0.22以上で動作確認済み |
| LM Studio での Gemma 4 対応 | 最新版で対応(古いバージョンは要更新) |
| pg_durable | オープンソースとして公開済み(GitHub上で開発継続中) |
| Gemma 4 E2Bのモバイル版メモリ削減 | QAT適用後は約1GBで動作可能 |
今後に期待できる改善
Gemma 4 QATはリリースされたばかりのため、以下の改善が順次行われる見込みです。
- 対応ツールのさらなる安定化(OllamaやLM Studioの細かいバグ修正)
- Windows向けNPU(ノートPCに搭載された専用AIチップ)対応の強化
- pg_durable の機能拡張(現在も活発に開発が続いています)
まとめ
「Gemma 4 QAT」は、これまで高性能なサーバーが必要だったAI処理を、自分のパソコン1台で完結させるための画期的な技術です。「pg_durable」は、そのAIが長時間・複雑な作業をする際に、途中で止まってもゼロからやり直さなくて済む「安全ネット」を提供します。
どちらも登場したばかりの技術なので、最初は戸惑うこともあると思います。でも、焦らず一つひとつ確認していけば、必ず動くようになります。
対策のおさらい
- まずOllamaやLM Studioを最新バージョンに更新する(
unknown model architectureエラーの解消) - パソコンのメモリに合ったモデルサイズを選ぶ(OOMエラーの解消)
- 他のアプリを閉じてメモリを空けてから再試行する
- 処理が遅い場合はGPUドライバーを最新版にする
- 高速化を求めるならLiteRT-LMを試す
最新情報をチェックするには
- Googleの公式ブログ(Gemma情報):
https://blog.google/technology/developers/ - LiteRT-LM 公式GitHub:
https://github.com/google-ai-edge/LiteRT-LM - Gemma公式X(旧Twitter):@GoogleDeepMind
- Ollama公式GitHub(バグ情報・更新履歴):
https://github.com/ollama/ollama/releases - pg_durable 公式GitHub:
https://github.com/microsoft/pg_durable - ローカルAI活用コミュニティ(英語):Reddit
r/LocalLLaMA(世界中のユーザーが情報共有しています)
新しい技術は最初が一番難しいものです。この記事を参考に、ぜひ自分だけのローカルAI環境を育ててみてください。応援しています!
