公開日 2026.05.21 / テック比較ジャーナル編集部
ChatGPTもGeminiも、これまでAIの処理は「クラウド」で行われてきました。スマホは入力を送り、答えを受け取るだけの窓口です。しかし2025〜2026年、その常識が変わりつつあります。端末LLM(オンデバイスLLM)──スマホやPCの中だけでAIを動かす技術が、実用段階に入ってきたのです。本記事では、端末LLMとは何か、それを支える2大ランタイムExecuTorchとLiteRT-LMの違い、メリット・デメリット、向く用途を初心者向けに解説します。
端末LLM(オンデバイスLLM)とは、クラウドに接続せず、スマホやPCの中だけでLLMを動かす技術です。従来はAIへの質問を毎回サーバーに送り、処理結果を受け取っていました。端末LLMでは、その処理を手元の端末で完結させます。
これが可能になった背景には2つの進歩があります。1つは、スマホのチップにAI処理専用の回路(NPU)が搭載されるようになったこと。もう1つは、小さくても賢い「軽量モデル」が登場したことです。AppleのApple Intelligence、GoogleのGemini Nanoなどは、まさにこの端末LLMの代表例です。
| メリット | 内容 |
|---|---|
| プライバシー | データが端末外に出ないため、機密情報や個人情報を安全に扱える |
| オフライン動作 | 電波がない場所・機内モードでもAIが使える |
| 低遅延・無料 | 通信往復がなく即応答。API利用料もかからない |
特に「プライバシー」は大きな価値です。たとえば写真や日記、健康データをAIに分析させたいとき、それらをクラウドに送らずに済むなら安心感がまったく違います。
端末LLMを動かすには「ランタイム」と呼ばれる実行基盤が必要です。代表的なのが、Meta系のExecuTorchとGoogle系のLiteRT-LMです。
| 項目 | ExecuTorch | LiteRT-LM |
|---|---|---|
| 開発元 | Meta(PyTorch陣営) | Google(旧TensorFlow Lite系) |
| 対応端末 | iOS・Android・組込など幅広い | Android中心、Gemini Nanoと親和 |
| 得意なこと | PyTorchで学習したモデルの端末展開 | Googleエコシステムでの統合 |
| 選ぶ目安 | PyTorchベース・iOS対応も必要 | Android・Gemini系を活用したい |
ざっくり言えば、PyTorchで作ったモデルを幅広い端末に出すならExecuTorch、Android・Gemini中心ならLiteRT-LMという選び分けになります。
開発者が端末LLMを実装する手順は、おおむね次のようになります。専門的ですが、流れを知っておくと全体像がつかめます。
そのため実務では「簡単な処理は端末、複雑な処理はクラウド」と使い分けるハイブリッド構成が現実的です。日常の要約・翻訳は端末で即座に、難しい分析はクラウドで、という役割分担です。
端末LLMは、AIを「クラウドの向こう」から「手元の端末の中」へと引き寄せる技術です。プライバシー保護・オフライン動作・低遅延という、クラウドにはない強みがあり、Apple IntelligenceやGemini Nanoの普及で一気に身近になりました。それを支えるのがExecuTorch(Meta系)とLiteRT-LM(Google系)という2大ランタイムです。賢さではクラウドに譲るものの、用途を選べば非常に強力で、今後は「端末とクラウドの使い分け」が当たり前になっていくでしょう。スマホAIの裏側を理解したい人にとって、押さえておきたいキーワードです。
スマホやPCなどの端末上で、クラウドに接続せずにLLMを動かす技術です。データを外部に送らずに済むためプライバシーに優れ、オフラインでも動作し、通信遅延がない点がメリットです。
ExecuTorchはMeta(PyTorch陣営)が開発する端末推論ランタイムで、iOS・Androidなど幅広い端末に対応します。LiteRT-LMはGoogleの端末向け推論基盤で、Android・Gemini Nanoとの親和性が高いのが特徴です。
端末の性能やメモリの制約で、クラウドの大規模モデルほど賢くないことが多い点です。また、モデルファイルがアプリサイズを増やし、長時間の推論はバッテリーを消費します。軽量モデルとの組み合わせが前提になります。