GADGET GUIDE

端末LLMとは？
ExecuTorchとLiteRT-LMでスマホ上AIを動かす仕組み

Q: 端末LLM（オンデバイスLLM）とは何ですか？

スマホやPCなどの端末上で、クラウドに接続せずにLLM（大規模言語モデル）を動かす技術です。データを外部に送らずに済むためプライバシーに優れ、オフラインでも動作し、通信遅延がない点がメリットです。

公開日 2026.05.21 ／テック比較ジャーナル編集部

ChatGPTもGeminiも、これまでAIの処理は「クラウド」で行われてきました。スマホは入力を送り、答えを受け取るだけの窓口です。しかし2025〜2026年、その常識が変わりつつあります。端末LLM（オンデバイスLLM）──スマホやPCの中だけでAIを動かす技術が、実用段階に入ってきたのです。本記事では、端末LLMとは何か、それを支える2大ランタイムExecuTorchとLiteRT-LMの違い、メリット・デメリット、向く用途を初心者向けに解説します。

広告（記事冒頭レスポンシブ）

端末LLMとは何か

端末LLM（オンデバイスLLM）とは、クラウドに接続せず、スマホやPCの中だけでLLMを動かす技術です。従来はAIへの質問を毎回サーバーに送り、処理結果を受け取っていました。端末LLMでは、その処理を手元の端末で完結させます。

これが可能になった背景には2つの進歩があります。1つは、スマホのチップにAI処理専用の回路（NPU）が搭載されるようになったこと。もう1つは、小さくても賢い「軽量モデル」が登場したことです。AppleのApple Intelligence、GoogleのGemini Nanoなどは、まさにこの端末LLMの代表例です。

端末LLMの3つのメリット

メリット	内容
プライバシー	データが端末外に出ないため、機密情報や個人情報を安全に扱える
オフライン動作	電波がない場所・機内モードでもAIが使える
低遅延・無料	通信往復がなく即応答。API利用料もかからない

特に「プライバシー」は大きな価値です。たとえば写真や日記、健康データをAIに分析させたいとき、それらをクラウドに送らずに済むなら安心感がまったく違います。

2大ランタイム：ExecuTorch と LiteRT-LM

端末LLMを動かすには「ランタイム」と呼ばれる実行基盤が必要です。代表的なのが、Meta系のExecuTorchとGoogle系のLiteRT-LMです。

項目	ExecuTorch	LiteRT-LM
開発元	Meta（PyTorch陣営）	Google（旧TensorFlow Lite系）
対応端末	iOS・Android・組込など幅広い	Android中心、Gemini Nanoと親和
得意なこと	PyTorchで学習したモデルの端末展開	Googleエコシステムでの統合
選ぶ目安	PyTorchベース・iOS対応も必要	Android・Gemini系を活用したい

ざっくり言えば、PyTorchで作ったモデルを幅広い端末に出すならExecuTorch、Android・Gemini中心ならLiteRT-LMという選び分けになります。

広告（記事中盤レスポンシブ）

端末にLLMを載せる大まかな流れ

開発者が端末LLMを実装する手順は、おおむね次のようになります。専門的ですが、流れを知っておくと全体像がつかめます。

軽量モデルを選ぶ：1B〜3B程度の小型モデル（Llama・Gemma・Phiなど）を用意
量子化する：モデルを圧縮し、端末のメモリに収まるサイズに（精度を保ちつつ軽量化）
変換する：ExecuTorchやLiteRT-LMの形式に変換
アプリに組み込む：iOS/Androidアプリにモデルとランタイムを同梱
端末で実行：NPU/GPUを使ってオフライン推論

デメリットと注意点

賢さの限界：端末のメモリ制約で、クラウドの巨大モデルほどの性能は出ない。複雑な推論はクラウド向き。
アプリサイズの増加：モデルファイルがアプリに同梱されるため、ダウンロードサイズが大きくなる。
バッテリー消費：長時間の推論は端末の電池を消費する。

そのため実務では「簡単な処理は端末、複雑な処理はクラウド」と使い分けるハイブリッド構成が現実的です。日常の要約・翻訳は端末で即座に、難しい分析はクラウドで、という役割分担です。

まとめ

端末LLMは、AIを「クラウドの向こう」から「手元の端末の中」へと引き寄せる技術です。プライバシー保護・オフライン動作・低遅延という、クラウドにはない強みがあり、Apple IntelligenceやGemini Nanoの普及で一気に身近になりました。それを支えるのがExecuTorch（Meta系）とLiteRT-LM（Google系）という2大ランタイムです。賢さではクラウドに譲るものの、用途を選べば非常に強力で、今後は「端末とクラウドの使い分け」が当たり前になっていくでしょう。スマホAIの裏側を理解したい人にとって、押さえておきたいキーワードです。

広告（記事末尾レスポンシブ）

よくある質問

端末LLM（オンデバイスLLM）とは何ですか？

スマホやPCなどの端末上で、クラウドに接続せずにLLMを動かす技術です。データを外部に送らずに済むためプライバシーに優れ、オフラインでも動作し、通信遅延がない点がメリットです。

ExecuTorchとLiteRT-LMの違いは？

ExecuTorchはMeta（PyTorch陣営）が開発する端末推論ランタイムで、iOS・Androidなど幅広い端末に対応します。LiteRT-LMはGoogleの端末向け推論基盤で、Android・Gemini Nanoとの親和性が高いのが特徴です。

端末LLMのデメリットは何ですか？

端末の性能やメモリの制約で、クラウドの大規模モデルほど賢くないことが多い点です。また、モデルファイルがアプリサイズを増やし、長時間の推論はバッテリーを消費します。軽量モデルとの組み合わせが前提になります。

← JOURNALに戻る｜ガジェット一覧を見る →

編

テック比較ジャーナル編集部

元SaaS PM・ITコンサル出身者を中心に、AI/SaaS/ガジェットを実務目線で検証しています。

独自検証済 / 公開 2026.05.21