公開日 2026.05.21 / テック比較ジャーナル編集部
AIアプリを改善するとき、「プロンプトを変えたら本当に良くなったのか?」を感覚で判断していませんか? 通常のソフトウェアにはテストがあるように、LLMアプリにも品質を定量的に測る仕組みが必要です。それを実現するのがDeepEval──「LLM版のpytest」とも呼ばれるオープンソースの評価フレームワークです。50を超える研究ベースの指標を備え、2026年時点で最も注目される評価ツールの一つです。本記事では、DeepEvalの基本、指標の種類、テストの書き方、RAG評価への応用までを初心者向けに解説します。
DeepEvalは、LLMアプリの出力品質を定量的に評価するテストフレームワークです。最大の特徴は、Pythonのテストツール「pytest」とそっくりな書き味であること。普段ソフトウェアテストを書く感覚で、「この回答は正確か」「文脈に忠実か」をコードでテストできます。
これにより、AIの品質を「なんとなく良くなった気がする」ではなく、数値とテスト結果で管理できます。さらにCI/CD(自動テスト・デプロイの仕組み)に組み込めば、プロンプトやモデルを変えるたびに品質が落ちていないかを自動でチェックできます。
DeepEvalは50を超える指標を持ちますが、まず押さえるべき代表的なものは次の通りです。
| 指標 | 何を測るか |
|---|---|
| Answer Relevancy | 回答が質問に的確に答えているか |
| Faithfulness | 回答が参照情報に忠実か(捏造していないか) |
| Hallucination | 事実に反する作文をしていないか |
| Contextual Precision | 検索した文脈のうち有用な割合(RAG向け) |
| Contextual Recall | 必要な文脈を取りこぼしていないか(RAG向け) |
| Toxicity / Bias | 有害・偏った表現が含まれていないか |
実際のコードはとてもシンプルです。「入力・出力・期待値」を用意し、指標を指定してアサート(検証)するだけです。
from deepeval import assert_test
from deepeval.test_case import LLMTestCase
from deepeval.metrics import AnswerRelevancyMetric
# 評価したいやり取りを定義
test_case = LLMTestCase(
input="返品はできますか?",
actual_output="はい、購入後30日以内なら返品可能です。",
)
# 「回答関連性」を0.7以上で合格とする
metric = AnswerRelevancyMetric(threshold=0.7)
# テスト実行(pytest と一緒に動かせる)
assert_test(test_case, [metric])
これを deepeval test run で実行すれば、合否とスコア、さらに「なぜその点数なのか」の理由まで出力されます。複数のテストケースをまとめて回せば、回答品質を一覧で把握できます。
既存の指標で測れない品質もあります。たとえば「回答が丁寧か」「専門用語を避けてわかりやすく説明しているか」など。こうした独自基準を自然言語で書くだけでカスタム指標にできるのがG-Evalです。
from deepeval.metrics import GEval
from deepeval.test_case import LLMTestCaseParams
politeness = GEval(
name="丁寧さ",
criteria="回答が丁寧で、専門用語を避け、初心者にも分かりやすいか",
evaluation_params=[LLMTestCaseParams.ACTUAL_OUTPUT],
)
これで「丁寧さ」という独自の観点でLLMが採点してくれます。自社サービスの「らしさ」を評価軸にできるのが強力です。
DeepEvalは、これまで感覚に頼りがちだったLLMアプリの品質管理を、「テスト」という開発者になじみ深い形に落とし込んだフレームワークです。50超の研究ベース指標で多角的に評価でき、G-Evalを使えば自社独自の品質基準も自然言語で定義できます。pytest風の書き味でCI/CDにも組み込みやすく、AIの品質を「数値で語れる」ようになるのが最大の価値です。まずは pip install deepeval で導入し、自分のアプリの代表的なやり取りを数件テストにしてみることから始めるとよいでしょう。
LLMアプリの出力品質を定量的に評価するオープンソースのテストフレームワークです。pytestのような書き味で、回答の正確性・関連性・忠実性などを50超の指標で自動採点でき、CI/CDに組み込んでAIの品質を継続監視できます。
自然言語で評価基準を書くだけでカスタム指標を作れる機能です。「回答が丁寧で専門用語を避けているか」のような独自基準を文章で定義すると、LLMがその観点で採点します。既存指標で測れない品質を評価したいときに便利です。
使えます。Faithfulness(忠実性)、Answer Relevancy(回答関連性)、Contextual Precision/Recall(文脈の精度・再現率)など、RAG専用の指標が用意されており、検索精度と回答品質の両方を測定できます。