RAG 评估指标（部分）

这份文稿详细讲解了评估 AI RAG（检索增强生成）系统的五个核心指标，主要将评估分为了检索阶段和响应（生成）阶段。

以下是全文的核心内容总结：

在这个阶段，主要评估检索器找出的“上下文”质量，核心看三个指标：

1. 上下文相关性 (Context Relevance)
- 比较对象：检索出的上下文 vs 用户输入的问题。
- 核心含义：看检索出来的文档片段，跟用户提的问题到底沾不沾边。
- 特点：它只是一个基础指标，单纯通过特定算法打分看两者是否相关，相对而言不如“精度”和“召回率”重要。
2. 上下文精度 (Context Precision)
- 比较对象：检索出的上下文 vs 参考答案。
- 核心含义：看检索得**“准不准”**（命中率）。
- 特点：不仅评估检索到的内容中包含了多少参考答案的相关信息，还要看这些相关信息是否排在靠前的位置。排名越靠前、越准确，精度得分越高。
3. 上下文召回率 (Context Recall)
- 比较对象：检索出的上下文 vs 参考答案。
- 核心含义：看检索得**“全不全”**。
- 特点：看参考答案中包含的“全部关键信息（知识点）”，有多少被成功检索到了。如果你只检索到了部分关键信息，漏掉了其他的，召回率就会偏低。

在这个阶段，主要评估大模型基于检索内容生成的“最终答案”质量，核心看两个指标：

4. 忠实度 (Faithfulness)
- 比较对象：生成的答案 vs 检索出的上下文。
- 核心含义：看大模型**“有没有胡编乱造（幻觉）”**。
- 特点：大模型的回答必须老老实实基于提供的上下文。如果上下文里只有 A 和 B，大模型为了凑字数自己编造了 C 和 D，这种行为就会导致忠实度得分极低。
5. 答案相关性 (Answer Relevance)
- 比较对象：生成的答案 vs 用户输入的问题。
- 核心含义：看大模型**“有没有答非所问”**。
- 特点：只关注答案是不是在针对性地回应用户的问题，而不考虑答案在客观事实上是否绝对正确。只要它正面回答了问题（没扯东扯西），相关性就高。

一句话核心提炼： RAG 评估就是看它找资料时找得沾不沾边（上下文相关性）、准不准（精度）、全不全（召回率）；并且在回答时看它老不老实（忠实度）以及有没有答非所问（答案相关性）。