RAG 评估指标(部分)

🔒 You must be logged in as an Administrator or Editor to listen to this audio.

这份文稿详细讲解了评估 AI RAG(检索增强生成)系统的五个核心指标,主要将评估分为了检索阶段响应(生成)阶段

以下是全文的核心内容总结:

一、 检索阶段评估指标(关注检索的内容好不好)

在这个阶段,主要评估检索器找出的“上下文”质量,核心看三个指标:

  • 1. 上下文相关性 (Context Relevance)
    • 比较对象:检索出的上下文 vs 用户输入的问题。
    • 核心含义:看检索出来的文档片段,跟用户提的问题到底沾不沾边。
    • 特点:它只是一个基础指标,单纯通过特定算法打分看两者是否相关,相对而言不如“精度”和“召回率”重要。
  • 2. 上下文精度 (Context Precision)
    • 比较对象:检索出的上下文 vs 参考答案。
    • 核心含义:看检索得**“准不准”**(命中率)。
    • 特点:不仅评估检索到的内容中包含了多少参考答案的相关信息,还要看这些相关信息是否排在靠前的位置。排名越靠前、越准确,精度得分越高。
  • 3. 上下文召回率 (Context Recall)
    • 比较对象:检索出的上下文 vs 参考答案。
    • 核心含义:看检索得**“全不全”**。
    • 特点:看参考答案中包含的“全部关键信息(知识点)”,有多少被成功检索到了。如果你只检索到了部分关键信息,漏掉了其他的,召回率就会偏低。

二、 响应/生成阶段评估指标(关注大模型回答得好不好)

在这个阶段,主要评估大模型基于检索内容生成的“最终答案”质量,核心看两个指标:

  • 4. 忠实度 (Faithfulness)
    • 比较对象:生成的答案 vs 检索出的上下文。
    • 核心含义:看大模型**“有没有胡编乱造(幻觉)”**。
    • 特点:大模型的回答必须老老实实基于提供的上下文。如果上下文里只有 A 和 B,大模型为了凑字数自己编造了 C 和 D,这种行为就会导致忠实度得分极低。
  • 5. 答案相关性 (Answer Relevance)
    • 比较对象:生成的答案 vs 用户输入的问题。
    • 核心含义:看大模型**“有没有答非所问”**。
    • 特点:只关注答案是不是在针对性地回应用户的问题,而不考虑答案在客观事实上是否绝对正确。只要它正面回答了问题(没扯东扯西),相关性就高。

一句话核心提炼: RAG 评估就是看它找资料时找得沾不沾边(上下文相关性)准不准(精度)全不全(召回率);并且在回答时看它老不老实(忠实度)以及有没有答非所问(答案相关性)