RAG召回优化-V2

// 1. 维护单一素材库索引
素材库 = 创建向量索引(所有段落)  // 完整格式: "标题\n大纲\n正文"

// 2. 检索实现
function 查询(用户输入):
    初步结果 = 素材库.检索(用户输入, top_k=10)  // 多取一些用于重排

    // 计算干扰率
    for 结果 in 初步结果:
        标题, 大纲, 正文 = 分离组成部分(结果.文本)
        干扰率 = 计算干扰率(标题 + 大纲, 正文, 用户输入)
        结果.干扰率 = 干扰率

    干扰率阈值 = 1.3
    for 结果 in 初步结果:
        if 结果.干扰率 > 干扰率阈值:
            结果.调整后分数 = 结果.原始分数 / 结果.干扰率
        else:
            结果.调整后分数 = 结果.原始分数

    排序后结果 = 按(调整后分数)排序(初步结果)
    return 排序后结果.top(5)

***

结果	原始分数	说明
分段4	0.88	与“任职资格”直接相关
分段3	0.84	任职条件相关
分段2	0.76	总则部分

{
  "searchWord": "人工智能技术\n二、人工智能的发展历程",
  "interference": 1.01
}

{
  "success": true,
  "data": [
    {
      "标题+大纲+正文": [{ "score": 0.8789253, "id": "2149793922940857", "content": "..." }],
      "正文": [{ "score": 0.866995, "id": "21497939229408532", "content": "..." }],
      "计算干扰值": [{ "interferenceRatio": 1.0090, "fullContentScore": 0.87149847 }],
      "最后取5个": [{ "score": 0.86370814, "id": "21497939229408515" }]
    }
  ]
}

获取所有子分段
父分段集合 = []
已合并IDs = set()
阈值 = 200
for i in range(len(子分段)):
  p = 子分段[i]
  if p.字数 < 阈值:
    group = [p]
    j = i + 1
    while j < len(子分段) and 主题相关(p, 子分段[j]) and 子分段[j].字数 < 阈值:
      group.append(子分段[j]); j += 1
    if len(group) > 1:
      父文本 = 合并(group)  // 仅首段保留标题+大纲
      父分段集合.add(父文本)
      标记已合并
      i = j - 1

检索索引用: 父分段 + 未合并子分段

检索向量集 = { 分段1..6, 父分段A, 分段9 }
父子映射 = { 父分段A: [分段7, 分段8] }

方案	改动范围	实施周期	优点	风险/成本
方案一	检索后置重排	短	快速上线，侵入低	阈值调优依赖实验
方案二	检索流程动态重组	中	兼顾完整性与实时性	运行期额外计算
方案三	新增层次索引	中偏长	多粒度检索灵活	维护双索引复杂度
方案四	数据重入库	长	基础质量最高	改造面大，上线成本高

Zang Blog

RAG召回优化-V2

这篇文章受密码保护

方案一（召回后置处理）：干扰率处理方案

1. 核心思想

2. 实现流程

2.1 伪代码

2.2 干扰率计算示例

3. 具体案例

3.1 初步检索结果（示例）

3.2 干扰率计算（示例）

3.3 分数调整

3.4 排序

4. 接口测试

方案二（召回后置处理）：素材检索重组

1. 核心思想

2. 实现流程

2.1 描述

3. 示例

方案三（数据重新入库）：父子分段层次化索引

1. 核心思想

2. 实现流程

2.1 伪代码（节选）

3. 合并文本策略

4. 案例（节选）

方案四（数据重新入库）：切换分段合并逻辑

1. 核心思想

2. 实施步骤

四种方案对比（简述）

参数与实践建议

后续迭代方向