检索数据

本章节详细介绍了 HRAG 系统的所用到的检索公开数据集 ———— RAG-Challenge 数据集,包含问题及对应的公司报告。可用于研究示例问题、报告和系统输出。

文件内容

下载后的文件位置: src/resources/data, 本系统数据按照以下目录结构组织:

resources/
├── data/
│   ├── answers/
│   │   ├── answers_ollama_qwen_milvus.json
│   │   ├── answers_ollama_qwen_milvus_debug.json
│   │   └── ...
│   ├── databases/
│   │   ├── vector_dbs/               # faiss向量数据库
│   │   └── chunked_reports/          # 分chunk的报告
│   ├── debug_data/
│   │   ├── 01_parsed_reports/        # 解析后的报告
│   │   ├── 01_parsed_reports_debug/  # 解析调试数据
│   │   ├── 02_merged_reports/        # 合并后的报告
│   │   └── 03_reports_markdown/      # Markdown格式报告
│   ├── pdf_reports/
│   │   ├── XXX.pdf
│   │   └── ...
├── answers.json
├── questions.json
├── ranking.csv
├── subset.csv
└── subset.json
数据集文件说明

文件名

说明

是否必须

answers.json

问题正确答案

questions.json

竞赛问题集

subset.csv

测试文档元数据(CSV格式)

subset.json

测试文档元数据(JSON格式)

data/pdf_reports/

存放原始 PDF 文件

data/answers/

存放生成答案文件

data/databases/

存放分块文件与 faiss 向量数据库数据

data/debug_data/

存放 PDF 解析过程文件

运行系统

按照以下步骤在本数据集上运行系统:

  1. 原始 PDF 文件

  2. 相关必须文件

  3. 可选文件

    • databases (Google Drive下载)

    • debug_data (Google Drive下载)

      • 需要以下情况时使用:

        • 调试特定 Pipeline 阶段

        • 运行单独的预处理步骤

        • 研究系统中间输出