检索数据

本章节详细介绍了 HRAG 系统的所用到的检索公开数据集 ———— RAG-Challenge 数据集,包含问题及对应的公司报告。可用于研究示例问题、报告和系统输出。

文件内容

下载后的文件位置： src/resources/data，本系统数据按照以下目录结构组织：

resources/
├── data/
│   ├── answers/
│   │   ├── answers_ollama_qwen_milvus.json
│   │   ├── answers_ollama_qwen_milvus_debug.json
│   │   └── ...
│   ├── databases/
│   │   ├── vector_dbs/               # faiss向量数据库
│   │   └── chunked_reports/          # 分chunk的报告
│   ├── debug_data/
│   │   ├── 01_parsed_reports/        # 解析后的报告
│   │   ├── 01_parsed_reports_debug/  # 解析调试数据
│   │   ├── 02_merged_reports/        # 合并后的报告
│   │   └── 03_reports_markdown/      # Markdown格式报告
│   ├── pdf_reports/
│   │   ├── XXX.pdf
│   │   └── ...
├── answers.json
├── questions.json
├── ranking.csv
├── subset.csv
└── subset.json

数据集文件说明
文件名	说明	是否必须
answers.json	问题正确答案	是
questions.json	竞赛问题集	是
subset.csv	测试文档元数据（CSV格式）	是
subset.json	测试文档元数据（JSON格式）	是
data/pdf_reports/	存放原始 PDF 文件	是
data/answers/	存放生成答案文件	否
data/databases/	存放分块文件与 faiss 向量数据库数据	否
data/debug_data/	存放 PDF 解析过程文件	否

运行系统

按照以下步骤在本数据集上运行系统：

原始 PDF 文件
- pdf_reports (Google Drive下载)
相关必须文件
- answers.json (GitHub)
- questions.json (GitHub)
- subset.json (GitHub)
- subset.csv (GitHub)
可选文件
- databases (Google Drive下载)
- debug_data (Google Drive下载)
  - 需要以下情况时使用：
    - 调试特定 Pipeline 阶段
    - 运行单独的预处理步骤
    - 研究系统中间输出