检索数据
本章节详细介绍了 HRAG 系统的所用到的检索公开数据集 ———— RAG-Challenge 数据集,包含问题及对应的公司报告。可用于研究示例问题、报告和系统输出。
文件内容
下载后的文件位置: src/resources/data,
本系统数据按照以下目录结构组织:
resources/
├── data/
│ ├── answers/
│ │ ├── answers_ollama_qwen_milvus.json
│ │ ├── answers_ollama_qwen_milvus_debug.json
│ │ └── ...
│ ├── databases/
│ │ ├── vector_dbs/ # faiss向量数据库
│ │ └── chunked_reports/ # 分chunk的报告
│ ├── debug_data/
│ │ ├── 01_parsed_reports/ # 解析后的报告
│ │ ├── 01_parsed_reports_debug/ # 解析调试数据
│ │ ├── 02_merged_reports/ # 合并后的报告
│ │ └── 03_reports_markdown/ # Markdown格式报告
│ ├── pdf_reports/
│ │ ├── XXX.pdf
│ │ └── ...
├── answers.json
├── questions.json
├── ranking.csv
├── subset.csv
└── subset.json
文件名 |
说明 |
是否必须 |
|---|---|---|
answers.json |
问题正确答案 |
是 |
questions.json |
竞赛问题集 |
是 |
subset.csv |
测试文档元数据(CSV格式) |
是 |
subset.json |
测试文档元数据(JSON格式) |
是 |
data/pdf_reports/ |
存放原始 PDF 文件 |
是 |
data/answers/ |
存放生成答案文件 |
否 |
data/databases/ |
存放分块文件与 faiss 向量数据库数据 |
否 |
data/debug_data/ |
存放 PDF 解析过程文件 |
否 |
运行系统
按照以下步骤在本数据集上运行系统:
原始 PDF 文件
pdf_reports(Google Drive下载)
相关必须文件
可选文件
databases(Google Drive下载)debug_data(Google Drive下载)需要以下情况时使用:
调试特定 Pipeline 阶段
运行单独的预处理步骤
研究系统中间输出