强化学习在组合优化问题中的综合基准数据集
专为推进强化学习算法在经典NP-Hard问题中的应用而设计的专业基准数据集
本仓库提供了一套全面的标准化、高质量基准数据集,专门用于评估强化学习算法在经典组合优化问题上的性能。我们的基准测试套件专注于三个基本的NP-Hard问题,这些问题是算法创新的关键测试平台:
- 🔄 图划分 - 在保持平衡约束的同时最小化切割边
- 🎨 图着色 - 最小化色数同时避免相邻冲突
- 🔢 数值划分 - 平衡子集分配以最小化最大完成时间
这些数据集经过精心策划,来自多个权威来源,处理成统一格式,并为机器学习工作流程进行了优化,为研究和评估下一代强化学习算法提供了重要工具。
- 统一格式标准:所有数据集转换为符合RLSolver竞赛规范的一致文本格式
- 可扩展规模分类:系统性分类(tiny/small/medium/large/xlarge),便于渐进式算法开发
- 高压缩比:平均88.9%的压缩效率,同时保持数据完整性
- 丰富元数据基础:全面的问题规范、来源证明和难度标注
- 自动数据加载:具有格式检测和预处理能力的智能加载器
- LFS集成:Git大文件存储支持,高效版本控制大型数据集
- 批处理支持:为训练管道优化,支持并行加载
- 跨平台兼容性:Python 3.8+支持,依赖最少
- 多个权威来源:来自DIMACS挑战赛、学术基准和真实世界网络的数据集
- 平衡问题分布:精心选择跨越难度谱和结构特征的问题
- 可重现结果:确定性加载和处理确保实验一致性
CO-Benchmark-Datasets/
├── processed/ # 处理后的数据集
│ ├── graph_partitioning/ # 图划分数据
│ ├── graph_coloring/ # 图着色数据
│ └── number_partitioning/ # 数值划分数据
├── scripts/ # 数据处理脚本
│ ├── unified_loader.py # 统一数据加载器(推荐使用)
│ ├── compress_datasets_parallel.py # 并行压缩脚本
│ └── example_usage.py # 使用示例脚本
└── README.md # 项目说明文档
from scripts.unified_loader import load_graph_txt, load_npp_txt, load_instance
# 加载图数据(自动处理索引转换、去重和去自环)
graph = load_graph_txt('processed/graph_partitioning/compressed/tiny/dolphins.txt.xz')
# 加载数值划分数据
numbers = load_npp_txt('processed/number_partitioning/compressed/small/n025d12e00.txt.xz')
# 自动识别并加载任何类型的数据集
instance = load_instance('processed/graph_coloring/compressed/tiny/DSJC125.1.col.txt.xz')# 使用统一加载器加载并显示数据信息
python3 scripts/unified_loader.py processed/graph_partitioning/compressed/tiny/dolphins.txt.xz --verbose
# 运行完整的使用示例
python3 scripts/example_usage.py| 问题类型 | 数据集数量 | 压缩比 | 规模分类 |
|---|---|---|---|
| 图划分 | 69 | 98.4% | tiny/small/medium/large/xlarge |
| 图着色 | 79 | 82.9% | tiny/small |
| 数值划分 | 300 | 83.3% | tiny/small/medium/large |
- GNN-A2C 多级优化方法 (JMLR 2022)
- Revolver (IEEE CLOUD 2018)
- NeuroCUT (2023)
- PR-GPT (2024)
- ReLCol (2023)
- LOMAC (ICLR 2024)
- GNN + DQN (2019)
- MCTS + DRL (2025)
- Neural CO with RL (2017)
- RL for CO Survey (2020)
- RL for NP-hard (2019)
- DIMACS10 图集 - 第十届DIMACS实施挑战赛官方数据集
- HypergraphPartitioning - VLSI芯片设计领域基准
- 开放图基准 (OGB) - 现代化大规模图数据集
- SuiteSparse - 科学计算稀疏矩阵结构图
- SNAP 数据集 - 真实世界网络图
- DIMACS & COLOR02/03/04 - 图着色算法权威标准
- ROARS Benchmark - 格式齐全的图着色基准
- Network Repository - 真实世界和合成网络
- Pedroso & Kubo NPP - 基于相变现象的标准实例
- Mertens (2003) 理论 - 难度相变现象理论分析
详细的使用指南和文档:
processed/README.md:处理后数据集的详细说明scripts/README.md:脚本使用说明processed/graph_partitioning/README.md:图划分数据集说明processed/graph_coloring/README.md:图着色数据集说明processed/number_partitioning/README.md:数值划分数据集说明
本项目采用MIT许可证。
感谢以下数据集和算法的提供者:
- DIMACS实施挑战赛:提供图划分和图着色领域的权威基准数据集
- SNAP网络数据集:斯坦福网络分析项目的真实世界网络图
- SuiteSparse矩阵集合:科学计算中的稀疏矩阵结构图
- 开放图基准(OGB):为图机器学习设计的现代化大规模数据集
- ROARS项目:提供多种经典图着色基准实例
- HypergraphPartitioning项目:专为VLSI芯片设计领域的超图划分基准
- Gatti et al.:GNN-A2C多级优化方法的提出者
- Mofrad et al.:Revolver多智能体方法的开发者
- Lemos et al.:ReLCol图着色算法的作者
- LOMAC团队:状态空间重构方法的创新者
- 所有神经组合优化和强化学习在组合优化领域应用的研究者们
当前版本:1.0.1 (2025-11-06)
详细变更记录请参考:NextList.md