Skip to content

旨在收集各行业的开源数据,引导和推动行业大模型的发展

License

Notifications You must be signed in to change notification settings

FlagOpen/Awesome-Industry-Dataset

Repository files navigation

AI大模型行业数据全景扫描

在本文中,我们从多个角度全方面的分析了开源行业数据集的总体状况,分别从文本数据集、视觉数据集和多模态数据集针对31个行业进行了详细的总结和整理,并针对开源行业大模型的现状囧行了统计和分析。

北京智源人工智能研究院希望通过本文的工作,促进多方合作和机制创新,努力促进行业数据的开放和共享,进而促进大模型在各个行业中的应用和发展。

项目持续收集整理中,也期冀相关从业人员补充!

新闻

  • [2024/10/18] 更新AI大模型行业数据全景扫描
  • [2024/9/25] 开源行业指令数据集IndustryInstruction
  • [2024/9/25] 发布AI大模型行业数据全景扫描
  • [2024/9/25] 开源IndustryCorpus2.0
  • [2024/8/30] 收录整理 84 个开源行业大模型
  • [2024/8/18] 收录第一版开源行业数据集,共 332 个数据集,包括 187 个文本数据集,76 个视觉数据集合 69 个多模态数据集
  • [2024/6/13] 开源IndustryCorpus1.0

目录

文本数据集

ID Industry Dataset Type Language Size Number Publisher License Paper
1 1. 农林牧渔 IndustryCorpus2.0-农林牧渔 PT 中文 英文 111.9 - BAAI Apache 2.0 -
2 AgriMa SFT 中文 - - 山西大学 - -
3 2. 汽车 IndustryCorpus2.0-汽车 PT 中文 英文 39.9 - BAAI Apache 2.0 -
4 汽车大师问答摘要与推理 SFT 中文 - 110k 复旦大学 - -
5 3. 采矿 IndustryCorpus2.0-采矿 PT 中文 英文 8.9 - BAAI Apache 2.0 -
6 4. 石油化工 IndustryCorpus2.0-石油化工 PT 中文 英文 40.2 - BAAI Apache 2.0 -
7 ChemData700K SFT 英文 0.2 730k 上海人工智能实验室 MIT [1]
8 5. 电力能源 IndustryCorpus2.0-电力能源 PT 中文 英文 68.7 - BAAI Apache 2.0 -
9 6. 生物医药 IndustryCorpus2.0-生物医药 PT 中文 英文 61.7 - BAAI Apache 2.0 -
10 Pile-PubMed Central PT 英文 81.6 - EleutherAI MIT -
11 TCM-Ancient-Books PT 中文 0.1 - xiaopangxia - -
12 MedHop SFT 英文 0.5 4k 伦敦大学学院 CC BY-SA 3.0 [2]
13 Mol-Instructions SFT 英文 0.2 2M 浙江大学 CC BY 4.0 [3]
14 ShenNong_TCM_Dataset SFT 中文 0.1 112k 华东师范大学 Apache 2.0 -
15 TCM_Literature_QA SFT 中文 0 13k 天池小喵萌 CC BY-NC-SA 4.0 -
16 7. 航空航天 IndustryCorpus2.0-航空航天 PT 中文 英文 38.6 - BAAI Apache 2.0 -
17 UMETRIP-QA SFT 中文 0 4k 中航信移动科技有限公司 - -
18 8. 其他制造业 IndustryCorpus2.0-其他制造 PT 中文 英文 47.2 - BAAI Apache 2.0 -
19 9. 计算机/通信 IndustryCorpus2.0-计算机_通信 PT 中文 英文 157.8 - BAAI Apache 2.0 -
20 CoSQL PT 英文 0.1 - 密歇根大学 CC BY-SA 4.0 [4]
21 Pile-Ubuntu IRC PT 英文 5.5 - EleutherAI MIT -
22 OWL-Instruct-ops001 SFT 中文 英文 0 - 北京航空航天大学 - [5]
23 OWL-Bench Evaluation 中文 0 - 北京航空航天大学 - [6]
24 10. 计算机编程 IndustryCorpus2.0-计算机_编程 PT 中文 英文 11 - BAAI Apache 2.0 -
25 JuICe PT 英文 3.7 - 华盛顿大学 - [7]
26 The Stack PT 英文 56.6 - bigcode Custom [8]
27 starcoderdata PT 英文 783 - bigcode Custom [9]
28 github-code PT 英文 1000 - CodeParrot Custom -
29 code_search_net PT 英文 5 - CodeSearchNet Custom [10]
30 Lyra SFT 中文 英文 0 - 北京大学 - [11]
31 StaQC SFT 英文 0.1 268k 华盛顿大学 CC BY 4.0 [12]
32 CodeGPT SFT 中文 0 32k 复旦大学 - -
33 Code_Alpaca_20K SFT 英文 0 20k sahil280114 - -
34 ToolAlpaca SFT 英文 0 421 中国科学院大学 - [13]
35 mbpp Evaluation 英文 0 1k Google Research CC BY 4.0 [14]
36 HumanEval Evaluation 英文 0 164 OpenAI MIT [15]
37 11. 人工智能 IndustryCorpus2.0-人工智能 PT 中文 英文 7.7 - BAAI Apache 2.0 -
38 12. 其他信息服务 IndustryCorpus2.0-其他信息服务 PT 中文 英文 1.8 - BAAI Apache 2.0 -
39 yf_amazon SFT 中文 0.3 7M 亚马逊 - -
40 EcomGPT Evaluation 中文 英文 0 6k 阿里 - [16]
41 13. 房地产/建筑 IndustryCorpus2.0-房地产_建筑 PT 中文 英文 105.2 - BAAI Apache 2.0 -
42 14. 交通运输/邮政 IndustryCorpus2.0-交通运输 PT 中文 英文 40.5 - BAAI Apache 2.0 -
43 TransGPT-pt PT 中文 0 - 北京交通大学 Apache 2.0 -
44 TransGPT-sft SFT 中文 0 58k 北京交通大学 Apache 2.0 -
45 15. 水利/海洋 IndustryCorpus2.0-水利_海洋 PT 中文 英文 20.2 - BAAI Apache 2.0 -
46 OceanBench Evaluation 英文 0 10k 浙江大学 MIT -
47 16.数学 IndustryCorpus2.0-数学 PT 中文 英文 156.7 - BAAI Apache 2.0 -
48 MathGLM-dataset PT 中文 9.3 - 清华大学 - [17]
49 NaturalProofs PT 英文 0.1 - 纽约大学 MIT [18]
50 MathPile PT 英文 21.2 - 上海人工智能实验室 CC BY-NC-SA 4.0 [19]
51 Proof-Pile-2 PT 英文 205 - EleutherAI - [20]
52 OpenWebMath PT 英文 27.4 - University of Toronto ODC-By 1.0 [21]
53 Pile-DM_Mathematics PT 英文 8.1 - EleutherAI MIT -
54 Goat SFT 英文 0.5 2M 新加坡国立大学 Apache 2.0 [22]
55 OpenMathInstruct-1 SFT 英文 2.9 7M NVIDIA Custom [23]
56 MWP-Instruct SFT 英文 0 252k Macropodus Apache 2.0 -
57 BELLE_School_Math SFT 中文 0.1 248k BELLE Group GPL 3.0 -
58 Math23K Evaluation 中文 0 23k 腾讯 - -
59 math_dataset Evaluation 英文 2.2 - Google DeepMind Apache 2.0 [24]
60 Gsm8k Evaluation 英文 0 8k OpenAI MIT [25]
61 Ape210K Evaluation 中文 0 210k 腾讯 - -
62 17. 学科教育 IndustryCorpus2.0-学科教育 PT 中文 英文 340.9 - BAAI Apache 2.0 -
63 Educhat-sft-002-data-osm SFT 中文 英文 5 4M 华东师范大学 CC BY-NC 4.0 -
64 MCTS SFT 中文 0.1 691k 北京语言大学 - [26]
65 Child_chat_data SFT 中文 0 - 哈尔滨工业大学 - -
66 EXAMS SFT - 0.2 24k Sofia University CC BY-NC-SA 4.0 [27]
67 18. 科技/科学研究 IndustryCorpus2.0-科技_科学研究 PT 中文 英文 101.6 - BAAI Apache 2.0 -
68 RedPajama-Data-1T PT 英文 5.3 - 北京理工大学 Custom -
69 S2ORC PT 英文 0 - 艾伦人工智能研究所 ODC-By 1.0 [28]
70 WanJuan1.0-CN/Patent PT 中文 4.6 - 上海人工智能实验室 CC BY 4.0 [29]
71 CSL-pt PT 中文 1.5 - 中国地质大学 Apache 2.0 [30]
72 CORD-19 PT 英文 17.4 - 艾伦人工智能研究所 Custom [31]
73 Elsevier OA CC-BY PT 英文 1 - Elsevier CC BY 4.0 [32]
74 Pile-ArXiv PT 英文 55.5 - EleutherAI MIT [33]
75 GeoSignal SFT 英文 0 40k daven3 Apache 2.0 -
76 SciMRC SFT 英文 0 21k 北京理工大学 Apache 2.0 -
77 CSL-sft SFT 中文 0.1 - 中国地质大学 Apache 2.0 [34]
78 CSL-bench Evaluation 中文 0 10k 中国地质大学 Apache 2.0 [35]
79 19. 医学/健康/心理 IndustryCorpus2.0-医学_健康_心理 PT 中文 英文 271.7 - BAAI Apache 2.0 -
80 Pile-PubMed_Abstracts PT 英文 22.4 - EleutherAI MIT [36]
81 Pubmed PT 英文 42.1 - 马里兰大学 Custom -
82 medical_book_zh PT 中文 0 - shibing624 Apache 2.0 -
83 guidelines PT 英文 0.9 - EPFL Custom [37]
84 medal PT 英文 21 - McGill University - [38]
85 ChatDoctor SFT 英文 0.1 115k 美国德克萨斯大学 Apache 2.0 [39]
86 MeChat SFT 中文 0 310k 浙江大学 - [40]
87 CMtMedQA SFT 中文 0.1 68k 郑州大学自然语言处理实验室 MIT -
88 DISC-Med-SFT SFT 中文 0.8 465k 复旦大学 Apache 2.0 [41]
89 Huatuo-26M SFT 中文 5 26M 香港中文大学 Apache 2.0 [42]
90 HuatuoGPT-sft-data-v1 SFT 中文 0.3 226k 香港中文大学 Apache 2.0 -
91 Chinese medical dialogue data SFT 中文 0.3 792k 上海科技大学 MIT -
92 QiZhenGPT-sft-20k SFT 中文 0 20k 浙江大学 GPL 3.0 -
93 ChatMed_Consult_Dataset SFT 中文 0.4 549k 中国农业大学 CC BY 4.0 -
94 medical-sft SFT 中文 1.3 2M shibing625 Apache 2.0 -
95 cMedQA2 SFT 中文 0 108k 国防科技大学 GPL 3.0 [43]
96 webMedQA SFT 中文 0 63k 中国科学院 Apache 2.0 [44]
97 PubMedQA SFT 英文 0.6 - University of Pittsburgh MIT [45]
98 CMCQA SFT 中文 2.8 - 中国科学院 - [46]
99 medical_dialog SFT 中文 英文 - 1M University of California - [47]
100 LiveQA SFT 英文 0 0.7k 美国国家医学图书馆 - [48]
101 MedQA SFT 简中 繁中 英文 0.3 61k 美国麻省理工学院 MIT [49]
102 MedMCQA SFT 英文 0.1 192k Saama AI Research Institute MIT [50]
103 HealthSearchQA SFT 英文 0 3k Google Research - [51]
104 AquilaMed-Instruct SFT 中文 英文 0.2 318k BAAI Apache 2.0 [52]
105 AquilaMed-RL RLHF/RM 中文 英文 - 13k BAAI Apache 2.0 [53]
106 Zhongjing-rlhf-2k RLHF/RM 中文 0 2k 郑州大学自然语言处理实验室 Apache 2.0 [54]
107 reward-reward RLHF/RM 中文 0 4k shibing626 Apache 2.0 -
108 CMB Evaluation 中文 0 11k 香港中文大学 Apache 2.0 [55]
109 药品适应症评测 Evaluation 中文 0 95 浙江大学 GPL 3.0 -
110 CMExam Evaluation 中文 0 68k 阿里巴巴 Apache 2.0 [56]
111 MedBench Evaluation 中文 0 300k 上海人工智能实验室 - -
112 20.法律/司法 IndustryCorpus2.0-法律_司法 PT 中文 英文 235.8 - BAAI Apache 2.0 -
113 国际仲裁法律、规则与实践数据集 PT - 0 - 大模型语料数据联盟 CC BY-NC 4.0 -
114 Pile-FreeLaw PT 英文 50.1 - EleutherAI MIT [57]
115 法律法规数据库 PT 中文 0 - OpenDataLab Custom -
116 WanJuan1.0-CN/Law PT 中文 37.9 - 上海人工智能实验室 CC BY 4.0 [58]
117 TigerBot-law PT 中文 0 56k Tiger Research Apache 2.0 -
118 HanFei SFT 中文 0.2 - 中科院深圳先进院 Apache 2.0 -
119 DISC-Law-SFT SFT 中文 0.4 295k 复旦大学 Apache 2.0 [59]
120 LawGPT_zh SFT 中文 0 144k 上海交通大学 - -
121 SLJA SFT 中文 0.2 - 山东大学 Apache 2.0 [60]
122 LAiW Evaluation 中文 0 11k 四川大学 MIT [61]
123 DISC-Law-Eval-Benchmark Evaluation 中文 0 - 复旦大学 Apache 2.0 [62]
124 LawBench Evaluation 中文 0 10k 上海人工智能实验室 Apache 2.0 [63]
125 21. 金融/经济 IndustryCorpus2.0-金融_经济 PT 中文 英文 145.8 - BAAI Apache 2.0 -
126 EDT PT 英文 0.5 - 东北大学 - [64]
127 BBT-FinCorpus PT 中文 16 - 复旦大学 - [65]
128 FinCorpus PT 中文 60 - 度小满 Apache 2.0 -
129 TigerBot PT 中文 1.1 - Tiger Research Apache 2.0 -
130 DISC-Fin-SFT SFT 中文 0 400 复旦大学 Apache 2.0 [66]
131 DuEE-fin SFT 中文 0 - 百度 - -
132 FinGPT SFT 英文 0 205k University of California MIT [67]
133 FinanceIQ Evaluation 中文 0 - 度小满 CC BY-NC-SA 4.0 -
134 FinBen Evaluation 中文 英文 西班牙 0 7k The Fin AI Custom [68]
135 FinEval Evaluation 中文 0 8k 上海财经大学 CC BY-NC-SA 4.0 [69]
136 CFLEB Evaluation 中文 0 11k 复旦大学 - [70]
137 IndustryCorpus2.0-体育 PT 中文 英文 262.5 - BAAI Apache 2.0 -
138 K-SportsSum SFT 中文 0 8k 苏州大学 - [71]
139 Taskmaster-2-phy SFT 英文 0 9k Google CC BY 4.0 [72]
140 23. 影视/娱乐 IndustryCorpus2.0-影视_娱乐 PT 中文 英文 209.4 - BAAI Apache 2.0 -
141 Pile-OpenSubtitles PT 英文 6.7 - EleutherAI MIT [73]
142 IMDb PT 英文 0.9 - 斯坦福大学 Custom -
143 ez_douban SFT 中文 0.1 3M 豆瓣电影 - -
144 dmsc_v2 SFT 中文 0.1 2M 豆瓣电影 - -
145 24. 游戏 IndustryCorpus2.0-游戏 PT 中文 英文 37.6 - BAAI Apache 2.0 -
146 MNBVC-game PT 中文 0 - MOP里屋社区 MIT -
147 25. 时政/政务/行政 IndustryCorpus2.0-政务 PT 中文 英文 271.5 - BAAI Apache 2.0 -
148 MNBVC-politics PT 中文 0.4 - MOP里屋社区 MIT -
149 中文马克思主义文库 PT 中文 0 - OpenDataLab MBODL-BY-NC-SA 1.0 -
150 yayi2_pretrain_data PT 中文 - - 中科闻歌 Apache 2.0 -
151 26. 文学/情感 IndustryCorpus2.0-文学_情感 PT 中文 英文 105.5 - BAAI Apache 2.0 -
152 国学迷-古籍 PT 中文 2.7 - OpenDataLab MBODL-BY-NC-SA 1.0 -
153 Pile-PhilPapers PT 英文 2.2 - EleutherAI MIT [74]
154 古诗词数据集 PT 中文 0.4 - - CC BY 4.0 -
155 中华古诗词数据库 PT 中文 - - jackeyGao MIT -
156 古诗词 PT 中文 7.1 - OpenDataLab MBODL-BY-NC-SA 1.0 -
157 Pile-Gutenberg PT 英文 10.5 - EleutherAI MIT [75]
158 MAMS SFT 英文 0 - 中国科学院 Apache 2.0 [76]
159 ASAP SFT 中文 0 33k 美团 - [77]
160 EPRSTMT SFT 中文 0 20k CLUE team MIT [78]
161 EmpatheticDialogues SFT 英文 0 25k 华盛顿大学 CC BY-NC 4.0 [79]
162 Allegro Reviews SFT 波兰语 0 12k Allegro Machine Learning Research CC BY-SA 4.0 [80]
163 27. 旅游/地理 IndustryCorpus2.0-旅游_地理 PT 中文 英文 64 - BAAI Apache 2.0 -
164 GeoGLUE Evaluation 中文 - 250k Institute for Intelligent Computing CC BY-NC 4.0 -
165 28. 住宿/餐饮/酒店 IndustryCorpus2.0-住宿_餐饮_酒店 PT 中文 英文 29.6 - BAAI Apache 2.0 -
166 HotelRec PT 英文 13.4 - 洛桑联邦理工学院 Custom [81]
167 Amazon Fine Foods SFT 英文 0.1 568k 斯坦福大学 - [82]
168 ChnSentiCorp_htl_all SFT 中文 0 7k 携程网 - -
169 waimai_10k SFT 中文 0 12k 某外卖平台 - -
170 XiaChuFang Recipe Corpus SFT 中文 0.6 2M 清华大学 - -
171 yf_dianping SFT 中文 0.7 44k 大众点评 - -
172 Taskmaster-2 SFT 英文 0 6k Google CC BY 4.0 [83]
173 29. 新闻传媒 IndustryCorpus2.0-新闻传媒 PT 中文 英文 209.4 - BAAI Apache 2.0 -
174 WanJuan1.0-CN/ChinaNews PT 中文 21.5 - 上海人工智能实验室 CC BY 4.0 [84]
175 新闻联播文字版 PT 中文 0.5 - OpenDataLab MBODL-BY-NC-SA 1.0 -
176 RealNews PT 英文 46.4 - 华盛顿大学 Apache 2.0 [85]
177 NAIST COVID PT 中文 英文 日文 9.6 - Nara Institute of Science and Technology - [86]
178 OpenNewsArchive PT 中文 英文 11.7 - 大模型语料数据联盟 CC BY 4.0 -
179 news2016zh PT 中文 9 - CLUEbenchmark MIT -
180 清华新闻分类语料 SFT 中文 2.2 - 清华大学 Custom -
181 30. 安全 IndustryCorpus2.0-安全 PT 中文 英文 4.3 - BAAI Apache 2.0 -
182 中国网络安全中文基础语料库 PT 中文 99.7 - 中国网络空间安全协会 - -
183 security-paper-datasets PT 中文 英文 0.7 - 云起无垠 - -
184 食品安全主题数据集 SFT 中文 0 10k 东北证券 - -
185 31. 其他 IndustryCorpus2.0-其他 PT 中文 英文 188.6 - BAAI Apache 2.0 -
186 CLUECorpus2020 PT 中文 100 - CLUE Organization - [87]
187 WebGPT RLHF/RM 英文 0.2 20k OpenAI - [88]

👆 BACK to Table of Contents -->

视觉数据集

ID Industry Dataset Type Language Size Publisher License Paper
1 1. 农林牧渔 香蕉成熟度分类 图像 中文 0.2 aliyun4949246966 GPL 2.0 -
2 CD&S 图像 英文 13.5 普渡大学 - [1]
3 Barley Remote Sensing 图像 中文 4.2 广州泾渭信息科技 CC BY-NC-SA 4.0 -
4 Global Wheat 图像 - 15.4 东京大学 CC BY 4.0 [2]
5 ACFR_Orchard_Fruit 图像 英文 3.8 悉尼大学 - [3]
6 PASTIS 图像 英文 26.8 LASTIG, Univ. Gustave Eiffel - [4]
7 PlantVillage Dataset 图像 中文 1.7 游客5lkphlzhcgmho CC BY-NC-SA 4.0 -
8 2. 汽车 Stanford Cars Dataset 图像 英文 2 斯坦福大学 - [5]
9 VisDrone 2021 图像 英文 98.4 天津大学 CC BY-NC-SA 4.0 [6]
10 CompCars 图像 英文 1.9 香港中文大学 Custom [7]
11 COWC 图像 英文 10.4 Lawrence Livermore National Laboratory AGPL 3.0 [8]
12 RadarScenes 图像 英文 10.7 Mercedes-Benz AG CC BY-NC-SA 4.0 [9]
13 CCPD 图像 中文 12.6 中国科学技术大学 MIT [10]
14 车型分类 图像 英文 0 TU Berlin CDLA 1.0 -
15 3. 采矿 - - - - - - -
16 4. 石油化工 - - - - - - -
17 5. 电力能源 elpv-dataset 图像 英文 0 Nuremberg Institute of Technology CC BY-NC-SA 4.0 [11]
18 InsulatorDataSet 图像 英文 0.4 WANG Zi-Hao - -
19 6. 生物医药 AGAR 图像 英文 31 University of Wroclaw CC BY-NC 2.0 [12]
20 7. 航空航天 DOTA v2.0 图像 英文 137.5 武汉大学 Custom -
21 LoveDA 图像 英文 11.9 武汉大学 CC BY-NC-SA 4.0 [13]
22 So2Sat LCZ42 图像 英文 110.1 Technical University of Munich CC BY 4.0 [14]
23 Aerial imagery dataset 图像 英文 26.5 武汉大学 - [15]
24 航空高光谱遥感影像 图像 中文 1.7 中国科学院 - [16]
25 AeBAD 图像 英文 1.5 西安交通大学 - [17]
26 8. 其他制造业 NEU-CLS 图像 英文 0 东北大学 - [18]
27 Severstal 图像 英文 1.7 Severstal Custom -
28 KolektorSDD 图像 英文 - University of Ljubljana CC BY-NC-SA 4.0 [19]
29 天池铝型材表面瑕疵 图像 中文 3 天池小喵萌 CC BY-NC 4.0 -
30 9. 计算机/通信 - - - - - - -
31 10. 计算机编程 - - - - - - -
32 11. 人工智能 - - - - - - -
33 12. 其他信息服务 - - - - - - -
34 13. 房地产/建筑 BuildingNet 图像 英文 10.8 UMass Amherst - [20]
35 FloorPlanCAD 图像 英文 5.4 阿里巴巴 CC BY-NC 4.0 [21]
36 xBD 图像 英文 30.5 Carnegie Mellon University BSD 3-Clause [22]
37 S2Looking 图像 英文 11.4 北京遥感研究所 - [23]
38 House3K 图像 英文 28.2 University of the Philippines Custom [24]
39 14. 交通运输/邮政 Caltech Pedestrian Detection Benchmark 视频 英文 11.3 California Institute of Technology - [25]
40 LDDRS 图像 英文 1.7 西北工业大学 - [26]
41 FRSign 图像 英文 590 Institut de Recherche Technologique SystemX CC BY-NC-SA 4.0 [27]
42 TRANCOS 图像 英文 1.5 University of Alcalá Custom [28]
43 S2TLD 图像 中文 1.4 上海交通大学 MIT [29]
44 CCD 视频 英文 67.1 Rochester Institute of Technology MIT [30]
45 CrackForest 图像 英文 0 University of Chinese Academy of Sciences Custom [31]
46 15. 水利/海洋 MARIDA 图像 英文 1.2 National Technical University of Athens CC BY 4.0 [32]
47 SUIM 图像 英文 0.2 University of Minnesota - [33]
48 16. 数学 - - - - - - -
49 17. 学科教育 - - - - - - -
50 18. 科技/科学研究 HRSC2016 图像 - 3.5 西北工业大学 ODbl 1.0 -
51 Chikusei Dataset 图像 英文 2.3 东京大学 - [34]
52 19. 医学/健康/心理 SA-Med2D-20M 图像 英文 328.6 上海人工智能实验室 Apache 2.0 [35]
53 IXI 图像 英文 27.4 University of Bucharest CC BY-SA 3.0 [36]
54 LoDoPaB-CT 图像 英文 51.5 University of Bremen CC BY 4.0 [37]
55 MedFMC 图像 英文 38.4 opendatalab CC BY-SA 4.0 -
56 CHAOS 图像 英文 2.7 Dokuz Eylul University CC BY-NC-SA 4.0 [38]
57 IntrA 图像 英文 2.3 东京大学 - [39]
58 宫腔镜图像良恶性病变 图像 中文 0.4 北京朝阳医院 CC BY-NC-SA 4.0 -
59 HC18 图像 英文 0.3 Radboud University Medical Center CC BY 4.0 [40]
60 Breast Ultrasound Images Dataset 图像 英文 0.2 Faculty of Computer and Artificial Intelligence - [41]
61 ACDC Scribbles 图像 英文 0 University of Edinburgh - [42]
62 Medical Segmentation Decathlon 图像 英文 72.5 MONAI Development Team CC BY-SA 4.0 [43]
63 LIDC-IDRI 图像 英文 61.5 The University of Chicago CC BY 3.0 [44]
64 Medical Imaging 图像 英文 - - - -
65 20. 法律/司法 - - - - - - -
66 21. 金融/经济 - - - - - - -
67 22. 体育 - - - - - - -
68 23. 影视/娱乐 DeepScores 图像 英文 76.8 ZHAW Datalab & USI - [45]
69 UCO-LAEO 图像 英文 4.7 University of Cordoba - [46]
70 24. 游戏 GLIB: image dataset 图像 英文 10.2 Fuxi AI Lab in Netease CC BY 4.0 [47]
71 CocoDoom 图像 英文 14.7 牛津大学 - [48]
72 25. 时政/政务/行政 - - - - - - -
73 26. 文学/情感 - - - - - - -
74 27. 旅游/地理 European Flood 2013 图像 英文 11.6 Friedrich Schiller University Jena - [49]
75 Notre Dame 图像 英文 1.8 Photo Tourism group Custom -
76 OmniCity 图像 英文 14.4 中山大学 CC BY-NC 4.0 [50]
77 28. 住宿/餐饮/酒店 Hotels-50K 图像 英文 3.1 George Washington University - [51]
78 29. 新闻传媒 WanJuan1.0-video 视频 中文 916.7 上海人工智能实验室 CC BY 4.0 [52]
79 30. 安全 - - - - - - -
80 31. 其他 MovingFashion 视频 英文 24.1 University of Verona CC BY-NC-SA 4.0 [53]
81 VegFru 图像 中文 13.1 中国科学技术大学 Apache 2.0 [54]
82/td> DeepFashion2 图像 英文 14.7 香港中文大学 - [55]
83 DeepPCB 图像 英文 - 上海交通大学 - [56]
84 DAGM 2007 图像 英文 2.9 Robert Bosch Corporate Research department CC BY 4.0 -
85 磁瓦缺陷 图像 英文 - University of Chinese Academy of Sciences - [57]
86 Kylberg Texture Dataset v. 1.0 图像 英文 11.6 Swedish University of Agricultural Sciences and Uppsala University - -
87 手扶电梯梯级缺陷 图像 中文 0 LJY0031 CC0 1.0 -
88 BSData 图像 英文 - sungsy - -
89 BeanTech 图像 英文 1.1 University of Udine CC BY-SA 4.0 [58]
90 MVTec异常检测 图像 英文 - Technical University of Munich CC BY-NC-SA 4.0 [59]

👆 BACK to Table of Contents -->

多模态数据集

ID Industry Dataset Type Language Size Publisher License Paper
1 1. 农林牧渔 Pigs4YOLO 图像-文本 中文 0.1 zhengvh CC BY-NC-SA 4.0 -
2 Lincolnbeet 图像-文本 英文 26.6 University of Lincoln - [1]
3 Multispectral_etc 图像-文本 英文 0.7 University of Idaho - [2]
4 EuroCrops 图像-文本 英文 2 Technical University of Munich (TUM) CC BY 4.0 [3]
5 2. 汽车 Lyft Level 5 Prediction 图像-文本 英文 19.8 Lyft Level 5 CC BY-NC-SA 4.0 [4]
6 nuScenes 图像-文本 英文 346.5 APTIV Company Custom [5]
7 DDAD 图像-文本 英文 269 Toyota Research Institute - [6]
8 OpenLane 图像-文本 英文 122.5 上海人工智能实验室 CC BY-NC-SA 4.0 [7]
9 OpenLane-V2 图像-文本 英文 193.3 上海人工智能实验室 CC BY 4.0 [8]
10 ONCE 图像-文本 英文 1917.4 华为 CC BY-NC-SA 4.0 [9]
11 OpenScen 图像-文本 英文 3739.6 上海人工智能实验室 CC BY-NC-SA 4.0 [10]
12 Car License Plate Detection 图像-文本 英文 0.2 Hospital Israelita Albert Einstein CC0 1.0 -
13 CVPR 2018 WAD 图像-文本 英文 103 CVPR 2018 WAD Custom -
14 3. 采矿 - - - - - - -
15 4. 石油化工 - - - - - - -
16 5. 电力能源 - - - - - - -
17 6. 生物医药 - - - - - - -
18 7. 航空航天 RSICD 图像-文本 英文 0.6 中国科学院 - [11]
19 8. 其他制造业 - - - - - - -
20 9. 计算机/通信 - - - - - - -
21 10. 计算机编程 - - - - - - -
22 11. 人工智能 - - - - - - -
23 12. 其他信息服务 - - - - - - -
24 13. 房地产/建筑 - - - - - - -
25 14. 交通运输/邮政 Reasonable Crowd 视频-文本 英文 27.5 Motional. Boston, MA MIT [12]
26 15. 水利/海洋 - - - - - - -
27 16. 数学 UniMERNet 图像-文本 英文 2 上海人工智能实验室 Apache 2.0 [13]
28 MathVista 图像-文本 英文 0.9 University of California CC BY-SA 4.0 [14]
29 clevr-math 图像-文本 英文 19 Umeå university CC BY 4.0 [15]
30 GeoQA 图像-文本 英文 0.4 中山大学 - [16]
31 Geometry3K 图像-文本 英文 0.3 University of California - [17]
32 17. 学科教育 Visual Question Answering 图像-文本 英文 42.2 Virginia Tech CC BY 4.0 [18]
33 ScienceQA 图像-文本 英文 0.6 University of California CC BY-NC-SA 4.0 [19]
34 DVQA 图像-文本 英文 5.3 Rochester Institute of Technology CC BY-NC 4.0 [20]
35 AI2D 图像-文本 英文 1.7 Allen Institute for Artificial Intelligence CC BY-SA 4.0 [21]
36 TextVQA 图像-文本 英文 8.6 Facebook AI Research CC BY 4.0 [22]
37 18. 科技/科学研究 QASPER 图像-文本 英文 0.6 Allen Institute for AI CC BY 4.0 [23]
38 THCHS-30 语音-文本 中文 7.9 清华大学 Custom [24]
39 AISHELL-1 语音-文本 中文 14.5 Beijing Shell Shell Technology Co. Ltd Apache 2.0 [25]
40 19. 医学/健康/心理 MedVidQA 视频-文本 英文 3.6 National Institutes of Health, USA MIT [26]
41 Kvasir 图像-文本 英文 3.6 University of Oslo Custom [27]
42 M3D-Data 图像-文本 英文 1208 BAAI,港中文 Apache 2.0 [28]
43 OpenI-zh 图像-文本 中文 英文 0.1 澳门理工大学 - -
44 VQA-RAD 图像-文本 英文 0 National Library of Medicine, USA - [29]
45 ImageClef-2019-VQA-Med 图像-文本 英文 0.1 National Library of Medicine, USA - [30]
46 MedICaT 图像-文本 英文 106 Allen Institute for AI - [31]
47 SLAKE 图像-文本 中文 英文 0.2 香港理工大学 - [32]
48 Montgomery County CXR Set 图像-文本 英文 0.5 National Institutes of Health, USA - [33]
49 MMMU 图像-文本 英文 0.3 IN.AI Research CC BY 4.0 [34]
50 PMC-OA 图像-文本 英文 24.6 上海交通大学 - [35]
51 Quilt-1M 图像-文本 英文 36 University of Washington - [36]
52 ROCOV2 图像-文本 英文 6.4 University of Applied Sciences and Arts Dortmund (FHDO) - [37]
53 RP3D-Caption 图像-文本 英文 500 上海交通大学 - [38]
54 CT-RATE 图像-文本 英文 - University of Zurich CC BY-NC-SA 4.0 [39]
55 PathVQA 图像-文本 英文 1.7 University of California San Diego - [40]
56 COUGHVID 语音-文本 英文 1.2 EPFL CC BY 4.0 [41]
57 20. 法律/司法 - - - - - - -
58 21. 金融/经济 - - - - - - -
59 22. 体育 - - - - - - -
60 23. 影视/娱乐 MovieNet 视频-文本 英文 161.8 Chinese University of Hong Kong - [42]
61 VidSitu 视频-文本 英文 50 University of Southern California MIT [43]
62 Violin 视频-文本 英文 16.6 Carnegie Mellon University MIT [44]
63 M-VAD Names 视频-文本 英文 0.2 University of Modena and Reggio Emilia Custom [45]
64 MovieShots 视频-文本 英文 17 Chinese University of Hong Kong Custom [46]
65 CMD 视频-文本 英文 - University of Oxford CC BY 4.0 [47]
66 NES-MDB 语音-文本 英文 0.2 UC San Diego MIT [48]
67 MagnaTagATune 语音-文本 英文 3.1 CMU - [49]
68 24. 游戏 Atari 2600 Video Pinball 视频-文本 英文 2.5 University of Alberta - [50]
69 Atari Grand Challenge 视频-文本 英文 24.9 RWTH Aachen University - [51]
70 25. 时政/政务/行政 - - - - - - -
71 26. 文学/情感 DuVideoSenti 图像-文本 中文 11.1 百度 - [52]
72 CREMA-D 语音-文本 英文 7.5 University of Pennsylvania DbCL 1.0 [53]
73 EMOVIE 语音-文本 中文 0.6 浙江大学 CC BY-NC-SA 2.0 [54]
74 EmoFilm 语音-文本 英文 意大利 西班牙 - University of Augsburg Custom [55]
75 AESDD 语音-文本 希腊语 0.4 Aristotle University of Thessaloniki - -
76 ESD 语音-文本 中文 英文 2.3 National University of Singapore Custom [56]
77 27. 旅游/地理 - - - - - - -
78 28. 住宿/餐饮/酒店 YouCook2 视频-文本 英文 70.2 University of Michigan - [57]
79 YouCook 视频-文本 英文 3.4 SUNY at Buffalo - [58]
80 RecipeQA 图像-文本 英文 2.8 Hacettepe University Custom [59]
81 29. 新闻传媒 WanJuan-Media News 图像-文本 中文 118 上海人工智能实验室 CC BY 4.0 [60]
82 Fakeddit 图像-文本 英文 0.4 Laguna Blanca School - [61]
83 Cross-Modal Comments 图像-文本 中文 1.6 北京大学 - [62]
84 30. 安全 - - - - - - -
85 31. 其他 MMChat 图像-文本 中文 1.1 阿里巴巴 - [63]
86 GRIT 图像-文本 英文 6.6 Microsoft Research ms-pl [64]

👆 BACK to Table of Contents -->

开源行业大模型

Industry Model Language Multimodal Size Base Model Publisher
1. 农林牧渔 AgriGPT 中文 × 6B, 13B ChatGLM2, Baichuan2 哈尔滨工业大学
2. 汽车 - - - - - -
3. 采矿 - - - - - -
4. 石油化工 - - - - - -
5. 电力能源 - - - - - -
6. 生物医药 OpenBioMed 英文 × 7B, 10B LLaMA2 水木分子
6. 生物医药 Taiyi-LLM 中文 英文 × 7B Qwen 大连理工大学
7. 航空航天 StarWhisper 中文 14B - 中国科学院大学
8. 其他制造业 - - - - - -
9. 计算机/通信 DevOps-Model 中文 × 7B, 14B Qwen 蚂蚁集团
10. 计算机编程 Deepseek Coder 中文 英文 × 1B, 5.7B, 6.7B, 33B 预训练 深度求索
10. 计算机编程 CodeShell 中文 × 7B 预训练 北京大学
11. 人工智能 TestGPT-7B 中文 × 7B CodeLlama 蚂蚁集团
12. 其他信息服务 EcomGPT 中文 × 7B bloomz 阿里
13. 房地产/建筑 - - - - - -
14. 交通运输/邮政 致远-TransGPT 中文 6B, 7B LLaMA, VisualGLM 北京交通大学
15. 水利/海洋 MarineGPT 英文 2B, 7B, 13B Vicuna V0, GEMMA 香港科技大学
15. 水利/海洋 OceanGPT 中文 英文 × 7B, 14B Qwen2, Qwen1.5 浙江大学
16. 数学 chatglm-maths 中文 × 6B ChatGLM yongzhuo
16. 数学 MathGLM 中文 × 6B, 10B ChatGLM, ChatGLM2, GLM-zh THUDM
17. 学科教育 Taoli 中文 × 7B Chinese-LLaMA 北京语言大学
17. 学科教育 EduChat 中文 × 1.8B, 14B, 32B, 13B Baichuan, LLaMA, Qwen1.5 华东师范大学
17. 学科教育 智海-三乐 中文 × 7B Qwen 浙江大学
18. 科技/科学研究 TechGPT 中文 × 7B LLaMA 东北大学
18. 科技/科学研究 Mozi 中文 英文 × 7B LLaMA, Baichuan 北京理工大学
18. 科技/科学研究 Chat-UniVi 中文 英文 7B Vicuna-v1.5, CLIP ViT-L/14 北京大学
18. 科技/科学研究 ChartLlama 英文 13B LLaVA-1.5 腾讯
18. 科技/科学研究 九天 英文 12B FlanT5-XXL, EVA-G 哈尔滨工业大学
18. 科技/科学研究 TabelGPT 中文 × 7B Phoenix 浙江大学
19. 医学/健康/心理 DoctorGLM 中文 × 6B ChatGLM 上海科技大学
19. 医学/健康/心理 BenTsao 中文 × 7B Huozi1.0, Bloom, Alpaca-Chinese, LLaMA 哈尔滨工业大学
19. 医学/健康/心理 BianQue 中文 × 6B ClueAI/ChatYuan-large-v2, ChatGLM, 华南理工大学未来技术学院
19. 医学/健康/心理 HuatuoGPT 中文 × 7B, 13B Baichuan, Ziya-LLaMA 港中文深圳
19. 医学/健康/心理 Med-ChatGLM 中文 × 6B ChatGLM 哈尔滨工业大学
19. 医学/健康/心理 QiZhenGPT 中文 × 6B, 7B, 13B ChatGLM, Chinese-LLaMA-Plus, CaMA 浙江大学
19. 医学/健康/心理 ChatMed 中文 × 7B LLaMA 中国农业大学
19. 医学/健康/心理 ShenNong-TCM-LLM 中文 × 7B LLaMA 中国农业大学
19. 医学/健康/心理 XrayGLM 中文 6B VisualGLM 澳门理工大学
19. 医学/健康/心理 MedicalGPT 中文 × 8B, 13B Ziya-LLaMA, Baichuan, Llama3 腾讯
19. 医学/健康/心理 Sunsimiao 中文 × 7B Baichuan 华东理工大学
19. 医学/健康/心理 CareGPT 中文 × 7B, 13B, 14B, 20B LLaMA1/2, Baichuan1/2, Qwen, InternLM, 澳门理工大学
19. 医学/健康/心理 DISC-MedLLM 中文 × 13B Baichuan 复旦大学DISC
19. 医学/健康/心理 WiNGPT 中文 × 7B, 8B, 14B Qwen, Llama3 卫宁健康人工智能实验室
19. 医学/健康/心理 ChiMed-GPT 中文 × 13B Ziya2 中国科学技术大学
19. 医学/健康/心理 AlpaCare 英文 × 7B, 13B LLaMA, LLaMA2 University of California, Santa Barbara
19. 医学/健康/心理 ChatPsychiatrist 英文 × 7B LLaMA 香港大学
19. 医学/健康/心理 Zhongjing-LLaMA 中文 × 13B Ziya-LLaMA 郑州大学自然语言处理实验室
19. 医学/健康/心理 PMC-LLaMA 英文 × 7B, 8B, 13B LLaMA, LLaMA3 上海交通大学
19. 医学/健康/心理 ChatDoctor 英文 × 7B LLaMA 美国德克萨斯大学西南医学中心
19. 医学/健康/心理 MING 中文 × 7B bloomz 上海交通大学
19. 医学/健康/心理 IvyGPT 中文 × 33B LLaMA 澳门理工大学
19. 医学/健康/心理 PULSE 中文 × 7B, 20B bloomz, InternLM OpenMEDLab
19. 医学/健康/心理 HuangDI 中文 × 13B Ziya-LLaMA 南京大学
19. 医学/健康/心理 ZhongJing 中文 × 1.8B Qwen1.5 复旦大学
19. 医学/健康/心理 TCMLLM 中文 × 6B ChatGLM 北京交通大学
19. 医学/健康/心理 SoulChat 中文 × 6B ChatGLM 华南理工大学未来技术学院
19. 医学/健康/心理 MindChat 中文 × 0.5B, 1.8B, 4B, 7B, 14B Qwen, Qwen2, InternLM2 华东理工大学
19. 医学/健康/心理 MentalLLaMA 英文 × 7B, 13B, 33B LLaMA2, Vicuna National Centre for Text Mining
19. 医学/健康/心理 MeChat 中文 × 6B ChatGLM2 浙江大学
19. 医学/健康/心理 PICA 中文 × 6B ChatGLM2 东北大学
19. 医学/健康/心理 QiaoBan 中文 - 7B Baichuan 哈尔滨工业大学
20. 法律/司法 LawGPT_zh 中文 × 6B ChatGLM 上海交通大学
20. 法律/司法 LaWGPT 中文 × 7B Chinese-LLaMA, Chinese-alpaca-plus 南京大学
20. 法律/司法 LexiLaw 中文 × 6B ChatGLM-6B 清华大学
20. 法律/司法 Lawyer LLaMA 中文 × 13B Chinese-LLaMA, 北京大学
20. 法律/司法 HanFei 中文 × 7B 预训练 中科院深圳先进院
20. 法律/司法 ChatLaw 中文 × 13B, 33B Ziya-LLaMA, Anima 北京大学
20. 法律/司法 lychee_law 中文 × 10B GLM 南京大学
20. 法律/司法 wisdomInterrogatory 中文 × 7B Baichuan 浙江大学
20. 法律/司法 fuzi-mingcha 中文 × 6B ChatGLM 山东大学
20. 法律/司法 DISC-LawLLM 中文 × 13B Baichuan 复旦大学DISC
20. 法律/司法 JurisLMs 中文 × 13B Chinese-LLaMA-Alpaca seudl
20. 法律/司法 TaiLing 中文 × 7B Qwen 大连理工大学
21. 金融/经济 Cornucopia 中文 × 7B LLaMA, Chinese-LLaMA 中科院成都计算机应用研究所
21. 金融/经济 BBT-FinCUGE-Applications 中文 × 0.2B, 1B T5-v1.1 复旦大学
21. 金融/经济 XuanYuan 中文 × 6B, 13B, 70B, 176B LLaMA2, bloom 度小满
21. 金融/经济 FinGPT 英文 × 7B, 13B LLaMA2, falcon, bloom, mpt, ChatGLM, Qwen Columbia University
21. 金融/经济 DISC-FinLLM 中文 × 13B Baichuan-13B-Chat 复旦大学DISC
21. 金融/经济 Tongyi-Finance 中文 × 14B Qwen-14B 阿里云
21. 金融/经济 InvestLM 英文 × 65B LLaMA-65B 香港科技大学
21. 金融/经济 FinGLM 中文 × 6B ChatGLM2-6B MetaGLM
21. 金融/经济 WeaverBird 中文 英文 × 6B ChatGLM2-6B 蚂蚁集团
21. 金融/经济 PIXIU 英文 × 7B LLaMA-7B The Fin AI
21. 金融/经济 TigerBot 中文 × 7B, 13B, 70B, 180B bloom, LLaMA2 虎博科技
22. 体育 - - - - - -
23. 影视/娱乐 - - - - - -
24. 游戏 - - - - - -
25. 时政/政务/行政 YaYi 中文 × 7B, 13B, 30B LLaMA2 中科闻歌
26. 文学/情感 Xunzi 中文 × 4B, 6B, 7B, 14B Qwen, ChatGLM3, Xunzi-Qwen1.5, Baichuan2 南京农业大学
27. 旅游/地理 k2 英文 × 7B LLaMA 上海交通大学
28. 住宿/餐饮/酒店 - - - - - -
29. 新闻传媒 - - - - - -
30. 网络安全 SecGPT 中文 × 13B Baichuan 云起无垠
30. 网络安全 AutoAudit 中文 × 7B Alpaca-Lora 山东大学
31. 其他 Anima 中文 × 7B, 33B LLaMA2 艾写科技

👆 BACK to Table of Contents -->

项目参与者

本项目由北京智源人工智能研究院大模型行业应用组发起和主导

项目主要贡献人员:赵璐璐,代永富,史晓峰,周华

About

旨在收集各行业的开源数据,引导和推动行业大模型的发展

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published