数据启元计划 | 精选高质量 AI 数据集第三弹

聚合数据与苏州市人工智能有限公司联合举办的高质量 AI 数据集征集活动「数据启元计划」仍在火热进行中。欢迎开发者们积极提供高质量数据集,诚邀大家加入这场从入驻到变现的双向奔赴之旅~

目前,通过我们的严格筛选及权威审核,保证数据集具备权威性、时效性与合规性。精选数据集正在聚合数据官网持续上架中,为开发者、科研机构及企业提供"即取即用"的数据集燃料。

接上期,我们继续挑选了五大高质量数据集,作为精选合集第三弹,它们分别是:

  • 有机合成数据集

  • 多语言 ASR 训练音频数据集

  • 医疗大模型预训练医疗知识数据集

  • 上海市新能源汽车时空趋势数据集

  • 半导体行业前沿问题解决方案数据集

有机合成数据集

数据集概述

本数据集通过版面分析与 OCR 识别技术,从多源文献中提取化学反应的结构化描述及反应方程式图像。结合自然语言处理,精准解析底物、产物、溶剂、试剂、催化剂、反应条件及产率等关键参数,构建标准化数据模型。

数据集特色

  • 要素齐全:底物、产物、溶剂、试剂、催化剂、温度、时间、产率。

  • 三模态同包:JSON 机器可读 + 方程式图像 + 原文 PDF。

  • 统一标准:OCR+NLP 清洗,字段、命名、单位标准规范化。

  • 真实多样:企业一线记录,覆盖多条路线、不同规模,数据鲜活。

  • AI 友好:SMILES、连续产率、成对图文,可直接喂给多模态模型。

  • 可扩展:留 PDF 溯源,支持持续追加新文献,数据血缘清晰。

应用场景

  • 药物分子设计

    基于成分-条件-产率的关联数据,快速筛选合成路径。

  • 工艺优化

    分析反应参数与产物性能的映射关系量化变量对反应效率的影响。

  • 反应机理研究

    结合分子结构与反应条件数据,构建反应动力学模型与机理分析。

  • 条件推荐系统

    输入目标分子,系统即时输出最优组合,减少试错次数。

  • 高通量实验(HTE)导航

    先用数据集训练代理模型,再指导机器人优先合成预期高产区。

  • 绿色化学评分

    整合 E-factor、原子经济性等指标,自动量化不同路线的环境代价。

  • 教学案例库

    一键生成带机理、产率、图像的实验案例,支持本科及研究生教学。

多语言 ASR 训练音频数据集

数据集概述 

本数据集包含超过10万小时的大规模、多语言语音音频及其对应的高质量文本转录。数据集涵盖全球44种主要语言,全面覆盖了主流语种及重要区域语言,具备极强的语言多样性与代表性。

数据集特色

  • 规模庞大

    包含超过10万小时的大规模语音音频数据。

  • 语言覆盖广泛

    涵盖全球44种主要语言,包括主流语种及重要区域语言。

  • 真实场景录音

    核心数据来源于多样化的真实场景录音,确保自然性与实用性。

  • 高质量文本转录

    提供音频对应的高质量文本转录,保证训练数据的准确性和可靠性

  • 灵活定制服务

    支持需求数据的灵活扩充和优化,可根据特定场景进行定制。

  • 多场景适用性

    包含各种真实环境噪音的音频,适用于复杂环境下的模型训练。

应用场景

  • 通用 ASR 模型训练

    为构建或优化支持多种语言的统一语音识别模型提供充足训练素材。

  • 低资源语言模型提升

    针对数据稀缺的语言,利用数据集中对应语料显著提升其识别性能。

  • 垂直领域 ASR 微调

    为各专业领域提供富含行业术语的语音数据,打造专用识别引擎。

  • 复杂环境下的鲁棒性训练

    利用真实环境噪音的音频训练出嘈杂环境下表现稳定的 ASR 模型。

  • 算法公平性与包容性评估

    利用多语言、多口音数据评估不同 ASR 系统的性能差异。

医疗大模型预训练医疗知识数据集

数据集概述

本医学数据资源涵盖多维度内容,数据总量达500万条,含临床所见65万条、手术及操作10万条、检查检验6万条、药品药物490万条。以及知识问答库75万条、图谱三元组145万条、医学文献45万本。

数据集特色

  • 共500万条数据,涵医疗知识库、问答库、图谱三元组和医学文献。

  • 临床所见65万条、手术及操作10万条。

  • 检查检验6万条、药品药物490万条。

  • 包含75万条知识问答库和145万条图谱三元组,及45万本医学文献。

  • 所有知识库数据经过专业清洗和学校专业老师矫正标注。

  • 具备合规凭证和正规知识产权授权,确保数据使用的合法性。

  • 作为医疗领域专业数据集,在准确性和权威性方面有充分保障。

  • 专为医疗大模型预训练设计,属于行业通识数据集。

  • 覆盖医疗领域的核心知识要素,适合构建医疗 AI 应用。

应用场景

  • 医疗科研场景

    可支撑临床研究、药物研发、疾病机制分析等课题的数据检索佐证。

  • 产品开发场景

    用于医疗 AI 产品、医疗 APP、医学教育平台数据训练等功能搭建。

  • 医学教育场景

    为院校教学、学生实训提供标准化知识库、问答素材及文献参考。

  • 临床辅助场景

    供医疗机构搭建内部知识查询系统,帮医护人员快速获取核心信息。

  • 行业合规场景

    合规化数据可作为医疗相关企业资质审核、产品合规备案支撑材料。

上海市新能源汽车时空趋势数据集

数据集概述 

本数据集提供上海市各区域新能源汽车月度充电趋势数据,涵盖充电车辆数、充电次数及快慢充占比等关键指标,适用于新能源汽车产业分析、城市能源规划与充电基础设施布局等研究领域,为政策制定与市场预测提供量化依据。

数据集特色

  • 提供上海市各区域月度充电趋势数据,具备清晰的时间和空间维度

  • 覆盖城市级别的新能源汽车使用模式,为区域性研究提供基础。

  • 包含充电车辆数、充电次数等基础使用数据。

  • 提供快慢充占比分析,反映用户充电行为偏好。

  • 涵盖新能源汽车使用的关键运营指标。

  • 适用于新能源汽车产业分析,支持市场趋势判断。

  • 为城市能源规划提供量化依据,助力基础设施科学布局。

  • 支撑政策制定和市场预测,具有明确的决策支持价值。

应用场景

  • 政府与政策制定:监测新能源汽车充电设施使用情况。

  • 充电设施运营商:分析用户充电行为习惯(快充偏好、时段分布)。

  • 新能源汽车企业:了解用户实际充电需求与车型占比。

  • 能源管理与电网调度:预测区域充电负荷,支持电网调峰填谷。

  • 研究机构与咨询公司:开展新能源汽车渗透率、能源替代效应研究。

半导体行业前沿问题解决方案数据集

数据集概述

本数据集是一个针对半导体行业前沿问题构建的高质量专业问答数据集。每个样本包含完整的专业技术问题、详细的参考答案、系统化的评分准则以及主流 AI 模型的真实回复与评估结果。数据集以"问题-答案-评估"三位一体的结构化形式呈现,深度聚焦半导体技术领域的核心难点与创新应用。

数据集特色

  • 专业化程度高:针对半导体行业前沿问题构建的专业问答数据集。

  • 结构化设计:采用"问题-答案-评估"三位一体的结构化形式呈现。

  • AI 模型评估集成:包含主流 AI 模型的真实回复与评估结果。

  • 多维度评估体系:包含系统化的评分准则,支持多角度的质量评估。

  • 真实 AI 记录:记录主流 AI 模型在半导体专业问题上的真实表现。

  • 行业针对性强:聚焦半导体特定行业,内容专业性和技术深度较高。

  • 更新及时性:更新频率周更数据集,内容相对更新及时。

  • 标准化格式:采用统一的数据格式和标准。

应用场景

  • 专业领域技术深度评估

    通过标准化的评分准则,系统性评估不同 AI 模型在半导体等专业技术领域的知识准确度、逻辑严谨性和细节把握能力。

  • AI 模型优化与专业化训练

    用于微调通用大模型,提升半导体领域的专业知识水平和回答质量。

  • 半导体专业教育

    可作为专业技术人员和学生的智能学习工具,提供标准答案参考。

  • 企业知识管理

    构建专业领域的智能问答系统,为企业内部技术交流提供 AI 支持。

「数据启元计划」正在努力打造开放、创新、安全的数据共享生态。我们期待更多合作伙伴参与进来,共同书写数据赋能产业的崭新篇章。如果对以上数据集感兴趣,欢迎访问聚合数据官网了解更多!大量精选数据集请持续关注本公众号内容~

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论