金融行业标准网
ICS 33.020 CCS M10 YD 中华人民共和国通信行业标准 YD/TXXXXXXXX 面向人工智能的数据集质量通用评估方法 总体要求 General assessment of data set quality for artificial intelligence Overall requirements (报批稿) XXXX-XX-XX 发布 XXXX-XX-XX实施 发布 中华人民共和国工业和信息化部 TXXXX-XXXX YD/T 前言 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起 草。 本文件是《面向人工智能的数据集质量》系列标准之一。该系列标准结构如下: 一面向人工智能的数据集质量通用评估方法总体要求 一面向人工智能的数据集质量通用评估规范语音数据集总体要求 一面向人工智能的数据集质量通用评估规范图像数据集人脸图像 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任 本文件由中国通信标准化协会提出并归口。 本文件起草单位:中国信息通信研究院、南京新一代人工智能研究院有限公司,华为技术有限公司, 北京百度网讯科技有限公司。 本文件主要起草人:程强,刘姿杉,李荪,周裕健,燕江依。 II YD/TXXXX-XXXX 面向人工智能的数据集质量通用评估方法总体要求 1范围 本文件规定了人工智能数据集质量评估的评估流程、评估指标与评估方法,以及人工智能数据集进 行质量管理的能力要求,包括流程管理、质量评估、组织制度三方面。 本文件适用于指导数据服务需求方对人工智能数据集的质量管理引导与选型支撑,也可作为数据提 供方衡量人工智能数据集质量管控能力水平的标准依据。 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T5271.1-2000信息技术词汇第1部分:基本术语 GB/T5271.17-2010信息技术词汇第17部分:数据库 3 术语和定义 下列术语和定义适用于本文件。 3. 1 数据data 信息的可再解释的形式化表示,以适用于通信、解释或处理。 [来源:GB/T5271.1-2000,01.01.02] 3. 2 人工智能数据集artificialintelligencedataset 具有一定主题,可以标识并可以用于人工智能训练、验证及测试等处理过程的数据形式。 3. 3 数据提供方dataprovider 为数据提供AI数据集,负责从数据源进行数据采集与预处理等操作。 3. 4 数据需求方datacustomer 1 YD/TXXXX-XXXX 利用数据提供方提供的AI数据集来开展AI训练/推理活动,提供面向AI训练/推理的计算设施和 工具、数据处理、训练和推理等服务。 3. 5 元数据metadata 关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和 数据易变性的数据。 [来源:GB/T5271.17-2010,17.06.05] 3. 6 数据集质量datasetquality 在指定条件下使用时,数据集的特性满足机器学习算法所需明确和隐含要求的程度。 4缩略语 下列缩略语适用于本文件。 AI:人工智能(ArtificialIntelligence) 5AI数据集质量管理能力要求 5.1流程管理 5.1.1方案设计 指通过分析理解目标需求,对数据生产和应用方案进行规划、设计的过程,并考虑各种限制条件和 可行性因素,基于方案进行项目前期准备工作,以实现高质量的人工智能数据集生产和应用。 应具备以下基础能力: 一一需求分析能力,包括项目范围识别、用户需求分析、业务需求分析、技术需求分析、应用场景 分析、项目工期分析等; 一项目方案设计能力,包括数据采集方案设计、数据标注方案设计、数据存储方案设计、数据验 收方案设计、数据交付方案设计、工具应用方案设计、实施时间安排设计等; 一流程设计能力,根据数据处理环节设计合理的项目流程,实现数据的自动化采集、处理、清洗、 存储和分析; 一预算编制能力,能够结合项目和业务需求,根据现有的资源和投入产出的效益,制定计划预算。 可具备以下高级能力: 一一行业调研能力,包括行业现状调研、行业竞争情况分析等; 一可行性分析能力,即制定数据采集方案前,对实际采集条件和数据特征进行充分的可行性分析 的过程,包括对数据可获取性、采集效率、项目成本、数据质量、技术可行性、经济可行性、社会 可行性等方面进行分析,确保方案设计符合实际情况和可持续发展; 2 YD/TXXXX-XXXX 一方案调整和优化能力,通过对项目实施方案进行评估,收集和分析执行过程中的数据质量、采 集效率和成本等指标,调整和优化执行方案,以达到降本增效,提升数据质量的目的。 5.1.2数据采集 指对目标领域、目标场景的特定原始数据进行收集的过程,采集的数据以图像类、文本类、语音类 视频类等非结构化数据为主。 应具备以下基础能力: 一一采集对象定义能力,对采集对象进行准确定义和说明,包括采集对象的类型、属性、数据格式 数据量等: 一一采集环境确立能力,包括保持数据采集环境一致性、保持数据采集环境稳定性等; 一一数据采集能力,可通过人工或自动化的方式实现数据采集; 一一多渠道采集能力,包括线下数据采样、公共网络资源采集、设备端数据采集、组合方式数据采 集等。 可具备以下高级能力: 一一数据采集工具应用能力,具备专业、安全可靠的数据采集工具,可根据业务需求和场景特点, 选择适合的数据采集工具: 一一数据生成能力,包括数据增强、数据生成、数据拓展等; 一一数据筛选能力,包括判定无效数据、判定低质量数据、辅助查重、辅助质检等; 一一风险评估能力,对数据采集过程中可能存在的风险和隐惠,采取相应的措施进行风险预测、管 理和控制的能力,包括风险概率计算、影响程度评估等; 一一数据采集流程优化能力,在数据采集过程中对流程进行调整和优化,提高数据采集效率和稳定 性。 5.1.3数据处理 指在人工智能模型训练前,原始数据通过数据转换、数据清洗和数据标注等环节,将大量毫无规律 的数据转化为有价值、有意义的数据,以此保证模型训练的效果。 应具备以下基础能力: 一一数据转换能力,在实际的数据处理过程中,需要将数据从一种格式或形式转换为另一种格式或 形式,以适应不同的应用场景和算法模型,包括数据格式转换、数据类型转换、数据结构转换等: 一一数据规约能力,为确保人工智能数据集适用于特定的算法模型,需要对数据进行规约和标准化, 以确保数据的一致性和可比性: 一一数据清洗能力,对数据进行清理和修复,使其符合数据处理的要求。包括去除带有性别偏见、 种族歧视、暴力、反动言论和当前社会道德规范与法律法规的数据以及容易引起冲突和对立的数据、缺 失值处理、异常值处理等,在此过程中需明确清洗目标、掌握清洗方法、使用清洗工具、验证清洗结果; 3 YD/TXXXX-XXXX 一数据脱敏能力,包括敏感信息检测、删除、替换以及个人信息隐私保护等:; 一一数据标注能力,为让数据更好地为人类和机器理解和使用,需要对数据进行标记和分类,应具 备基础数据标注方式、标注规则与说明、多类型标注工具、标注结果整理等; 一一数据质量评估能力,具备完善的数据质量评估手段,可利用质检工具和评估方案对已采集和处 理的数据进行质量评估; 一一数据质量改进能力,根据数据质量的评估结果,分析数据质量问题,制定和实施质量改进计划, 并跟踪改进效果; 一一数据增强能力,包括使用各类数据增强方式扩充数据和保证扩充数据的有效性; 一一数据集成能力,将来自多个数据源的数据进行整合,生成更大的数据集,丰富数据源和数据类 型。包括分析数据结构、设计整合方案、编写整合脚本、验证整合结果; 数据匹配能力,掌握常见的数据匹配方法,如基于相似性或使用多个字段进行匹配,以确保各 种数据之间的关系正确认定并产生有效的组合; 一一数据处理流程记录能力,对于数据处理过程需要进行全流程记录,便于后续对数据处理过程进 行检查和复用。 可具备以下高级能力: 一一数据挖掘与分析能力,利用技术手段进行数据特征的分析、提取与整合,获取数据集的内部机 制和数据特性,发现数据规律和趋势,为业务决策提供支持和参考。实现数据挖掘和分析能力需要掌握 常见的数据挖掘和分析技术和方法,以及相应的编程工具和软件库; 一一智能标注能力,包括主动学习、模型预标、辅助标注工具、智能数据验收等: 一一自动化能力,利用相关工具或平台实现自动化的数据处理流程,如自动数据转换、自动质检等。 5.1.4模型应用 指将经过处理的数据应用到人工智能模型训练的过程 应具备以下基础能力: 一一流水线管理能力,包括流水线监控、流水线进度查询、流水线调度、流水线质量反馈、流水线 元信息收集等: 一一训练任务调度能力,自动管理、调度和监控大规模机器学习训练任务,包括任务队列显示、任 务分配能力、任务执行能力、并行化训练、任务控制能力、任务结果查询等; 一一资源调配能力,根据任务的计算资源要求,动态调整资源分配和训练任务优先级; 一一模型数据验证能力,包括数据验证模块、线上数据一致性分析等; 一一数据回流能力,将训练、测试和推断过程中生成的数据回流到原始数据源或者数据存储中,包 括训练数据回流、标注数据回流、测试数据回流、模型输出数据回流等。 可具备以下高级能力: 一一模型调优能力,基于模型评估效果进行参数、结构等模型效果调优; 4 Y

.pdf文档 YD-T 6486-2025 面向人工智能的数据集质量通用评估方法 总体要求

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
YD-T 6486-2025 面向人工智能的数据集质量通用评估方法 总体要求 第 1 页 YD-T 6486-2025 面向人工智能的数据集质量通用评估方法 总体要求 第 2 页 YD-T 6486-2025 面向人工智能的数据集质量通用评估方法 总体要求 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2026-01-25 04:24:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。