金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111662316.3 (22)申请日 2021.12.31 (71)申请人 陕西优百信息技 术有限公司 地址 710005 陕西省西安市高新区科技五 路北侧橡树星座1幢2单 元22901室 (72)发明人 耿渭宾 张复生  (74)专利代理 机构 山东三邦知识产权代理事务 所(普通合伙) 37308 代理人 文雯 (51)Int.Cl. G06F 16/215(2019.01) G06K 9/62(2022.01) (54)发明名称 企业物料清洗服 务系统及其数据清洗方法 (57)摘要 本发明公开了一种企业物料清洗服务系统 及其数据清洗方法, 数据采集模块, 用于采集企 业物料原始数据; 规则库模块, 根据企业自身需 求定义数据清洗校验规则及权重占比; 数据预处 理模块, 用于识别部分参数错误、 缺失、 重复、 字 形相近并根据余弦定理与编辑距离相似度计算 方式进行计算、 并输出数据排列结果; 数据对比 模块, 根据数据对比计算采集的原始数据与规则 库内数据的相似度, 将相似度超 过阈值的数据标 识为相似数据; 数据确认模块, 将相似数据经过 人工进行数据识别确认是否重复; 数据仓库模 块。 本发明针对源数据不规范、 不准确、 不完整 性 的问题, 采用数据分类、 相似度匹配排序、 再配合 人工干预确认或者智能识别的方式, 有效解决了 数据清洗问题。 权利要求书1页 说明书6页 附图1页 CN 114328495 A 2022.04.12 CN 114328495 A 1.一种企业物料清洗服 务系统, 其特 征在于, 包括: 数据采集模块, 用于采集企业物料原 始数据; 规则库模块, 根据企业自身需求定义数据清洗校验规则及权 重占比; 数据预处理模块, 用于识别部分参数错误、 缺失、 重复、 字形相近并根据余弦定理与编 辑距离相似度计算方式进行计算、 并输出 数据排列结果; 数据对比模块, 根据数据对比计算采集的原始数据与规则库内数据的相似度, 将相似 度超过阈值的数据标识为相似数据; 数据确认模块, 将相似数据经 过人工进行 数据识别确认是否 重复; 数据仓库模块, 将确认输出重复物料清单、 以及将无重复干净 数据流入数据仓库。 2.根据权利要求1所述的企业物料清洗服务系统, 其特征在于, 所述物料原始数据参数 为物料描述, 所述物料描述包括物料名称、 物料规格、 物料 型号、 物料 材质、 其他相应参数。 3.根据权利要求1所述的企业物料清洗服务系统, 其特征在于, 所述数据清洗校验规则 包括大小写匹配、 全角半角匹配、 符号相似匹配、 拼音相同汉字匹配、 学名与俗称匹配、 字 符 串相似匹配、 字形相似匹配。 4.根据权利要求1所述的企业物料清洗服务系统, 其特征在于, 所述对比规则为分词、 同义词、 ES倒排索引、 余弦定理、 编辑距离 。 5.根据权利要求1所述的企业物料清洗服务系统, 其特征在于, 所述余弦定理相是将两 组数据进 行分词, 两组数据为两组向量, 根据每个向量里的字节替换为标量数据, 再进行余 弦夹角计算。 6.根据权利要求5所述的企业物料清洗服务系统, 其特征在于, 所述标量数据为词出现 的频率。 7.如权利要求1 ‑6任一项所述的企业物料清洗服务系统 的数据清洗方法, 其特征在于, 所述数据清洗方法包括如下步骤: S1、 采集物料原 始数据; S2、 将原始物料数据导入数据清洗系统, 将物料描述分词, 将分词后的数据运用余弦定 理计算相似度, 将相似度超过阈值的数据标识为相似数据; S3、 建立数据清洗模型, 定义数据清洗校验规则及权 重占比; S4、 系统按照设置的清洗规则执 行清洗; S5、 系统自动清洗结果进行展示; S6、 根据展示匹配的数据进行智能识别, 识别不准确、 不规范的数据, 如智能识别失败 时进行人工的干预, 并在页面进 行标记操作, 对于不准确数据进 行参数修正, 同时原参数存 档保留记录; 对于错误数据人工识别选择匹配正确数据、 或进 行彻底废弃, 对于重复数据用 户进行重复关联, 并只保留一个有效数据, 此 过程连同S4重复进行, 直至清洗出最终结果; S7、 完成S6后, 展示 最终清洗数据结果, 并生成数据质量报告; S8、 清洗完成, 可在系统中查询历史清洗记录, 同时对清洗结果及质量报告 进行导出。权 利 要 求 书 1/1 页 2 CN 114328495 A 2企业物料清洗服务系统及其数据清洗方 法 技术领域 [0001]本发明涉及数据处理技术领域, 尤其涉及企业物料清洗服务系统及其数据清洗方 法。 背景技术 [0002]随着企业信息化建设的推进, 各类业务系统中数据种类及数据量也在不断增多, 对数据标准化、 规范化管理越来越引起企业的重视, 这其中企业物料数据管理算是数据标 准化过程中非常重要的环 节。 [0003]目前多数企业已建立了自己的E RP系统, 但是在实际的应用过程中, 还是出现了物 料数据不准确、 不一致、 不规范等数据质量问题, 这些数据对企业业务开展, 数据共享等都 造成较大影响, 企业往往需要投入大量的的人力物力和时间去处理这类数据, 针对这类 问 题, 运用合理的数据 清洗方式, 提升数据质量就变的尤为重要。 同时, 人工清洗的物料数据, 由于清洗人员水平业务水平参差不齐, 对物料分类、 描述理解不到位, 在清洗物料的过程 中, 仅是采用原有的使用习惯对物料进行清洗, 缺 乏专业知识支撑, 造成物料分类不合理、 数据不规范。 因此, 如何提供一种企业物料清洗服务系统及其数据清洗方法是本领域技术 人员亟需解决的问题。 发明内容 [0004]本发明的一个目的在于提出企业物料清洗服务系统及其数据清洗方法, 本发明针 对源数据不规范、 不准确、 不完整性的问题, 采用数据分类、 相似度匹配排序、 再配合人工干 预确认或者智能识别的方式, 有效的解决了数据清洗问题, 提高物料 数据质量。 [0005]根据本发明实施例的一种企业物料清洗服 务系统, 包括: [0006]数据采集模块, 用于采集企业物料原 始数据; [0007]规则库模块, 根据企业自身需求定义数据清洗校验规则及权 重占比; [0008]数据预处理模块, 用于识别部分参数错误、 缺失、 重复、 字形相近并根据余弦定理 与编辑距离相似度计算方式进行计算、 并输出 数据排列结果; [0009]数据对比模块, 根据数据对比计算采集的原始数据与规则库内数据的相似度, 将 相似度超过阈值的数据标识为相似数据; [0010]数据确认模块, 将相似数据经 过人工进行 数据识别确认是否 重复; [0011]数据仓库模块, 将确认输出重复物料清单、 以及将无重复干净 数据流入数据仓库。 [0012]优选的, 所述物料原始数据参数为物料描述, 所述物料描述包括物料名称、 物料规 格、 物料型号、 物料 材质、 其他相应参数。 [0013]优选的, 所述数据清洗校验规则包括大小写匹配、 全角半角匹配、 符号相似匹配、 拼音相同汉字匹配、 学名与俗称匹配、 字符串相似匹配、 字形相似匹配。 [0014]优选的, 所述对比规则为分词、 同义词、 ES倒排索引、 余弦定理、 编辑距离 。 [0015]优选的, 所述余 弦定理相是将两组数据进行分词, 两组数据为两组向量, 根据每个说 明 书 1/6 页 3 CN 114328495 A 3

.PDF文档 专利 企业物料清洗服务系统及其数据清洗方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 企业物料清洗服务系统及其数据清洗方法 第 1 页 专利 企业物料清洗服务系统及其数据清洗方法 第 2 页 专利 企业物料清洗服务系统及其数据清洗方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:05:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。