金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111677732.0 (22)申请日 2021.12.31 (71)申请人 北京明朝万达科技股份有限公司 地址 100142 北京市海淀区阜外亮甲店1号 恩济西园产业园16号楼B座 (72)发明人 王奎举 喻波 王志海 韩振国  安鹏  (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 代理人 曾红芳 (51)Int.Cl. G06K 9/62(2022.01) (54)发明名称 数据聚类方法、 装置、 存储介质以及电子设 备 (57)摘要 本发明公开了一种数据聚类方法、 装置、 存 储介质以及电子设备。 其中, 该方法包括: 获取基 于待聚类数据的原始数据预先确定的第一最佳 聚类簇数值; 在检测到待聚类数据的增量数据之 后, 对待聚类数据进行二次聚类处理, 得到多个 第二聚类指标值, 并从多个第二聚类指标值中选 取第二目标聚类指标值; 获取第二目标聚类指标 值对应的第二最佳聚类簇数值; 根据第一最佳聚 类簇数值和第二最佳聚类簇数值的比较结果, 更 新聚类模型中的聚类中心, 并采用更新后的聚类 模型对待聚类数据进行K ‑means聚类处理, 得到 目标聚类处理结果。 本发明解决了由于现有技术 中数据聚类方法无法自动满足新增数据聚类需 求, 造成的聚类效率低且聚类结果差的技术问 题。 权利要求书2页 说明书12页 附图4页 CN 114330584 A 2022.04.12 CN 114330584 A 1.一种数据聚类方法, 其特 征在于, 包括: 获取基于待聚类数据的原 始数据预 先确定的第一 最佳聚类簇数值; 在检测到所述待聚类数据的增量数据之后, 对所述待聚类数据进行二次聚类处理, 得 到多个第二聚类指标值, 并从多个所述第二聚类指标值中选取第二目标聚类指标值; 获取所述第二目标聚类指标值对应的第二 最佳聚类簇数值; 根据所述第 一最佳聚类簇数值和所述第 二最佳聚类簇数值的比较结果, 更新 聚类模型 中的聚类中心, 并采用更新后的聚类模型对 所述待聚类数据进 行K‑means聚类处理, 得到目 标聚类处 理结果。 2.根据权利要求1所述的方法, 其特征在于, 获取基于待聚类数据的原始数据 预先确定 的第一最佳聚类簇数值, 包括: 对所述原始数据进行首次聚类处理得到多个第 一聚类指标值, 并从多个所述第 一聚类 指标值中选取第一目标聚类指标值; 获取所述第一目标聚类指标值对应的第一 最佳聚类簇数值。 3.根据权利要求1所述的方法, 其特征在于, 在获取基于待聚类数据的原始数据 预先确 定的第一 最佳聚类簇数值之后, 所述方法还 包括: 采用所述第一最佳聚类簇数值对所述原始数据进行K ‑means聚类处理, 得到首次聚类 处理结果。 4.根据权利要求1所述的方法, 其特征在于, 根据 所述第一最佳聚类簇数值和所述第 二 最佳聚类簇数值的比较结果, 确定聚类模型中的聚类中心, 包括: 当所述比较结果为所述第 一最佳聚类簇数值小于所述第 二最佳聚类簇数值 时, 则基于 所述增量数据和初始聚类中心确定新增聚类中心, 并将所述新增聚类中心和所述初始聚类 中心作为下一次聚类处 理的初始聚类中心; 当所述比较结果为所述第 一最佳聚类簇数值大于所述第 二最佳聚类簇数值 时, 确定所 述增量数据和所述原 始数据的分布不相符合, 并取消聚类处 理流程; 当所述比较结果为所述第 一最佳聚类簇数值等于所述第 二最佳聚类簇数值 时, 则仍将 对所述原始数据进行首次聚类处理确定的聚类中心, 作为下一次聚类处理的初始聚类中 心。 5.根据权利要求4所述的方法, 其特征在于, 在将所述新增聚类中心和所述初始聚类中 心作为下一次聚类的初始聚类中心之后, 所述方法还 包括: 基于所述第 一最佳聚类簇数值和所述第 二最佳聚类簇数值, 计算得到第 三最佳聚类数 值; 根据所述第三最佳聚类簇数值, 循环执行基于所述增量数据选取距离目标, 并将所述 目标作为下一次聚类的初始聚类中心的步骤, 得到对应多个所述初始聚类中心; 将多个所述初始聚类中心对所述聚类模型进行聚类中心的迭代, 得到所述更新后的聚 类模型。 6.一种数据聚类装置, 其特 征在于, 包括: 第一获取模块, 用于获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数 值; 第一处理模块, 用于在检测到所述待聚类数据的增量数据之后, 对所述待聚类数据进权 利 要 求 书 1/2 页 2 CN 114330584 A 2行二次聚类处理, 得到多个第二聚类指标值, 并从多个所述第二聚类指标值中选取第二 目 标聚类指标值; 第二获取模块, 用于获取 所述第二目标聚类指标值对应的第二 最佳聚类簇数值; 第二处理模块, 用于根据所述第 一最佳聚类簇数值和所述第 二最佳聚类簇数值的比较 结果, 更新聚类模型中的聚类中心, 并采用更新后的聚类模型对所述待聚类数据进行K ‑ means聚类处 理, 得到目标聚类处 理结果。 7.根据权利要求6所述的装置, 其特 征在于, 所述第一获取模块还 包括: 选取模块, 用于对所述原始数据进行首次聚类处理得到多个第一聚类指标值, 并从多 个所述第一聚类指标值中选取第一目标聚类指标值; 第一获取子模块, 用于获取 所述第一目标聚类指标值对应的第一 最佳聚类簇数值。 8.根据权利要求6所述的装置, 其特 征在于, 所述装置还 包括: 第二获取子模块, 用于采用所述第一最佳聚类簇数值对所述原始数据进行K ‑means聚 类处理, 得到首次聚类处 理结果。 9.根据权利要求6所述的装置, 其特 征在于, 所述第二处 理模块还 包括: 比较模块, 用于当所述比较结果为所述第 一最佳聚类簇数值小于所述第 二最佳聚类簇 数值时, 则基于所述增量数据和初始聚类中心确定新增聚类中心, 并将所述新增聚类中心 和所述初始聚类中心作为下一次聚类处 理的初始聚类中心; 第一确定子模块, 用于当所述比较结果为所述第 一最佳聚类簇数值大于所述第 二最佳 聚类簇数值时, 确定所述增量数据和所述原 始数据的分布不相符合, 并取消聚类处 理流程; 第二确定子模块, 用于当所述比较结果为所述第 一最佳聚类簇数值等于所述第 二最佳 聚类簇数值时, 则仍将对所述原始数据进行首次聚类处理确定的聚类中心, 作为下一次聚 类处理的初始聚类中心。 10.根据权利要求9所述的装置, 其特 征在于, 所述装置还 包括: 计算模块, 用于基于所述第一最佳聚类簇数值和所述第二最佳聚类簇数值, 计算得到 第三最佳聚类数值; 第三获取子模块, 用于根据所述第三最佳聚类簇数值, 循环执行基于所述增量数据选 取距离目标, 并将所述 目标作为下一次聚类的初始 聚类中心的步骤, 得到对应多个所述初 始聚类中心; 第四获取子模块, 用于将多个所述初始聚类中心对所述聚类模型进行聚类中心的迭 代, 得到所述更新后的聚类模型。 11.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有多条指 令, 所述指令适于由处 理器加载并执 行权利要求1至 5中任意一项所述的数据聚类方法。 12.一种电子设备, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行权利要求1至5中任意一项 所述的数据 聚类方法。权 利 要 求 书 2/2 页 3 CN 114330584 A 3

.PDF文档 专利 数据聚类方法、装置、存储介质以及电子设备

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据聚类方法、装置、存储介质以及电子设备 第 1 页 专利 数据聚类方法、装置、存储介质以及电子设备 第 2 页 专利 数据聚类方法、装置、存储介质以及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:05:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。