专利数据聚类方法、装置、存储介质以及电子设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111677732.0 (22)申请日 2021.12.31 (71)申请人北京明朝万达科技股份有限公司地址 100142 北京市海淀区阜外亮甲店1号恩济西园产业园16号楼B座 (72)发明人王奎举　喻波　王志海　韩振国　安鹏　 (74)专利代理机构北京康信知识产权代理有限责任公司 1 1240 代理人曾红芳 (51)Int.Cl. G06K 9/62(2022.01) (54)发明名称数据聚类方法、装置、存储介质以及电子设备 (57)摘要本发明公开了一种数据聚类方法、装置、存储介质以及电子设备。其中，该方法包括：获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值；在检测到待聚类数据的增量数据之后，对待聚类数据进行二次聚类处理，得到多个第二聚类指标值，并从多个第二聚类指标值中选取第二目标聚类指标值；获取第二目标聚类指标值对应的第二最佳聚类簇数值；根据第一最佳聚类簇数值和第二最佳聚类簇数值的比较结果，更新聚类模型中的聚类中心，并采用更新后的聚类模型对待聚类数据进行K ‑means聚类处理，得到目标聚类处理结果。本发明解决了由于现有技术中数据聚类方法无法自动满足新增数据聚类需求，造成的聚类效率低且聚类结果差的技术问题。权利要求书2页说明书12页附图4页 CN 114330584 A 2022.04.12 CN 114330584 A 1.一种数据聚类方法，其特征在于，包括：获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值；在检测到所述待聚类数据的增量数据之后，对所述待聚类数据进行二次聚类处理，得到多个第二聚类指标值，并从多个所述第二聚类指标值中选取第二目标聚类指标值；获取所述第二目标聚类指标值对应的第二最佳聚类簇数值；根据所述第一最佳聚类簇数值和所述第二最佳聚类簇数值的比较结果，更新聚类模型中的聚类中心，并采用更新后的聚类模型对所述待聚类数据进行K‑means聚类处理，得到目标聚类处理结果。 2.根据权利要求1所述的方法，其特征在于，获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值，包括：对所述原始数据进行首次聚类处理得到多个第一聚类指标值，并从多个所述第一聚类指标值中选取第一目标聚类指标值；获取所述第一目标聚类指标值对应的第一最佳聚类簇数值。 3.根据权利要求1所述的方法，其特征在于，在获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值之后，所述方法还包括：采用所述第一最佳聚类簇数值对所述原始数据进行K ‑means聚类处理，得到首次聚类处理结果。 4.根据权利要求1所述的方法，其特征在于，根据所述第一最佳聚类簇数值和所述第二最佳聚类簇数值的比较结果，确定聚类模型中的聚类中心，包括：当所述比较结果为所述第一最佳聚类簇数值小于所述第二最佳聚类簇数值时，则基于所述增量数据和初始聚类中心确定新增聚类中心，并将所述新增聚类中心和所述初始聚类中心作为下一次聚类处理的初始聚类中心；当所述比较结果为所述第一最佳聚类簇数值大于所述第二最佳聚类簇数值时，确定所述增量数据和所述原始数据的分布不相符合，并取消聚类处理流程；当所述比较结果为所述第一最佳聚类簇数值等于所述第二最佳聚类簇数值时，则仍将对所述原始数据进行首次聚类处理确定的聚类中心，作为下一次聚类处理的初始聚类中心。 5.根据权利要求4所述的方法，其特征在于，在将所述新增聚类中心和所述初始聚类中心作为下一次聚类的初始聚类中心之后，所述方法还包括：基于所述第一最佳聚类簇数值和所述第二最佳聚类簇数值，计算得到第三最佳聚类数值；根据所述第三最佳聚类簇数值，循环执行基于所述增量数据选取距离目标，并将所述目标作为下一次聚类的初始聚类中心的步骤，得到对应多个所述初始聚类中心；将多个所述初始聚类中心对所述聚类模型进行聚类中心的迭代，得到所述更新后的聚类模型。 6.一种数据聚类装置，其特征在于，包括：第一获取模块，用于获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值；第一处理模块，用于在检测到所述待聚类数据的增量数据之后，对所述待聚类数据进权　利　要　求　书 1/2 页 2 CN 114330584 A 2行二次聚类处理，得到多个第二聚类指标值，并从多个所述第二聚类指标值中选取第二目标聚类指标值；第二获取模块，用于获取所述第二目标聚类指标值对应的第二最佳聚类簇数值；第二处理模块，用于根据所述第一最佳聚类簇数值和所述第二最佳聚类簇数值的比较结果，更新聚类模型中的聚类中心，并采用更新后的聚类模型对所述待聚类数据进行K ‑ means聚类处理，得到目标聚类处理结果。 7.根据权利要求6所述的装置，其特征在于，所述第一获取模块还包括：选取模块，用于对所述原始数据进行首次聚类处理得到多个第一聚类指标值，并从多个所述第一聚类指标值中选取第一目标聚类指标值；第一获取子模块，用于获取所述第一目标聚类指标值对应的第一最佳聚类簇数值。 8.根据权利要求6所述的装置，其特征在于，所述装置还包括：第二获取子模块，用于采用所述第一最佳聚类簇数值对所述原始数据进行K ‑means聚类处理，得到首次聚类处理结果。 9.根据权利要求6所述的装置，其特征在于，所述第二处理模块还包括：比较模块，用于当所述比较结果为所述第一最佳聚类簇数值小于所述第二最佳聚类簇数值时，则基于所述增量数据和初始聚类中心确定新增聚类中心，并将所述新增聚类中心和所述初始聚类中心作为下一次聚类处理的初始聚类中心；第一确定子模块，用于当所述比较结果为所述第一最佳聚类簇数值大于所述第二最佳聚类簇数值时，确定所述增量数据和所述原始数据的分布不相符合，并取消聚类处理流程；第二确定子模块，用于当所述比较结果为所述第一最佳聚类簇数值等于所述第二最佳聚类簇数值时，则仍将对所述原始数据进行首次聚类处理确定的聚类中心，作为下一次聚类处理的初始聚类中心。 10.根据权利要求9所述的装置，其特征在于，所述装置还包括：计算模块，用于基于所述第一最佳聚类簇数值和所述第二最佳聚类簇数值，计算得到第三最佳聚类数值；第三获取子模块，用于根据所述第三最佳聚类簇数值，循环执行基于所述增量数据选取距离目标，并将所述目标作为下一次聚类的初始聚类中心的步骤，得到对应多个所述初始聚类中心；第四获取子模块，用于将多个所述初始聚类中心对所述聚类模型进行聚类中心的迭代，得到所述更新后的聚类模型。 11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于由处理器加载并执行权利要求1至 5中任意一项所述的数据聚类方法。 12.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至5中任意一项所述的数据聚类方法。权　利　要　求　书 2/2 页 3 CN 114330584 A 3

专利 数据聚类方法、装置、存储介质以及电子设备

专利数据聚类方法、装置、存储介质以及电子设备