金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210401038.4 (22)申请日 2022.04.14 (71)申请人 深圳市医未医疗科技有限公司 地址 518000 广东省深圳市福田区福保街 道福保社区红柳道2号顺丰工业城辅 助楼二层 (72)发明人 王思伦  (74)专利代理 机构 深圳市诺正鑫泽知识产权代 理有限公司 4 4689 专利代理师 颜燕红 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/2458(2019.01) G06F 40/295(2020.01) G06F 40/284(2020.01)G06F 16/36(2019.01) G06F 16/906(2019.01) G06F 16/901(2019.01) G06N 3/04(2006.01) (54)发明名称 非结构化数据转 化及存储方法和装置 (57)摘要 本发明涉及人工智能技术领域, 揭露了一种 非结构化数据转化及存储方法和装置, 包括: 获 取医疗数据集合, 对所述医疗数据集合中的数据 进行超图聚类, 得到多个超图子集, 构建实体及 关系识别模 型, 其中所述实体及关系识别模型包 括多层双向LSTM网络、 词性特征识别模块及CRF 模型, 基于所述词性特征识别模块、 所述多层双 向LSTM网络对所述多个超 图子集中的数据进行 实体识别及词性拼接, 并通过所述CRF模型对拼 接后的实体进行关系识别, 得到识别到的实体结 果及关系结果, 基于所述实体结果及所述关系结 果构建医疗知识图谱, 将所述医疗知识图谱转化 为结构化数据并存储至预构建的数据库中。 本发 明可解决医疗数据不 易查询且难以存储的问题。 权利要求书3页 说明书11页 附图4页 CN 114840560 A 2022.08.02 CN 114840560 A 1.一种非结构化数据转 化及存储方法, 其特 征在于, 所述方法包括: 获取医疗数据集 合, 对所述医疗数据集 合中的数据进行超图聚类, 得到多个超图子集; 构建实体及关系识别模型, 其中所述实体及关系识别模型包括多层双向LSTM网络、 词 性特征识别模块及CRF模型; 基于所述词性特征识别 模块、 所述多层双向LSTM网络对所述多个超图子集中的数据进 行实体识别 及词性拼接, 并通过所述CRF模型对拼接后的实体进 行关系识别, 得到识别到的 实体结果及关系结果; 基于所述实体结果及所述关系结果构建医疗知识图谱, 将所述医疗知识图谱转化为结 构化数据并存 储至预构建的数据库中。 2.如权利要求1所述的非结构化数据转化及存储方法, 其特征在于, 所述对所述医疗数 据集合中的数据进行超图聚类, 得到多个超图子集, 包括: 根据所述医疗数据集合构建属性三元组集合, 并基于所述属性三元组集合中的属性值 构建索引集 合; 基于FP‑growth关联规则挖掘算法从所述索引集 合中挖掘出 频繁项集 合; 根据所述频繁项集 合的平均置信度构建多个超图; 计算所述多个超图的重合程度, 将所述重合程度小于预设程度阈值的超图进行超图分 割, 并将所述重合程度大于等于所述预设程度阈值的超图进行超图融合, 汇总超图融合及 超图分割后的超图得到所述多个超图子集。 3.如权利要求2所述的非结构化数据转化及存储方法, 其特征在于, 所述基于FP ‑ growth关联规则挖掘算法从所述索引集 合中挖掘出 频繁项集 合, 包括: 计算所述索引集合中每个属性值的支持度, 根据 所述支持度对所述属性三元组集合中 的三元组进行排序, 得到初始频繁项顺序集 合; 按照所述初始频繁项顺序集合中的顺序遍历所述医疗数据集合, 并根据遍历路径构建 FP树; 对所述FP树中的相同节点进行累加, 得到包 含多个频繁项子集的频繁项集 合。 4.如权利要求1所述的非结构化数据转化及存储方法, 其特征在于, 所述构建实体及关 系识别模型, 其中所述实体及关系识别模型包括多层双向LSTM网络、 词性特征识别模块及 CRF模型, 包括: 获取预设的包括第一前向LSTM网络及第一反向LSTM网络的双向LSTM网络, 在 所述第一 前向LSTM后拼接一层第二反向LSTM网络; 获取预设的双向RNN网络, 在所述双向RNN网络后拼接注意力机制单元, 得到词性特征 识别模块; 将所述词性特征识别模块串联至所述第二反向LSTM网络之后, 并在所述词性特征识别 模块之后添加CRF模型, 得到所述实体及关系识别模型。 5.如权利要求4所述的非结构化数据转化及存储方法, 其特征在于, 所述基于所述词性 特征识别模块、 所述多层双向LSTM网络对所述多个超图子集中的数据进 行实体识别及词性 拼接, 并通过所述CRF模 型对拼接后的实体进 行关系识别, 得到识别到的实体结果及关系结 果, 包括: 对所述超图子集中超图顶点对应的医疗数据文本进行词性标注, 得到词性 集合;权 利 要 求 书 1/3 页 2 CN 114840560 A 2利用所述词性特征识别模块及所述词性集合对所述医疗数据文本中的词语进行词性 融合及标签预测, 得到标准词性融合向量及所述标准词性融合向量对应的预测标签; 利用所述第一反向LSTM网络 输出所述标准词性融合向量的预测标签的发射分数; 利用所述CRF模型输出所述标准词性融合向量的预测标签的转移分数, 利用所述发射 分数及所述转移分数计算损失值, 并将所述损失值小于预设损失 阈值时的标准词性融合向 量作为所述实体结果, 将所述标准词性融合向量对应的预测标签作为所述关系结果。 6.如权利要求5所述的非结构化数据转化及存储方法, 其特征在于, 所述利用所述词性 特征识别模块及所述词性集合对所述医疗数据文本中的词语进行词性融合及标签预测, 得 到标准词性融合向量及所述标准词性融合向量对应的预测标签, 包括: 利用所述第 一前向LSTM网络对所述医疗数据文本中的词语进行识别, 得到隐藏向量集 合; 利用所述双 向RNN网络输出所述词性集合对应的词性特征集合, 并利用所述注意力机 制单元对所述隐藏向量 集合及所述词性特 征集合进行词性融合, 得到原 始词性融合向量; 利用所述第二反向LSTM网络学习所述原始词性融合向量在所述医疗数据文本中上下 文的语义信息, 并输出 标准词性融合向量及所述标准词性融合向量的预测标签。 7.如权利要求1所述的非结构化数据转化及存储方法, 其特征在于, 所述基于所述实体 结果及所述关系结果构建医疗知识图谱, 将所述医疗知识图谱转化为结构化数据并存储至 预构建的数据库中, 包括: 获取预构建的医疗数据画像, 基于所述医疗数据画像的画像结构将所述实体结果及所 述关系结果 填充至所述医疗数据画像中, 得到所述医疗知识图谱; 将所述医疗数据画像中的信 息标签作为属性字段, 根据 所述关系结果匹配所述属性字 段, 并将匹配成功的关系结果对应的实体结果 填充至所述属性字段中; 将所述画像结构作为属性字段的层级关系, 基于填充后的属性字段及所述层级关系构 建数据存 储表并存 储至所述数据库中。 8.如权利要求5所述的非结构化数据转化及存储方法, 其特征在于, 所述利用所述发射 分数及所述 转移分数计算损失值, 包括: 利用下述公式计算所述损失值 loss: 其中, n为 预测标签数, 为LSTM网络中预测标签的真 实路径的发射分数, 为CRF模型中预测标签的真实路径的转移分数, 为预测路径的 分数, 为预测标签的预测路径。 9.如权利要求6所述的非结构化数据转化及存储方法, 其特征在于, 利用下述公式计算 所述标准词性融合向量, 包括: 权 利 要 求 书 2/3 页 3 CN 114840560 A 3

.PDF文档 专利 非结构化数据转化及存储方法和装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 非结构化数据转化及存储方法和装置 第 1 页 专利 非结构化数据转化及存储方法和装置 第 2 页 专利 非结构化数据转化及存储方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:00:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。