金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210879764.7 (22)申请日 2022.07.25 (71)申请人 江苏金农股份有限公司 地址 210012 江苏省南京市雨 花台区安德 门大街21号-1江苏 科技金融大厦 (72)发明人 王强 马剑 杨昕 王邵圆  王发成  (74)专利代理 机构 南京明杰知识产权代理事务 所(普通合伙) 32464 专利代理师 康蜀伟 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/9538(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06Q 50/26(2012.01) (54)发明名称 一种基于特征词的舆情线索处 理方法 (57)摘要 本发明公开了一种基于特征词的舆情线索 处理方法, 构建线索挖掘模型, 通过线索挖掘模 型对第一舆情信息集合中的每条舆情信息进行 风险点识别, 即根据不同风险点对应的风险识别 模型对相应舆情信息进行梳理, 得到相应风险识 别结果, 将同一舆情信息对应的不同风险点相应 的风险识别结果进行汇总, 得到舆情信息的综合 风险识别结果。 本发明涉及互联网技术领域, 不 仅能够通过数据挖掘的方式来应对不同类型的 线索和风险, 同时能够, 根据舆情形势的变化主 动优化特征词库, 对特征词库不断更新, 不断提 高特征词库对舆情线索分析 结果的精度。 权利要求书4页 说明书10页 附图2页 CN 115168686 A 2022.10.11 CN 115168686 A 1.一种基于特 征词的舆情线索处 理方法, 其特 征在于, 所述方法包括以下步骤: S1、 通过公共接口对网上的舆情信息进行抓取; S2、 根据数据库中的一级特征词对抓取的舆情信息进行数据整理, 筛选包含一级特征 词的舆情信息, 得到第一舆情信息集合, 所述一级特征词包括单元素特征词及多个特征词 构成的特征词组合, 一级特征词包括多个单元素特征词及多个特征词组合, 单元素特征词 表示一个特征词; S3、 构建线索挖掘模型, 通过线索挖掘模型对第一舆情信息集合中的每条舆情信息进 行风险点识别, 即根据不同风险点对应的风险识别模型对相 应舆情信息进行梳理, 得到相 应风险识别结果, 将同一舆情信息对应的不同风险点相应的风险识别结果进行汇总, 得到 舆情信息的综合 风险识别结果; S4、 根据第一舆情信息集合中不同元素对应舆情信息的综合风险识别结果, 对第一舆 情信息集合进行相似元素合并处理, 得到第二舆情信息集合, 并计算第二舆情信息集合中 每个元素对应的综合分析值, 对第二舆情信息集合进 行优化, 得到第三舆情信息集合, 根据 第二舆情信息集 合对一级特 征词进行优化; S5、 根据第三舆情信息集合中每个元素对应舆情信息的综合风险识别结果, 得到舆情 信息对应的风险线索画像及风险地区定位; S6、 根据风险线索画像及风险地区定位, 生成舆情线索, 并按舆情线索对应的舆情信息 相应综合分析值从大到小的顺序, 对舆情线索进行编号并存 储。 2.根据权利要求1所述的一种基于特征词的舆情线索处理方法, 其特征在于: 所述S1中 通过公共接口对网上的舆情信息进行抓取的过程中, 所述公共接口为公有的能够进行数据 抓取的接口, 所述舆情信息包括舆论数据、 政务信息数据及投诉举报数据。 3.根据权利要求1所述的一种基于特征词的舆情线索处理方法, 其特征在于: 所述S2中 根据数据库中的一级特 征词对抓取的舆情信息进行 数据整理的方法包括以下步骤: S2.1、 获取抓取的舆情信息及数据库中存 储的一级特 征词; S2.2、 对抓取的每条舆情信息进行关键词提取, 并将每条舆情信息提取的关键词存储 到一个空白集 合中, 得到每条舆情信息对应的关键词集 合, S2.3、 将每条舆情信息对应的关键词集 合与一级特 征词进行比较, 当关键词集合中的单个元素对应的关键词与一级特征词中的单元素特征词存在相同 情况时, 则对该 条舆情信息进行 标记, 当关键词集合中的单个元素对应的关键词与一级特征词中的单元素特征词均不存在 相同情况时, 则将关键词集合中不同元素对应的关键词组合与一级特征词中的特征词组合 进行比较, 若关键词集合中不同元素对应的关键词组合与一级特征词中的特征词组合存在相同 情况时, 则对该 条舆情信息进行 标记, 若关键词集合中不同元素对应的关键词组合与一级特征词中的特征词组合存在相同 情况时, 则不对该 条舆情信息进行 标记; S2.4、 将抓取的舆情信息中标记的各 条舆情信息进行汇总, 得到第一舆情信息集 合。 4.根据权利要求1所述的一种基于特征词的舆情线索处理方法, 其特征在于: 所述S3 中 得到舆情信息的综合 风险识别结果的方法包括以下步骤:权 利 要 求 书 1/4 页 2 CN 115168686 A 2S3.1、 通过线索挖掘模型获取第一舆情信息集合中每个元素对应的舆情信息及舆情信 息相应的关键词集 合; S3.2、 分别选取不同的风险点对应的风险识别模型对每条舆情信息进行梳理, 每个风 险识别模型对应一个二级特 征词集合, 所述风险识别模型为数据库中预制的模型, 风险识别模型对每条舆情信 息进行梳理的方式为: 获取风险识别模型对应的二级特征 词集合与每条舆情信息对应的关键词集 合的交集, 判断所 得交集是否为空集, 当所得交集为空集时, 则判定相应舆情信息不具 备风险识别模型对应的风险点, 当所得交集不为空集时, 则判定相应舆情信息具备风险识别模型对应的风险点, 并将 所得交集中的元 素作为相应的风险识别结果; S3.3、 获取每条舆情信息对应的各个风险点及每个风 险点对应的风险识别结果, 将同 一舆情信息对应的不同风险点相应的风险识别结果进行汇总, 录入到一个空 白集合中, 得 到相应舆情信息的综合 风险识别结果。 5.根据权利要求1所述的一种基于特征词的舆情线索处理方法, 其特征在于: 所述S4中 得到第二舆情信息集 合的方法包括以下步骤: S4.1、 获取第一舆情信息集合中不同元素对应舆情信息的综合风险识别结果, 并对综 合风险识别结果 为空集的舆情信息采用第二标记方式进行 标记; S4.2、 选取第一舆情信息中未被第二标记方式标记元素中的任意两个构成一个元素 对, 得到所有不同的元 素对构成的集 合, 记为元 素对集合; S4.3、 计算每个元素对中两个元素对应舆情信息的综合风险识别结果之间的匹配度, 所述匹配度等于两个舆情信息的综合风险识别结果交集中元素个数, 与两个舆情信息的综 合风险识别结果对应元 素个数的最小值之间的比值, 记为 N(A1∩A2)/{N(A1),N(A 2)}min 其中, N(A1∩A2)表示两个舆情信息 的综合风险识别结果交集中元素个数, N(A1)两个 舆情信息中第一个舆情信息的综合风险识别结果对应元素个数, N(A2)两个舆情信息中第 二个舆情信息的综合 风险识别结果对应元 素个数; S4.4、 对第一舆情信息集 合进行相似元 素合并处 理, 当元素对对应的匹配度大于等于第一阈值时, 则判定元素对中的两舆情信息相似, 将 两者进行合并, 合并结果为两个舆情信息构成的数组, 合并结果对应的综合风险识别结果 为元素对中两个元素分别对应舆情信息的综合风险识别结果的并集, 所述第一阈值为数据 库中预制的常数; 当元素对对应的匹配度小于第一阈值时, 则判定元素对中的两舆情信息不相似, 不将 两者进行合并; 当存在多个元素对中元素相互之间对应的匹配度均大于等于第 一阈值时, 则判定多个 元素对中所有元素对应的舆情信息相似, 将多个元素对中的所有元素进行合并, 合并结果 为多个元素对中的所有元素对应舆情信息构成的数组, 合并结果对应的综合风险识别结果 为多个元 素对中的所有元 素分别对应舆情信息的综合 风险识别结果的并集; 当多个元素对对应元素中存在第 一元素与第 二元素、 第 二元素与第 三元素的匹配度 大 于等于第一阈值且第一元素与第三元素的匹配度小于第一阈值时, 则计算第一差值与第二 差值的和除以第一数值得到的商, 记为第一相对值, 所述第一数值为第二元素与第三元素权 利 要 求 书 2/4 页 3 CN 115168686 A 3

PDF文档 专利 一种基于特征词的舆情线索处理方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于特征词的舆情线索处理方法 第 1 页 专利 一种基于特征词的舆情线索处理方法 第 2 页 专利 一种基于特征词的舆情线索处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:41:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。