金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111673274.3 (22)申请日 2021.12.31 (71)申请人 语联网 (武汉) 信息技 术有限公司 地址 430000 湖北省武汉市东湖新 技术开 发区高新大道 999号未来科技城B2栋 (72)发明人 张文博  (74)专利代理 机构 北京中北知识产权代理有限 公司 11253 代理人 吴静 (51)Int.Cl. G06F 40/49(2020.01) G06F 40/58(2020.01) G06F 40/44(2020.01) G06K 9/62(2022.01) (54)发明名称 一种相似领域机 器翻译引擎自动选择方法 (57)摘要 本发明提供一种相似领域机器翻译引擎自 动选择方法, 包括构建机器翻译引擎的领域表达 语料; 向量化领域表达语料, 并利用聚类方法对 向量进行索引存储; 将待翻译文本转化为向量表 达, 对所述向量从检索数据库中检索相似度最大 的N个向量; 根据相似度和检索到向量所表达的 领域指派对应的机 器翻译引擎。 权利要求书2页 说明书4页 CN 114218965 A 2022.03.22 CN 114218965 A 1.一种相似领域机器翻译引擎自动选择 方法, 其特 征在于, 包括, S1、 构建机器翻译引擎的领域表达语料; S2、 向量化领域表达语料, 并利用聚类方法对向量进行索引存 储; S3、 将待翻译文本转化为向量表达, 对所述向量从检索数据库中检索相似度最大的N个 向量; S4、 根据相似度和检索到向量所表达的领域指派对应的机器翻译引擎。 2.根据权利要求1所述的一种相似领域机器翻译引擎自动选择方法, 其特征在于, 所述 S1包括以下步骤: S101、 获取 大领域范围的领域平行语料 数据; S102、 使用多个子领域机器翻译引擎分别翻译所述S101中的所述平行语料中源语言文 本; S103、 使用所述平行语料的参考译文对所有机器翻译引擎输出的每一句译文按照BLEU 值进行打 分, 获得分数Si, j, 表示第i个机器翻译引擎对第j句文本的BLEU分数; S104、 对所述第j句文本, 假设有m个机器翻译引擎, 则分别有S1, j, S2, j…Sm, j个分数, 然 后将这m个分数从高到低排序, 得到Sa, j, Sb, j, Sc, j…Sm, j; S105、 在排序 好的分数中, 选择和分数最大值Sa, j差值小于1的前几个分数, 这里假设为 Sb, j和Sc, j, 则将所述第j句文本归类为a、 b、 c三个机器翻译引擎的领域表达语料; S106、 对所述平行语料中每个句子按照所述S103至S105进行划 分, 得到每个机器翻译 引擎对应的领域表达语料。 3.根据权利要求1所述的一种相似领域机器翻译引擎自动选择方法, 其特征在于, 所述 S2包括: S201、 将每个机器翻译引擎对应的领域表达语料中的每个句子, 使用BERT预训练模型 转化为句向量; S202、 对每个机器翻 译引擎对应的领域表达语料的句向量集合, 使用K ‑means方法进行 聚类。 4.根据权利要求3所述的一种相似领域机器翻译引擎自动选择方法, 其特征在于, 所述 S202包括以下步骤: S2021、 随机 选择K个向量, 作为聚类中心; S2022、 计算集合中每个向量和这K个中心向量的距离; S2023、 对每 个向量从K个中心向量中选择最小的一个作为该向量的类别; S2024、 对每 个类别使用该类中所有向量的均值, 作为该类新的中心向量; S2025、 迭代所述S202 2至S2024 直到K个中心向量 不再发生大的变化。 5.根据权利要求1所述的一种相似领域机器翻译引擎自动选择方法, 其特征在于, 所述 S3包括以下步骤: S301、 将待翻译 文本使用BERT转 化为句向量; S302、 对所述句向量分别从m个机器翻译引擎对应的检索数据库中检索相似度最大的N 个向量, 一共得到m*N个向量; S303、 再从这m*N个向量中, 选择相似度最大的N个向量。 6.根据权利要求5所述的一种相似领域机器翻译引擎自动选择方法, 其特征在于, 所述权 利 要 求 书 1/2 页 2 CN 114218965 A 2S4包括: S401、 所述 N个向量对应的相似度为d1, d2 …dN; S402、 根据N个相似度分数, 按照下式计算机器翻译引擎的概 率分布: 其中, a表示机器翻译引擎a; di表示属于机器翻译引擎a检索库的向量; P(a)表示对待 翻译文本应该使用机器翻译引擎a的概 率; S403、 将概率最大的机器翻译引擎指派为待翻译 文本的翻译引擎。权 利 要 求 书 2/2 页 3 CN 114218965 A 3

.PDF文档 专利 一种相似领域机器翻译引擎自动选择方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种相似领域机器翻译引擎自动选择方法 第 1 页 专利 一种相似领域机器翻译引擎自动选择方法 第 2 页 专利 一种相似领域机器翻译引擎自动选择方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:04:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。