金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211128161.X (22)申请日 2022.09.16 (71)申请人 深圳市智农慧耕科技有限公司 地址 518108 广东省深圳市宝安区石岩街 道塘头社区松白公路西侧宗泰电商 科 创园A226 (72)发明人 王勃然 陈俊杰 张世鹏 钟启元  陈宇卿 曾迎春  (74)专利代理 机构 北京隆源天恒知识产权代理 有限公司 1 1473 专利代理师 林安堂 (51)Int.Cl. G06F 30/20(2020.01) G06F 30/27(2020.01) G06N 3/08(2006.01)G06K 9/62(2022.01) G01D 21/02(2006.01) (54)发明名称 一种策略网络训练方法、 温室管控方法、 装 置及系统 (57)摘要 本发明提供了一种策略网络训练方法、 温室 管控方法、 装置及系统, 训练方法包括: 获取步 骤, 获取虚拟作物模型输出的温室的当前状态数 据, 所述虚拟作物模型用于模拟 外部环境数据变 换对所述 温室内作物生长的影 响; 将所述当前状 态数据输入策略网络, 输出温室管控策略; 根据 所述温室管控策略调节所述虚拟作物模型中的 外部环境数据, 更新所述虚拟作物模 型中的所述 当前状态数据, 并根据奖励函数确定所述温室管 控策略的奖励; 根据所述奖励更新所述策略网 络, 返回执行所述获取步骤, 循环迭代直至所述 策略网络满足预设终止条件, 获得训练好的策略 网络。 本发 明的技术方案能够降低温室管控对人 工经验的依赖, 提高温室管控策略的精度。 权利要求书2页 说明书10页 附图4页 CN 115374650 A 2022.11.22 CN 115374650 A 1.一种策略网络训练方法, 其特 征在于, 包括: 获取步骤, 获取虚拟作物模型输出的温室的当前状态数据, 所述虚拟作物模型用于模 拟外部环境数据变换对所述温室内作物生长的影响; 将所述当前状态数据输入策略网络, 输出温室管控策略; 根据所述温室管控策略调节所述虚拟作物模型中的外部环境数据, 更新所述虚拟作物 模型中的所述当前状态数据, 并根据奖励函数确定所述温室管控策略的奖励; 根据所述奖励更新所述策略网络, 返回执行所述获取步骤, 循环迭代直至所述策略网 络满足预设终止条件, 获得训练好的策略网络 。 2.根据权利要求1所述的策略网络训练方法, 其特征在于, 所述获取虚拟作物模型输出 的温室的当前状态数据之前, 还 包括: 基于敏感度分析算法, 从所述虚拟作物模型的所有参数中选取对所述虚拟作物模型的 输出结果影响最大的各个敏感参数; 基于非线性优化算法, 根据实际作物的历史外部环境数据和历史观测数据对各个所述 敏感参数的参数值进行优化, 获得参数本地 化优化后的虚拟作物模型。 3.根据权利要求2所述的策略网络训练方法, 其特征在于, 所述基于敏感度分析算法, 从所述虚拟作物模型的所有参数中选取对所述虚拟作物模型的输出结果影响最大的各个 敏感参数, 包括: 从所述虚拟作物模型的所有参数中选取与所述虚拟作物模型的目标输出变量相关的 待定参数, 并确定所述待定参数的取值范围; 在相应的所述取值范围内随机确定各个所述待定参数的参数值, 根据 各个所述待定参 数的参数值更新所述虚拟作 物模型, 确定更新后的虚拟作物模型在预设的输入数据下输出 的目标输出变量; 基于敏感度分析算法, 根据所述目标输出变量进行参数敏感度分析, 根据分析结果在 所述待定参数中确定所述敏感参数。 4.根据权利要求1至3任一项所述的策略网络训练方法, 其特征在于, 所述奖励函数通 过第一公式表示, 所述第一公式包括: 其中, R表示所述奖励, mt表示执行所述温室管控策略后t时刻作物存储器 官的重量, mt‑1 表示t‑1时刻作物存储器官的重量, 表示不执行所述温室管控策略t时刻作物存储器官 的重量, mw,t表示t时刻水的灌溉量, α表示水的灌溉量对应的惩罚因数, mN,t表示t时刻氮肥 的施用量, β 表示氮肥的施用量对应的惩罚因数, mP,t表示t时刻磷肥的施用量, γ表示磷肥 的施用量对应的惩罚因数, mK,t表示t时刻钾肥的施用量, δ表 示钾肥的施用量对应的惩罚因 数, Rt表示光照强度, Tt表示光照时长, μ表示 光照对应的惩罚因数。 5.根据权利要求1至3任一项所述的策略网络训练方法, 其特征在于, 所述虚拟作物模 型包括WOFOST模型、 EPIC模型、 DSSAT ‑CERES模型、 AquaCrop模型、 APSIM模型、 RCSODS模型、 ORYZA模型和WheatSM模型中的至少一 者。 6.一种温室管控方法, 其特 征在于, 包括: 获取温室内的可观测状态数据;权 利 要 求 书 1/2 页 2 CN 115374650 A 2根据所述可观测状态数据进行 数据同化处 理, 获得所述温室内的当前状态数据; 将所述当前状态数据输入训练好的策略网络, 输出温室管控策略, 所述温室管控策略 用于调节所述温室内的外 部环境数据; 其中, 所述训练好的策略网络采用如权利要求1至5任一项所述的策略网络训练方法训 练得到。 7.根据权利要求6所述的温室管控方法, 其特征在于, 所述根据 所述可观测状态数据进 行数据同化处 理包括: 将部分所述可观测状态数据输入虚拟作物模型, 在所述虚拟作物模型中确定剩余的待 同化状态参数; 基于数据同化算法, 根据剩余的所述可观测状态数据对所述待同化状态参数进行数据 同化, 得到同化后的状态数据; 将所述同化后的状态数据与所述可观测状态数据相结合, 得到所述当前状态数据。 8.一种策略网络训练装置, 其特 征在于, 包括: 获取模块, 用于获取虚拟作物模型输出的温室的当前状态数据, 所述虚拟作物模型用 于模拟外 部环境数据变换对所述温室内作物生长的影响; 处理模块, 用于将所述当前状态数据输入策略网络, 输出温室管控策略; 根据所述温室 管控策略调节所述虚拟作 物模型中的外部环境数据, 更新所述虚拟作物模 型中的所述当前 状态数据, 并根据奖励函数确定所述温室管控策略的奖励; 更新模块, 用于根据所述奖励更新所述策略网络; 其中, 所述获取模块、 所述处理模块和所述更新模块依次循环动作, 直至所述策略网络 满足预设终止条件, 获得训练好的策略网络 。 9.一种温室管控 装置, 其特 征在于, 包括: 获取模块, 用于获取温室内的可观测状态数据; 处理模块, 用于根据所述可观测状态数据进行数据同化处理, 获得所述温室内的当前 状态数据; 输出模块, 用于将所述当前状态数据输入训练好的策略网络, 输出温室管控策略, 所述 温室管控策略用于调节所述温室内的外 部环境数据; 其中, 所述训练好的策略网络采用如权利要求1至5任一项所述的策略网络训练方法训 练得到。 10.一种温室管控系统, 其特 征在于, 包括: 信号采集子系统, 用于采集温室内的可观测状态数据; 中心计算机, 用于执行如权利要求1至5任一项所述的策略网络训练方法, 或如权利要 求6或7所述的温室管控方法; 控制子系统, 用于执 行所述中心计算机 输出的温室控制策略。权 利 要 求 书 2/2 页 3 CN 115374650 A 3

.PDF文档 专利 一种策略网络训练方法、温室管控方法、装置及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种策略网络训练方法、温室管控方法、装置及系统 第 1 页 专利 一种策略网络训练方法、温室管控方法、装置及系统 第 2 页 专利 一种策略网络训练方法、温室管控方法、装置及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:58:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。