金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211225237.0 (22)申请日 2022.10.09 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人 王帅 陆瑶 李宗晟 梅洛瑜  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 叶倩 (51)Int.Cl. G06F 30/20(2020.01) G06Q 10/08(2012.01) G06Q 50/28(2012.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06F 111/04(2020.01) (54)发明名称 基于分层强化学习的即时配送实时合作调 度系统 (57)摘要 本发明公开了一种基于分层强化学习的即 时配送实时合作调度系统, 包括模拟器模块、 决 策模块和时间约束模块, 模拟器模块用于模拟配 送员在即时配送中的常规流程 以及为算法构建 训练和评估的环境, 进行分配订单和调度配送 员; 决策模块: 基于分层强化学习的合作配送调 度模型, 通过Actor ‑Critic网络提取特征, 作出 基于相遇交互的配送员合作配送决策, 将该决策 反馈至模拟器循环; 时间约束模块综合考虑订单 的实时剩余配送时间、 订单的历史订单转移次 数、 即时配送的实时调度要求, 对决策模块中的 决策方案进行调度和指导。 本系统通过调度推荐 配送员相遇交互进行合作配送, 以提高配送过程 顺路单量、 在满足配送时间约束的条件下提升配 送效率、 降低订单超时率的总体目标。 权利要求书4页 说明书13页 附图1页 CN 115510664 A 2022.12.23 CN 115510664 A 1.基于分层强化学习的即时配送实时合作调度系统, 其特征在于: 包括模拟器模块、 决 策模块和时间约束模块, 所述模拟器模块: 至少包括环境信息、 配送员信息、 订单信息和相遇信息, 所有信息在 模拟器模块中进 行数据操作, 用于模拟 配送员在即时配送中的常规流程以及为算法构建训 练和评估的环境, 进行分配订单和调度配送员; 所述决策模块: 采用基于分层强化学习的合作配送调度模型, 根据模拟器模块收集到 的配送员信息、 订单信息和相遇信息, 通过Actor ‑Critic网络提取特征, 作出基于相遇交互 的配送员合作配送决策, 将该决策反馈 至模拟器 循环; 所述时间约束模块: 根据相遇信息, 提取配送员在相遇场景下的相遇交互时间约束特 征, 综合考虑订单的实时剩余配送时间、 订单的历史订单转移次数、 即时配送的实时调 度要 求, 对决策模块中的决策 方案进行调度和指导。 2.如权利要求1所述基于分层强化学习的即时配送实时合作调度系统, 其特征在于: 模 拟器模块中, 所述环境信息的数据操作: 至少包括每天的订单记录数据加载、 每天的快递员 配送记 录及轨迹数据加载、 每个时刻的配送员状态更新、 实时可分配订单 的配送员集合获取及初 始的订单分派决策; 所述配送员信息的数据操作: 至少包括配送员 配送路径规划方案、 订单分配及订单转 移的接收、 订单转移的丢弃、 配送员接单或弃 单的状态更新; 所述订单信息的数据操作: 根据环境信息和配送员信息, 对自身的订单信息进行逐一 初始化及状态更新; 所述相遇信 息: 作为一个触发事件类, 当检测到配送员之间的相遇时, 获取相遇状态以 支持订单转移决策。 3.如权利要求2所述基于分层强化学习的即时配送实时合作调度系统, 其特征在于: 所 述决策模块中基于 分层强化学习的合作配送调 度模型, 包括相遇时间选择器和订单转移调 度器, 所述相遇事 件选择器对相遇事 件进行选择, 观察高层状态 并给出一个动作 来决 定是否在t时间的第k个相遇事件 时转移订单, 当 相遇时间选择器选择不转 移订单时, 则继续处理下一次相遇事件; 否则, 调用订单转移调 度器并在执行最后一个低层 动作后接收反馈回来的延迟奖励; 所述订单转移调度器根据每个要转移的订单 的低层状态 生成指示所选配送员 接单 的低层动作 环境接收分层动作 并将低层和高层奖励反馈给订单转 移调度器, 使用相应的状态转换 更新状态。 4.如权利要求3所述基于分层强化学习的即时配送实时合作调度系统, 其特征在于: 所 述相遇时间选择器由高层参与者网络Actor及高层评价者网络Critic构成, 高层参与者网 络Actor根据编码的高层状态嵌入 生成动作, 以决定是否在每个相遇事件 处转移订 单, 具体为:权 利 要 求 书 1/4 页 2 CN 115510664 A 2获得在 相遇事件选择的可能长期回报 其中, 处的高层状态定义为 处的高层动作定义为 处的低层动作 定义为 处的高层奖励定义为 折扣因子定义为γ; 表示由 参数化的低 层策略; Ql:S×Ω×A→R是在给定高层动作 和观察状态的情况下执行低层动作 的订单可转移值; Vh(·)表示转移订单后的高层状态值; 在计算出可能的Qh后, 利用So ftmax函数生成动作选择的概率, 并提供高层策略 来 决定相遇场合 转移订单, 所述高层策略 为: 其中, 处的高层状态定义为 处的高层动作 定义为 是高层参与者 网络的网络参数。 5.如权利要求4所述基于分层强化学习的即时配送实时合作调度系统, 其特征在于: 所 述高层评价者网络Critic通过高层参与者网络Actor根据 做出相遇事件选择决策时的 状态值 来衡量长期奖励, 所述状态值 具体为: 其中, 时间步t所有相遇事件的高层累计奖励定义为 是高层评价者网络 的网络参数。 6.如权利要求3所述基于分层强化学习的即时配送实时合作调度系统, 其特征在于: 所 述订单转移调度器包括低层参与者网络Actor和低层评价者网络Critic, 所述低层参与者权 利 要 求 书 2/4 页 3 CN 115510664 A 3

.PDF文档 专利 基于分层强化学习的即时配送实时合作调度系统

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于分层强化学习的即时配送实时合作调度系统 第 1 页 专利 基于分层强化学习的即时配送实时合作调度系统 第 2 页 专利 基于分层强化学习的即时配送实时合作调度系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:00:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。