加入收藏 | 设为首页 | 会员中心 | 我要投稿 桂林站长网 (https://www.0773zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

强化学习在应用中寻找战略“最优解”

发布时间:2021-07-05 20:48:29 所属栏目:大数据 来源:互联网
导读:假定我们使用AI技术运营一家制造工厂。AI提供的模式识别功能可用于质量保证,包括通过扫描图像及最终产品以检测设计乃至制造层面的缺陷。另一方面,强化学习系统则可以对制造流程所遵循的策略(例如确定需要运行的生产线、控制机器/机器人、确定要制造的产品

假定我们使用AI技术运营一家制造工厂。AI提供的模式识别功能可用于质量保证,包括通过扫描图像及最终产品以检测设计乃至制造层面的缺陷。另一方面,强化学习系统则可以对制造流程所遵循的策略(例如确定需要运行的生产线、控制机器/机器人、确定要制造的产品类型等)进行计算与执行,不断结合反馈信息发现现有策略中的改进空间,在保证一定产品质量水平的同时最大程度提升特定指标(例如产量)。以往,这类问题由于涉及大量影响因素而难以被常规AI系统所解决,但强化学习的出现无疑带来了希望的曙光。

在使用强化学习计算最佳策略或政策时,相关算法面临的主要挑战在于“时间信用分配”问题。具体来讲,在特定系统状态之下(例如「机器的当前输出水平,每条流水线的繁忙程度」等),行为(例如「星期三运行1号生产线」)对整体效能(例如「总产量」)产生的影响往往需要一段时间后才能确定。更让人头痛的是,总体效能还会受到具体操作方式的左右。总而言之,我们在预先制定策略与评估效果时,往往很难判断哪些是好选择、哪些是坏想法。在这类复杂问题中,大量潜在的系统状态还会引发恐怖的“维度诅咒”,进一步加剧结果的不确定性。但好消息是,强化学习近年来在实验室中的出色表现为解决这类难题带来了值得期待的希望。

之前,强化学习的卓越性能主要表现在棋类游戏与电子游戏领域。单凭对屏幕上图像及游戏得分这两项输入信息,强化学习系统就很快在各类雅达利游戏中横扫人类玩家,给整个AI社区留下了深刻印象。而这套出色的系统,是由伦敦AI研究实验室DeepMind于2013年所一手创造。后来,DeepMind又从AlphaGo代理起步构建起一系列强化学习系统(也称代理),能够在围棋对抗中轻松击败世界顶尖玩家。凭借着2015年至2017年之间的这一系列壮举,强化学习之名席卷全球。而在围棋这一拥有无数拥趸、且向来以高复杂度与中远期战略思考著称的脑力运动中拔得头筹,也让人们对于强化学习的未来应用充满好奇。

在此之后,DeepMind以与AI研究实验室OpenAI发布了面向《星际争霸》与《DOTA 2》游戏的系统,其同样与全球顶尖人类玩家打得有来有往。看起来,强化学习在这类要求严谨战略思考、资源管理与游戏内多单位操控/协调的场景下仍然拥有不俗的表现。

通过让强化学习算法完成数百万盘游戏,系统一步步摸索出哪些策略真实有效,而哪些策略更适用于针对不同类型的对手及玩家。以强大的算力为基础,强化学习算法往往会采用多种思路,并一一尝试不同策略的具体效果。该系统会尝试策略空间穷举、自我对抗、多策略联动以及学习人类玩家策略等多种方式,快速在策略空间探索与沿用现有良好策略之间取得平衡点。简单来讲,大量的试验使得系统得以探索出多种不同游戏状态,而复杂的评估方法则让AI系统摸索出在合理的游戏形势下、哪些策略或操作能够实现良好的中长期收益。

但在现实世界中使用这些算法的主要障碍,在于我们不太可能逐一完成这数百万次试验。好消息是,有新的解决方案能够解决这个难题:首先为应用场景创建起计算机模拟环境(制造工厂或市场模拟环境等),而后使用强化学习算法从中整理出最佳策略,最后再将总结出的最佳策略纳入实际场景、通过进一步调参反映现实世界。OpenAI就曾在2019年进行过一轮引人注目的演示,通过训练机器人手臂单手解开魔方来证明这种模拟训练方法的有效性。

但要让这种方法切实起效,模拟环境必须能够准确表达潜在问题。从某种意义上说,待解决的问题在模拟环境中就已经得到某种形式的“解决”,不可有任何影响系统性能的外部因素。例如,如果模拟的机器人手臂与真实机器人手臂相差太大,那么实际操作时手臂就没办法拿稳小小的魔方。在这种情况下,就算模型本身得到了正确训练、也拥有了良好的抗干扰能力,仍然不可能达到预期目标。

(编辑:桂林站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!