强化学习

什么是强化学习?

强化学习是一种机器学习基于奖励期望行为和/或惩罚不期望行为的训练方法。一般来说,强化学习代理人能够感知和解释环境,采取行动,并通过反复试验来学习。

 

强化学习是如何工作的?

在强化学习中,开发人员设计了一种奖励期望行为和惩罚负面行为的方法。这种方法将正值分配给期望的行为以鼓励代理,将负值分配给不期望的行为。这使得代理人寻求长期和最大的总体回报,以实现最优解。

这些长期目标有助于防止代理人在次要目标上拖延。随着时间的推移,代理人学会了避免消极,寻求积极。这种学习方法已经在人工智能(AI)作为一种指导方式无监督机器学习通过奖励和惩罚。

强化学习的应用及实例

虽然强化学习一直是人工智能领域的一个热门话题,但它在现实世界中的广泛采用和应用仍然有限。然而,注意到这一点,关于理论应用的研究论文比比皆是,并且已经有了一些成功的使用案例。

 

当前使用案例包括但不限于以下内容:

  • 赌博
  • 资源管理
  • 个性化推荐
  • 机器人学

游戏可能是强化学习最常见的使用领域。它能够在许多游戏中实现超人的性能。一个常见的例子涉及到游戏派克曼.

一门学问算法(演奏等的)表现,风格;(乐曲)演奏派克曼可能有能力向四个可能的方向之一移动,除非有障碍物。从像素数据来看,一个代理人可能会得到一个单位旅行结果的数字奖励:0代表空白空间,1代表小球,2代表水果,3代表力量小球,4代表幽灵后力量小球,5代表收集所有小球并完成一个关卡,5代表与一个幽灵的碰撞被扣除5分。代理人从随机游戏开始,移动到更复杂的游戏,学习的目标是让所有的小球完成水平。假以时日,一个特工甚至可以学习一些战术,比如保存能量球直到需要自卫的时候。

强化学习可以在一种情况下运作,只要一个明确的奖励可以应用。在企业资源管理(ERM)中,强化学习算法可以将有限的资源分配给不同的任务,只要有它试图实现的总体目标。这种情况下的目标是节省时间或保存资源。

在机器人领域,强化学习已经在有限的测试中找到了自己的路。这种类型的机器学习可以为机器人提供学习人类教师无法演示的任务的能力,使学到的技能适应新的任务,或者在缺乏可用的分析公式的情况下实现优化。

强化学习也用于运筹学、信息论、博弈论、控制理论、基于模拟的优化、多智能体系统、群体智能、统计学和遗传算法。

应用强化学习的挑战

强化学习虽然潜力很大,但可能难以部署,其应用仍然有限。部署这种类型的机器学习的障碍之一是它依赖于对环境的探索。

例如,如果你要部署一个依靠强化学习来导航复杂物理环境的机器人,它将在移动时寻找新的状态并采取不同的行动。然而,在现实环境中很难始终如一地采取最佳行动,因为环境变化非常频繁。

确保通过这种方法正确完成学习所需的时间会限制其有用性,并且会消耗大量计算资源。随着培训环境变得越来越复杂,对时间和计算资源的需求也越来越多。

监督学习如果有适当数量的数据可用,可以比强化学习更快、更有效地向公司交付结果,因为它可以用更少的资源来使用。

常见的强化学习算法

而不是指特定的算法,强化学习领域由几种采用不同方法的算法组成。这种差异主要是由于他们探索环境的策略。

  • 国家-行动-奖励-国家-行动(SARSA)。这种强化学习算法首先给代理一个政策。政策本质上是一种概率,告诉它某些行为导致奖励或有益状态的可能性。
  • q-学习。这种强化学习的方法采取了相反的方法。代理不接收任何策略,这意味着它对其环境的探索更加自主。
  • 深度Q网络。除了强化学习技术之外,这些算法还利用了神经网络。他们利用自我导向的环境探索强化学习。未来的行动基于神经网络学习的过去有益行动的随机样本。
A visual representation of a deep neural network
神经网络是一组大致模仿人脑的算法。这些算法旨在识别模式。

强化学习与有监督和无监督学习有什么不同?

强化学习被认为是机器学习的一个分支,尽管它与其他类型的机器学习有一些相似之处,这些机器学习分为以下四个领域:

  1. 监督学习。在监督学习中,算法在大量标记数据上训练。监督学习算法只能学习数据集中指定的属性。监督学习的常见应用是图像识别模型。这些模型接收一组带标签的图像,并学习区分预定义表单的公共属性。
  2. 无监督学习。在无监督学习中,开发人员将算法放在完全无标签的数据上。该算法通过对自己关于数据特征的观察进行编目来学习,而无需被告知要寻找什么。
  3. 半监督学习。这种方法采取了一种折中的方法。开发人员输入相对较小的已标记训练数据集,以及较大的未标记数据语料库。然后,指示算法将它从标记数据中学到的东西外推至未标记数据,并从作为一个整体的集合中得出结论。
  4. 强化学习。这需要完全不同的方法。它将代理人置于一个环境中,该环境具有定义有益活动和非有益活动的明确参数以及要达到的总体最终目标。它在某些方面类似于监督学习,因为开发人员必须给算法明确指定的目标,并定义奖励和惩罚。这意味着所需的显式编程水平高于无监督学习。但是,一旦设置了这些参数,算法就会自行运行,这使得它比监督学习算法更具自我导向性。出于这个原因,人们有时将强化学习称为半监督学习的一个分支,但事实上,它最常被认为是它自己的机器学习类型。
深度学习、监督学习和非监督学习之间的差异非常明显。

给TA打赏
共{{data.count}}人
人已打赏
定义

无监督学习

2023-8-14 22:35:48

定义

聊天机器人

2023-8-14 22:40:38

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索