头头电子头头电子


头头体育官网

探究强化学习算法背后的思想根源!

    中国接受生物脑的混乱和电子脑的秩序。人们对人工智能的追求总是与另一场更加哲学化、浪漫化、不现实的斗争交织在一起。所以我们需要更好地理解人类的智力。虽然目前监督学习的突破似乎基于优化的硬件、复杂的训练算法和过于复杂的神经网络结构,但强化学习仍然相对过时。这个想法很简单:如果你是一个环境中的学习代理。让我们假设您的目标是满足您的需求(不是吗?)那你就采取行动吧。基于这些行为,环境将得到回报。你可以根据奖励来调整你的行为,从而最大化你的满意度。RL有限吗?已故的日本昭示牌选手George Murakami在AlphaGo Zero面前发表声明,“计算机打败专业玩家的日子永远不会到来”,但这一声明受到了现实的冲击。我们花了很长时间,把生物通过强化和人工智能学习的能力联系起来。早在1948年,图灵就描述了一种愉悦-痛苦系统,它遵循了几十年后建立的强化学习规则。智能就是适应能力——斯蒂芬·霍金斯,由于他的简单,社区首次尝试为西洋双陆棋游戏提供少量的离散状态和简单规则。今天,我们有人工智能特工,他们使用强化学习来玩阿塔里、米尼克夫特和翻转煎饼。那么,我们如何做到这一切呢?简而言之,答案是深层学习。本文将探讨更多答案。它将探究强化学习算法背后的思想来源,我们已经使用了几十年。我们最近的成功不仅是深层神经网络的产物,而且是观察历史、结论和深入理解学习机制的一种尝试。强化学习是一个难以追踪的起源领域。它的大部分理论基础都是基于控制理论家的。马尔可夫决策过程是最优控制问题的离散随机形式,因此几乎所有的强化学习算法都是基于控制理论导出的解的。然而,控制理论所提供的背景不足以创建强化学习。我们今天仍然使用的算法需要诸如经典条件作用和时变学习之类的思想来形成学习过程。如果没有一些好奇的生物学家、心理学家和不守规矩的计算机科学家的努力,人工智能社区可能没有实现学习的工具。我们如何在不可预见的情况下行动?我们如何接受自己的行为?环境如何影响我们的行为?我们如何改进?如何学习技能?这是一个反复试验的世界。桑代克在1898年做了一个实验。也许他对他的猫很生气,也许他对动物的行为很好奇。他把猫锁在笼子里,把一盘美味的鱼放在笼子上。那只猫只能通过拉杆逃出笼子来吃鱼。猫怎么反应?没有推理,没有推理或比较过程,没有思考,没有两件事情在一起。而且没有思考,动物不会考虑笼子、食物或者它们将要执行的行为。桑迪奇观察到他的猫看起来并不聪明:它只是在笼子里走来走去,并不急于离开笼子。它只是在偶然拉动杠杆并自行松开时才开始提高逃生技能。基于这种观察,桑迪克提出了一个效力定律,它规定任何可能带来愉快后果的行为可能再次发生,任何可能导致不愉快后果的行为可能被制止。这个规则产生了操作条件作用领域,由Skinner在1938年正式定义。对于强化学习社区,它提供了制定代理人的理由,这些代理人根据激励机制和与环境的交互来学习政策。它也为我们提供了对动物学习的新见解,因为影响定律无疑与当时另一个著名的定律相似:自然选择。我们的理性能成为适者生存的观念吗?然而,两个特点使得强化学习成为一个独特的过程:它是选择性的。这与监督学习不同,因为代理人尝试各种选择,并通过比较它们的结果来从中进行选择。它是联想的。这意味着可以通过选择发现与特定情况或状态相关联的替代方案来形成代理策略。自然选择是选择过程的一个主要例子,但是它并不相关。我们只是一遍又一遍地做这件事。因此,优秀不是一种行为,而是一种习惯。亚里士多德的享乐主义学习指南在分析人类思维时十分简洁:“人类的基本本质是什么?”这是享乐主义者.”克洛普夫在他的有争议的书《享乐主义神经元——记忆、学习和智力理论》中,运用神经科学、生物学、心理学,以及他的简单和好奇的推理,使我们相信神经元是享乐主义者。是的,神经元和你一样快乐。当面对他那个时代占统治地位的神经元模型,罗森布拉特的感知器,它是当今神经网络的基石,Kropf想知道:“如果神经元被假定为非目标寻求的一部分,那么目标寻求的大脑功能必须被看作是一种新的现象。这个观点能解释记忆、学习和更一般的信息吗?他提出了一个新的构建块,称为基本异构稳定器,作为未来人工智能研究的基础。Kropf还认为,维持体内平衡和追求良好和稳定的状态并不是复杂系统(如人和动物)的目标。解释植物目标可能就足够了,但是我们可以假设人类在保证内部平衡之后追求最大的快乐,而不是稳定它。为什么我们的神经元不同?这些想法听起来可能令人难以置信,它们可以归因于动摇了人工智能的世界。Kropf认识到适应性行为的基本方面正在丧失,因为学习研究人员几乎只关注监督学习。Kropf认为,缺少的是行为的享乐方面,从环境中获得某些结果的动力,朝向期望目标的环境控制,远离不期望的目标。在批评当前控制论原理的广泛章节中,正如当时所称的机器学习,可以强调三种类型的攻击:我们应该使用深层神经网络吗?需要清楚的是,这两层足以满足20世纪50年代的网络需求。Kropf似乎对Perceptron模型很满意,但他质疑它在深层网络中学习的能力。Kropf提出了这样一个问题,即使今天,机器学习的科学家也不能置之不理:“然而,这个算法只适用于单层自适应网络。许多后续研究未能针对多层网络的一般情况产生真正可行的确定性自适应机制。通常,核心问题是确定当系统行为不恰当时,任何给定的网络元素应该做什么。结果是非常困难的,因为深层网络中每个元件的大部分输出与系统的最终输出具有非常间接的关系。”人工智能的目的是什么?Kropf也对人工智能研究的追求提出质疑。在努力实现正确的学习目标的过程中,他采纳了我在随后的强化学习研究人员中发现的一个论点:https://www.sciencedirect.com/././pii/S0921889005800259:“地球上的生命进化了大约30亿年。在那段时间里,90%的用于改善我们与爬行动物共有的神经基质。从爬行动物的时代到人类出现之前,它只是相对短的3亿年。智力的进化存在一个问题。如果进化过程花费90%的时间开发神经基质,剩下的10%用于开发有效和更高层的机制,为什么人工智能研究人员会尝试用其他方法开发呢?智力聪明吗?在下面的摘录中,桑迪奇和克洛普夫感觉自己像是精深学习的伙伴:“人工智能研究人员对智力的感知似乎与生命系统中这种现象的本质不一致,还有另外一种方式。在生命系统中,智力往往不聪明,至少不是研究人员有时看到的智力现象。相反,智能在生命系统中通常是有效的。如果“强”属性可以用于智能生物的日常信息处理,那么似乎有很多。即使是最聪明的人,也很难进行更聪明的活动。因此,人们想知道智能与高级信息处理之间的联系是否会导致人工智能研究者对这一现象的看法过于狭隘。更温和的观点在短期内会产生更有效的理论吗?到目前为止,巴甫洛夫的狗下棋,我们也许一直在讨论强化学习,但事实是,这个词最初是由巴甫洛夫在1927年关于条件反射的英译本中使用的。Https://..oup.com/./.-./51/1/129/268769?帕夫洛夫在他的著名实验中观察到,当给狗提供食物并且发出非常接近喂食时间的声音时,狗学会了将喂食与声音联系起来,即使没有食物,狗听到声音也会流口水。通过这一观察,巴甫洛夫奠定了经典条件反射的基础,这是第一个将时间纳入学习过程的理论。目前,RL算法主要使用时差学习,这意味着在计算行动的“质量”作出决策时,我们还将考虑未来的回报。在1989年,Chris Watkins开发了Q-.,它是最著名的强化学习算法之一,它结合了时间差和最优控制线程。1992年,泰索罗在代理人下棋时采用了时差学习的概念。这是一个让研究界相信机器学习具有潜力和应用的时代。虽然目前的研究主要集中于深入学习和游戏,但我们今天没有集中学习的领域,而不是一群人谈论猫、神经元和狗。可以说,我们从解决西洋双陆棋到完成困难的任务所获得的回报是无法想象的,这促使我们进一步探索强化学习的潜力。这是强化学习的一个例子吗?作者:埃琳娜·尼西奥蒂

欢迎阅读本文章: 孟卫青

头头娱乐备用注册页面

头头体育官网