DeepMind最新论文强化学习足以 - 种类 - 松鼠松鼠 - Powered by ZK!NT

我的中心

松鼠 » 常识 » 诊断 » DeepMind最新论文强化学习足以

返回列表

发新话题

回复该主题

查看: 20\|回复: 0	DeepMind最新论文强化学习足以 [复制链接]

发送短消息 UID 222 精华 0 查看公共资料搜索主题搜索帖子 TUhjnbcbe TUhjnbcbe 组别新手上路生日帖子1 积分11 性别注册时间2020-03-27	1^# 字体大小: t T 发表于 2024-10-31 19:40 \|只看楼主北京治疗白癜风最好的医院是哪家 https://disease.39.net/bjzkbdfyy/241023/d8u747j.html 从年达特茅斯会议首次定义人工智能（AI）至今，人工智能已经经历了60多年的发展历程，计算机领域的科学家们取得了一次又一次的革命性进步，从机器学习、深度学习到强化学习，科学家们设计开发出了许多复杂的人工智能机制和技术，来复制人类视觉、语言、推理、运动技能和其他与智能生命相关的能力。尽管这些努力使得人工智能系统能够在有限的环境中有效地解决一些特定的问题，但目前还没有开发出像人类和动物一样“会思考的机器”，“通用人工智能（AGI）”时代尚未到来，想要让机器完全模拟人类进行自主学习、模式识别、想象创造等活动看起来遥不可及。尽管一些乐观主义者认为通用人工智能离我们不到十年，但一项针对机器学习专家的大型调查表明，如果存在通用人工智能，那我们可能要到年左右才能拥有它。近日，来自DeepMind的科学家在提交给同行评议的期刊《人工智能》（ArtificialIntelligence）上的一篇题为“Rewardisenough”的论文中认为，人工智能及其相关能力不是通过制定和解决复杂问题而产生的，而是通过坚持一个简单而强大的原则：奖励最大化。（来源：ScienceDirect）该研究由DeepMind首席研究科学家、伦敦大学学院教授DavidSilver领衔，研究灵感源于他们对自然智能的进化研究以及人工智能的最新成就，在撰写论文时仍处于预证明阶段。研究人员认为，奖励最大化和试错经验足以培养表现出与智力相关的能力行为。由此，他们得出结论，强化学习是基于奖励最大化的人工智能分支，可以推动通用人工智能的发展。 “奖励最大化”的人工智能实现途径创建人工智能的一种常见方法就是在计算机中尝试复制智能行为的元素。例如，我们对哺乳动物视觉系统的理解催生了各种人工智能系统，来实现对图像进行分类、定位照片中的对象、定义对象之间的边界等等。同样，我们对语言的理解有助于开发各种自然语言处理系统，例如回答问题、文本生成和机器翻译。这些都是狭义人工智能的实例，这些系统旨在执行特定任务，而不是具有一般解决问题的能力。一些科学家认为，组装多个狭义的人工智能模块会产生更高的智能系统。例如，我们可以拥有一个软件系统，在单独的计算机视觉、语音处理、NLP和电机控制模块之间进行协调，以解决需要多种技能的复杂问题。相比之下，通用人工智能有时也被称为人类级别的人工智能，它更像是《星球大战》中的C-3PO，因为它可以理解上下文、潜台词和社会线索，甚至被认为可能完全超过人类。（来源：pixabay） DeepMind的研究人员提出的另一种创建人工智能的方法：重新创建产生自然智能的简单而有效的规则。为什么自然界中的的动物和人类会表现出丰富多样的智能行为？Silver等人指出，可能是由于每一种能力都源于对一个目标的追求，而这个目标是专门为激发这种能力而设计的。为此，该研究设计了一个替代假设：最大化奖励的一般目标足以驱动表现出自然和人工智能研究的大部分（尽管不是全部）能力的行为。” 这种假设基本上是遵守达尔文的生物进化论。从科学的角度分析，在我们周围看到的复杂有机体中，并没有自上而下的智能设计。数十亿年的自然选择和随机变异过滤了生命形式，使其适合生存和繁殖，能够更好地应对环境中的挑战和情况的生物设法生存和繁殖。其余的都被淘汰了。这种简单而有效的机制导致了具有各种感知、导航、改变环境和相互交流的技能和能力的生物去进化。图 “奖励就足够”的假设，假定智力及其相关能力可以被理解为在其环境中行动的主体促进奖励的最大化研究人员在论文中写道：“动物和人类面临的自然世界，以及人工代理未来面临的环境，本质上都是如此复杂，以至于它们需要复杂的能力才能在这些环境中生存下来。因此，以奖励最大化来衡量的成功需要各种与智力相关的能力。在这样的环境中，任何使奖励最大化的行为都必须表现出这些能力。从这个意义上说，奖励最大化的一般目标包含许多甚至可能的所有智能目标。” 例如，考虑一只松鼠，它为了寻求减少饥饿的奖励。一方面，它的感官和运动技能帮助它在有食物时定位和收集坚果。但是，当食物变得稀缺时，一只只去寻找食物的松鼠必然会饿死。这就是为什么它也有计划技能和记忆来缓存坚果并在冬天恢复它们。松鼠具有社交技能和知识，可以确保其他动物不会偷吃它的坚果。如果你放大来看，饥饿最小化可能是“活下去”的一个子目标，这还需要一些技能，例如发现和躲避危险动物、保护自己免受环境威胁以及寻找季节性变化的更好栖息地。研究人员写道：“当与智力相关的能力作为奖励最大化的单一目标的解决方案出现时，这实际上可能提供了一个更深入的理解，因为它解释了为什么这种能力会出现。相反，当每一种能力被理解为其自身专门目标的解决方案时，为了
	分享转发

	TOP

上一主题| 下一主题

发新话题

回复该主题