“研究人员教机器所有人类想要什么”
在电脑游戏中沿着赛道比赛时,要求优化速度。 车将踏板压在金属上……然后继续转动密集的小圆圈。 指令没有任何副本。 因为这是即兴的。
这个例子——对电脑游戏感兴趣,但对生活没那么感兴趣——是鼓励斯坦福大学研究者设定自主系统目标的更好方法之一。
计算机科学和电气工程助理教授dorsa sadigh和她的实验室将两种不同的做法结合在一起,把机器人的目标设定为一个过程,在模拟和现实世界的实验中,它比单独的任何一个部分都好。 研究人员于6月24日在机器人:科学与系统会议上介绍了这项工作。
将来,我希望世界上有越来越多的自治系统。 他们需要一点好的概念和坏的概念。 计算机科学研究生兼联合的主要作者andy palan说。 论文。 重要的是,如果将来想引进这些自律系统,就可以实现。
这个团队向机器人提供指导的新系统——称为奖励功能——是人类展示机器人在做什么的演示和顾客喜好调查的组合,其中人们回答了希望机器人如何表现的问题。
示威是有益的,但可能会很吵。 另一方面,优先级提供了最多的新闻,更确切地说,萨迪说。 我们的目标是完全利用这两个世界,更明智地结合来自这两个来源的数据,从而更好地了解人类优先的薪酬功能。
示威和调查
在以前的工作中,sadigh只关注喜好的调查。 它们要求人们比较剧本,比如自动驾驶车的两条轨迹。 虽然这样很有效,但生成下一个问题可能需要三分钟。 为许多复杂的系统编写命令还很慢,比如汽车。
为了加快这个速度,这个小组之后开发了一种生成多个问题的方法,可以从一个身体迅速连续回答,也可以分散在几个身体之间。 每次发生问题时,此更新都会将进程加快15到50倍。
新的组合系统从向机器人展示行为的人开始。 这可以为自主机器人提供很多新闻,但是机器人经常难以明确演示的部分非常重要。 人们并不总是希望机器人的行为像训练它的人。
我们不能总是举行示威。 即使我们可以,也不能依赖人们提供的新闻。 负责多问题调查的电气工程研究生erdem biyik说。 例如,迄今为止的研究表明,人们希望自动驾驶车不要太激进。
这就是调查进行的地方,例如,让客户可以询问机器人是否喜欢将手臂放在地上或放在天花板上。 在这项研究中,该小组采用了缓慢的单一问题方法,但计划在今后的工作中整合多项问题调查。
在测试中,小组发现将演示和调查结合起来比单纯指定喜好要快。 另外,与单独的演示相比,约80%的人喜欢在机器人使用组合系统进行训练时的性能。
这是更好地理解人们对机器人的期望和期望的一步,萨迪说。 我们的工作是让人们更容易、更有效地与人交流,教机器人。 我很兴奋能进一步开展这项工作,特别是在研究机器人和人类如何相互学习方面。
更好、更快、更智能地
根据采用组合方法的人的报告,系统很难理解其中的一点问题。 因此,可能需要选择看起来相同或与任务无关的两个场景。 基于优先级的学习中常见的问题。 研究者想用更简单的调查来处理这个缺点,这些调查也能迅速完成。
展望未来,对我来说创造奖励功能的正确方法不是百分之百,但实际上有一种组合可以应对人类输入的许多复杂情况。 palan说。 能够为自治系统设计激励功能是一个重要的大问题,并未受到学术界的重视。
这个团队还对系统的变化感兴趣。 这样,人们就可以在不同的场景中创建报酬功能。 例如,一个人可能希望在交通慢的时候开得更低调,在交通轻的时候开得更积极。
rss 2019论文的共同作者包括斯坦福大学的本科生gleb shevchuk和研究生nicholas c. landolfi。
这项研究由丰田研究所和生命未来研究所资助。
本文:《“研究人员教机器所有人类想要什么”》
免责声明:星空分类目录网免费收录各个行业的优秀中文网站,提供网站分类目录检索与关键字搜索等服务,本篇文章是在网络上转载的,星空网站目录平台不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站将予以删除。