近日,南方科技大学计算机系讲席教授史玉回团队提出新的具身智能体训练框架,相关成果论文被2024 IEEE国际计算机视觉与模式识别会议接收。
具身智能领域的研究热点,主要聚焦于利用大型预训练基础模型来构建通用的具身智能体,有望替代人类完成日常生活中的一部分工作。这些模型 (如大语言模型LLMs) 受益于互联网大规模的预训练数据中学习到的大量先验知识,能够根据外部环境的状态反馈,来完成各种任务,如代码生成、商品推荐,甚至是机器人操作。此外,通过整合视觉-语言模型,智能体可以直接理解视觉输入,并进行任务的推理、规划和执行。
然而,现有的工作都忽略了现实世界是不断演化的,因此,在预先收集的静态数据集上训练的基础模型,无法对现实世界的动态演化做出可靠回应。当使用这些基础模型作为智能体去解决任务时,可能遭遇到严重的幻觉问题(如生成错误、不存在、误导性的虚假信息)。
为了解决这一问题,研究人员探索使用当前最先进的大语言模型(GPT-4)作为“教师”,通过交互式的跨模态模仿学习,在动态的世界中训练具身智能体的可能性,该方法有效对齐了智能体的行为与现实世界的演化。
研究示意图 南科大供图
为了克服直接从视觉输入状态训练智能体所带来的一系列挑战,如稀疏奖励、分布偏移、幻觉问题等,研究人员通过规划领域定义语言,将每一帧视觉状态转换为等价的抽象文本描述输入一个基于GPT-4实现的LLM专家,它可以产生在当前环境状态下针对待完成任务更优的文本动作去指导和修正智能体的行为。在丰富的家务劳动场景下,相比之前最先进的方法,该方法的智能体显著提高了任务的成功率20%-70%。
相关论文信息:https://arxiv.org/abs/2311.16714
本文链接:http://www.gihot.com/news-8-2388-0.html科研人员提出新的具身智能体训练框架
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇:躺平电子也“逆袭”?
点击右上角微信好友
朋友圈
点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮
点击右上角QQ
点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮