首页 > AI资讯 > 正文

在科技飞速发展的今天,智能体的进步引起了广泛关注。智谱公司推出的AutoGLM在CNCC2024大会上备受瞩目。这款产品操作简便,只需几个指令,就能模拟人类使用手机,极大地方便了用户。

AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告__AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告

中间接口设计的重要性

智能体开发中,中间接口设计至关重要。以基础智能体为例,在解耦规划和执行行为时,优秀的中间接口设计犹如一把钥匙。它是提升规划和执行能力的关键环节,有助于使智能体运行更流畅、更高效。研究团队在实际开发中发现,缺乏这种设计可能导致规划和执行出现混乱,进而影响智能体的整体性能。而且,在处理多种复杂任务时,这种设计能显现出其优势,帮助智能体更好地应对各种指令。

AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告_AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告_

自进化的RL框架开发

现有的许多智能体,由于依赖专有的LLM/LMMAPI,其规划能力难以提升。为此,智谱团队决定自行探索规划器的训练方法。他们研发了WebRL框架,这一框架犹如一线曙光。它专门解决RL领域的数据不足和策略漂移等问题。例如,在处理用户任务时,数据不足会导致智能体反应不准确。而WebRL通过自进化功能,能有效缓解这一问题。它可以从头开始训练基础智能体,显著提升了智能体的适用性。

AutoGLM能力在特定环境评估

智谱在AndroidLab和常见安卓APP的高频任务中,对AutoGLM进行了评估。AndroidLab这一特殊环境,能够为系统性评估提供支持。与AITW等基准测试不同,AndroidLab的互动性十分显著。比如,在测试APP时,这种互动性有助于揭示更多使用中的问题。此外,它还覆盖了离线可部署的英语APP,使得测试范围更为广泛。这种评估方式更具实际价值,而且可以通过强化学习不断优化智能体的能力。

定制测试查询的评估

AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告_AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告_

在评估过程中,为每个APP量身打造一套测试查询至关重要。这就像量体裁衣,能更准确地获取数据。研究人员在人类评估的全过程中追踪执行轨迹,以确定最终成功率。这样,我们就能更直观地观察AutoGLM在实际应用中的表现。定制查询能深入挖掘APP的特点,使评估不再只是泛泛而谈,而是具体深入地展现智能体在不同场景下的应对能力。

实际使用场景下的评估

在安卓手机上进行的评估,通过AccessibilityService应用程序模拟实际使用场景。这就像在真实生活中使用一样。通过这种方式,我们可以了解AutoGLM在日常使用中的实际效果。在真实场景中进行评估,有助于减少环境差异带来的误差,真正检验智能体是否能够满足用户的日常需求,为智谱优化AutoGLM提供最真实的反馈。

AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告__AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告

不同模型对比评估

智谱不仅对AutoGLM进行了评估,还对众多具有代表性的LLM/LMMAPI、开放模型以及智能体框架进行了全面评估。例如,即便AgentQ的数据集未对外公开,研究团队还是构建了测试集对其进行了评估。在原始的WebArena精简版VAB-WebArena-Lite和OpenTable数据集的交互式基准测试中,可以全面观察到AutoGLM与其它相关模型的优缺点。这样的对比评估有助于智谱了解AutoGLM在众多模型中的位置,同时也为其他开发者提供了参考。

AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告__AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告

这是关于智谱AutoGLM的相关信息。那么,在使用智能体产品时,您最看重的是它的哪一项功能?不妨在评论区留下您的看法。同时,也欢迎您点赞并分享这篇文章。

内容来自网络,如有侵权,联系删除。

猜你喜欢
发表评论

电子邮件地址不会被公开。 必填项已用*标注

评论信息
picture loss