腾讯整了个AppAgent,用AI动手丰衣足食,这波操作有点厉害

资讯7个月前发布 AIGC学院
70 0

作者|杨文

编辑|六耳

来源|AI先锋官

今年这波AI浪潮,几乎所有的互联网厂商都急不可耐:

3月16日百度发布文心一言

4月11日阿里发布通义千问

5月6日科大讯飞发布星火大模型

6月13日三六零发布360智脑

6月28日字节跳动发布火山方舟

7月7日华为发布盘古3.0

7月13日京东发布灵犀

7月17日携程发布携程问道

7月26日网易发布子曰教育大模型

……

唯独腾讯“他强任他强,清风拂山岗”,那慢慢悠悠的劲儿,跟老大爷遛弯似的,直到9月7日才正式推出了混元大模型。

一个多月后,小编拿到了内测资格,体验了一番腾讯的混元助手,说实话,它的表现并不尽如人意,仍然会一本正经地胡说八道,上下文记忆能力、逻辑推理能力均有待提高。

当你还在纳闷腾讯葫芦里到底卖的啥药时,它就冷不丁地放了个大招——AppAgent。这个“腹黑企鹅”闷声干大事啊。

最近,腾讯团队发表了一篇论文——AppAgent: Multimodal Agents as Smartphone Users(AppAgent:作为智能手机用户的多模式代理),同时开源了代码。

 

腾讯整了个AppAgent,用AI动手丰衣足食,这波操作有点厉害

AppAgent究竟是个什么鬼?论文中是这样介绍的:AppAgent 是一种由大型语言模型提供支持的高级多模式代理,能够掌握和利用任何应用程序来执行复杂的任务。它通过直观的点击和滑动手势与应用程序交互,模仿人类的动作。

通俗来说,AppAgent可以学习用户的手机操作习惯,在手机上自己执行各种操作。用户只需要告诉AppAgent你想干什么,它就自动打开相应的手机APP,直接把活给干了。

比如说,它可以模仿用户的口吻在社交媒体APP上发帖、搜索视频并评论、撰写和发送邮件,还能P图、导航、定闹钟,甚至还能线上购物,总之一句话,AppAgent就是帮人类干活的智能小助手。

 

腾讯整了个AppAgent,用AI动手丰衣足食,这波操作有点厉害

如此强悍的功能是如何做到的呢?

 

据论文显示,AppAgent分两个阶段运行,分别称为探索阶段和部署阶段。

在第一阶段,AppAgent观察不同应用程序用户界面的交互情况。通过充分观察,AppAgent就能熟练使用某个应用程序。这些知识被精心地汇编成文档。一旦这个学习阶段完成,AppAgent就开始自己采取行动。

腾讯整了个AppAgent,用AI动手丰衣足食,这波操作有点厉害

在第二阶段,AppAgent可以跨任何受支持的应用程序处理高级任务。这种有条不紊的方法使AppAgent能够高效地完成不同应用程序中的各种复杂任务。

腾讯整了个AppAgent,用AI动手丰衣足食,这波操作有点厉害

为了证明AppAgent的实用性,论文团队对Temu、Gmail、X、Youtube 等十款APP的50项任务进行了广泛的测试,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具。

论文中还给出了AppAgent在Gmail和X平台上的演示。例如,让AppAgent在 Gmail 中发一封邮件。在向AppAgent 发出要求之后,AppAgent 直接打开 Gmail,找到相应联系人,洋洋洒洒地写了一封邮件并发送给对方。全程不需要人类自己动手。

听完小编的介绍,大家是否觉得腾讯这波操作很牛呢?“自己动手,丰衣足食”这句话在AI时代可能要改改了,以后点外卖、打车、购物、签到……通通不用人类动手,一个AppAgent就搞定了,妥妥的“AI动手,丰衣足食”

当然,也有人担心,技术的不稳定性让AppAgent 给人类带来便利的同时,也带来麻烦。因为一旦系统出了bug,AppAgent 抽个风把购物车清空,打工人得哭晕在厕所;抑或是AppAgent一顿胡言乱语把多年的好友气走……

不过,即便如此,未来仍然可期。

开源地址:

https://github.com/mnotgod96/AppAgent

论文地址: 

https://arxiv.org/abs/2312.13771

项目地址:

https://appagent-official.github.io/

腾讯整了个AppAgent,用AI动手丰衣足食,这波操作有点厉害

(来源:AI先锋官)

© 版权声明

相关文章

暂无评论

暂无评论...