1.字节跳动发布了开源智能体UI-TARS,具有高度的智能和自主思考能力,优先公开且开源了技术文档。
2.UI-TARS具有增强感知、统一动作建模、System 2推理和迭代式反思训练等创新点,可在不同操作系统中发挥作用。
3.与OpenAI的Operator相比,UI-TARS在短程推理上表现类似,但长程推理方面仍有优势。
4.除此之外,UI-TARS还具有从长期记忆学习之前的经验的能力,可通过在线轨迹bootstrapping、反思微调和Agent DPO进行自我提升。
5.专家认为,智能体AI的时代已经开启,未来将帮助人们更高效地完成各种任务。
以上内容由腾讯混元大模型生成,仅供参考
机器之心报道
机器之心编辑部
技术报告已经公开。
一线大模型,正在全面进入智能体时代。
1 月 24 日凌晨 2 点,OpenAI 面向月供 200 美元的 ChatGPT Pro 用户发布了自家的 Computer Use 智能体:Operator。
UI-TARS PC 客户端:https://github.com/bytedance/UI-TARS-desktop Midscene.js 浏览器控制:https://github.com/web-infra-dev/midscene
UI-TARS 为啥操作准?
端到端的智能体架构创新
论文标题:UI-TARS: Pioneering Automated GUI Interaction with Native Agents 论文地址:https://arxiv.org/pdf/2501.12326 开源地址:https://github.com/bytedance/UI-TARS
增强感知(Enhanced Perception):利用大规模 GUI 截图数据集,实现对 UI 元素的上下文感知理解并生成精确描述; 统一动作建模(Unified Action Modeling):将动作标准化处理到跨平台的统一空间中,并通过大规模动作轨迹实现精确定位和交互; System 2 推理(System-2 Reasoning):将深思熟虑的推理纳入多步决策,并涵盖任务分解、反思思维等多种推理模式。 迭代式反思训练(Iterative Training with Reflective Online Traces):通过在数百台虚拟机上自动收集、过滤和反射细化新的交互轨迹来解决数据瓶颈问题。同时基于迭代训练和反思训练,UI-TARS 持续从错误中学习,并在最少的人为干预下适应不可预见的情况。
查看原图 197K