(资料图片仅供参考)
1月16日消息,美团LongCat官微消息,作为LongCat-Flash-Thinking模型的升级版,LongCat-Flash-Thinking-2601现已开源。新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型SOTA水平。据介绍,该模型在工具调用的泛化能力上优势尤其明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务,确保思考周全、决策可靠。
具体来看,当遇到高难度问题时,新模型会把思考过程拆分成“并行思考”和“总结归纳”两步进行:
并行思考阶段,与人类面对难题会同时尝试多种解法相似,“重思考”模式下的模型,会在保证思路多样性的同时,独立梳理出多条推理路径寻找最优解;总结归纳阶段,则会对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。
除此之外,LongCat团队在新模型中加入了额外的强化学习环节,针对性打磨模型的总结归纳能力,从而让LongCat-Flash-Thinking-2601实现了“想清楚再行动”的结果。经过全面严谨的评估,LongCat-Flash-Thinking-2601模型在编程、数学推理、智能体工具调用、智能体搜索等维度表现优异。
LongCat-Flash-Thinking-2601的平均性能比较(资料图)
对于新模型的技术思路,LongCat团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。
该团队还表示,现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,团队在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习的方式循序渐进地进行模型训练,在训练过程中逐步增加噪声的类型与强度——类比教新手骑车,首先会让其在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。经过系统化的抗干扰训练,LongCat-Flash-Thinking-2601(Training w/Noise组)拥有了极强的环境适应能力,在复杂场景中,也能稳定发挥、高效完成任务。
标签: 智能体 调用 推理 编程
提起公司解散起诉的条件是什么?公司的解散事由与清算办法是怎样的?
提起公司解散起诉的条件单独或者合计持有公司全部股东表决权百分之十以上的股东,以下列事由之一提起解散公司诉讼,人民法院应予受理:(一
公司解散了,清算组已进场,办理注销登记前有具体的清算流程是什么?
公司解散以后,清算组接管公司以前,公司的一切财产均由董事会负责保管。清算组成立后,便接替公司董事会,开始进行清算活动。清算的具体步
一、拆迁安置房与商品房的区别:1、质量问题安置房一般利润有所限制,开发商可能存在偷工减料的现象。加上职能部门监管不力,以至于安置房
怎样卖房子,卖房的技巧有哪些一、了解行情卖房者想要卖房子,首先就是要了解行情,可以关注房产信息,收集相关的资讯或者是向房产中介公司
一、什么叫做租售同权1、租售同权的规定是:在保障当事人的合法权利的前提下,使得租房居民能够与买房居民享有同等权利的举措。具体表现为
广州二手房出售流程分为6步:第一步:对二手房的出售进行咨询。了解这种二手房出售信息可通过各种渠道,譬如亲戚朋友、经纪公司、报纸广告
买方无需贷款的1、卖方到中介挂牌。(一般卖方会在好多个中介挂牌,在没有买方成交意向前,只要知道房屋的大致情况即可)2、买方有初步意向,
一、抵押贷款利率多少1、贷款期限为5年以下(含5年)的:贷款年利率为4 77%;贷款期限为5年以上的,贷款年利率为5 04%(按各地政府实际情况定)
Copyright 2015-2022 法律问答网版权所有 京ICP备2023000331号-17联系邮箱:434 922 62@qq.com