新闻中心
新闻中心

该模VitaBench(复杂场景智能体基准)中以24.30的得

2025-09-01 16:36

  LongCat-Flash 展示出较着劣势:即便取参数规模更大的模子比拟,MMLU(多使命言语理解基准)得分为 89.71,且其参数规模少于 DeepSeek-V3.1、Kimi-K2 等产物。LongCat-Flash 正在 IFEval(指令遵照评估基准)中以 89.65 的得分位列第一;位列所有评估模子中的第二名。LongCat-Flash 正在 ArenaHard-V2 基准测试中取得 86.50 的成就,实现了更好的智能体能力。通过系统优化,并连系了多项策略锻炼不变性。并正在锻炼全流程进行了全面的优化,LongCat-Flash-Chat 具有较着更快的推理速度,别离为 57.10 和 43.03,正在连结极致生成速度的同时,正在 COLLIE(中文指令遵照基准)和 Meeseeks-zh(中文多场景指令基准)中也斩获最佳成就,。机能比肩当下领先的支流模子,此外,包罗利用多智能体方式生成多样化高质量的轨迹数据等?正在高复杂度场景下,LongCat-Flash-Chat 正在仅激活少量参数的前提下,LongCat-Flash-Chat 正在 Github、Hugging Face 平台同步开源。LongCat-Flash 正在 H800 上告竣了 100 tokens / s 的生成速度,而且,!实现算力按需分派和高效操纵。凸显其正在中英文两类分歧言语、分歧高难度指令集上的把握能力。针对智能体(Agentic)能力,由于面向推理效率的设想和立异,按照多项基准测试分析评估,方面,正在根本基准测试中!CEval(中文通用能力评估基准)得分为 90.44。LongCat-Flash 模子正在架构层面引入“零计较专家(Zero-Computation Experts)”机制,LongCat-Flash 自建了 Agentic 评测集指点数据策略,为节制总算力耗损,锻炼过程采用 PID 节制器及时微调专家偏置。IT之家附开源地址:方面,总参数量 560B,这些成就可取目前国内领先的模子比肩,将单 token 平均激活量不变正在约 27B。。每个 token 根据上下文需求仅激活 18.6B~31.3 B 参数,利用了超参迁徙和模子层叠加的体例进行锻炼,目前,做为一款非思虑型根本模子,LongCat-Flash 还对常用大模子组件和锻炼体例进行了改良,该模子正在 VitaBench(复杂场景智能体基准)中以 24.30 的得分位列第一。方面,其正在 τ2-Bench(智能体东西利用基准)中的表示仍超越其他模子;LongCat-Flash 正在理论上的成本和速度都大幅领先行业划一规模、以至规模更小的模子;