77体育

宣布于2026-04-28 10:53:33 来自尊神年度 ·

关注

新款问界M7无伪谍照曝光，延续家族式设计气概

美酝酿处分北约盟友步伐包括暂停西班牙北约成员国资格等

文 | 字母 AI坏了，我写的文章被罗福莉打脸了，结结实实。事情是这样的，小米宣布 MiMo-V2-Pro 的时间，我曾写过一篇文章，叫《在大模子这件事上，雷军居然给马斯克打样了》，在该文的最后一部分对小米提出质疑。我说 "MiMo-V2-Pro 只宣布了 SWE-bench Verified 这个公认有水分的评分效果，却没有宣布 SWE-bench Pro 这个真正抗污染的测试效果。"效果小米在 V2.5-Pro 的宣传中，直接把 SWE-bench Pro 放在了宣传榜第一的位置，还专程在 OpenRouter 的模子形貌中标注 "top rankings on benchmarks such as ClawEval，GDPVal，and SWE-bench Pro"。从效果来看，MiMo-V2.5-Pro 的效果，已经和 Claude Opus 4.6 以及 GPT-5.4 这两个全球最顶尖的模子相当。虽然关于一样平常人来说，被打脸是一件很尴尬的事情，但我纷歧样，我以为这是好事，因此我也愿意被打脸。我被打脸，说明小米的模子前进了，性能更好了。MiMo-V2-Pro 的宣布时间是 3 月下旬，相当于小米只用了 1 个月的时间，就开发出了下一代的模子。至少在态度上，小米已经不再回避更 " 硬核 " 的测试集了。那么小米这次的新模子 V2.5 和 V2.5-Pro 究竟怎样呢？把 agent 能力当产品中心小米这次最值得看的，是把它 "Agent 能力、长上下文、多模态、token 效率、第三方框架适配 " 打包到了统一代产品里，榜单效果反倒不是重点。MiMo 的这次新模子宣布，整体叙事很是 " 工程化 "，重复都在讲 harness 和 Claude Code 以及 OpenClaw 这类开发者事情流语境，基本上除了开头那张图以外，就没怎么再提过模子性能。这事自己就很是小米。MiMo-V2.5-Pro 的重点是 " 长程 agent"，谈天只是附带功效。它在合适 harness 下可以一连完成凌驾 1000 次工具挪用的长使命。小米给了三个很重大的 demo。第一个是 4.3 小时、672 次工具挪用完整写出 SysY 编译器。这个使命来自北京大学编译原理课程项目，要求从零实现一个完整的 SysY 编译器，包括词法剖析器、语法剖析器、笼统语法树、Koopa IR 代码天生、RISC-V 汇编后端，以及性能优化。参考项目通常需要北大盘算机专业学生破费数周时间。MiMo-V2.5-Pro 在隐藏测试集上拿到了 233/233 的满分。模子一层一层地构建编译器，没有重复试错。先搭建完整管道，完善 Koopa IR 部分拿到 110/110，然后是 RISC-V 后端 103/103，最后是性能优化 20/20。第一次编译就通过了 137/233 个测试，59% 的冷启动通过率说明架构在运行任何测试之前就已经设计准确。在第 512 轮时，一次重构导致 lv9/riscv 退步了两个测试，模子诊断出问题，恢复，然后继续执行使命。长程事情需要的正是这种结构化、自我纠错的能力。第二个是 11.5 小时、1868 次工具挪用做出可用的视频编辑器桌面应用。只需要几个简朴的提醒，MiMo-V2.5-Pro 就交付了一个完整的桌面应用。最终构建的代码有 8192 行。第三个是接入 ngspice 仿真闭环做模拟电路 FVF-LDO 设计优化。这是一个研究生级别的模拟电路 EDA 使命，在 TSMC 180nm CMOS 工艺下从零设计和优化一个完整的 FVF-LDO（翻转电压追随器低压差稳压器）。模子需要确定功率晶体管尺寸、调解赔偿网络、选择偏置电压，使 6 个指标同时知足规格要求，包括相位裕度、线性调解率、负载调解率、静态电流、PSRR 和瞬态响应。一个训练有素的模拟设计师通常需要花几天时间完成这个规模的项目。小米把 MiMo-V2.5-Pro 接入 ngspice 仿真循环，使用 Claude Code 作为 harness。在约莫 1 小时的闭环迭代中，模子重复挪用模拟器、读取波形、调解参数，最终爆发了一个每个目的指标都知足的设计，其中四个指标比自己的初始实验刷新了一个数目级。上面 3 个 demo 有点难看懂是吧？没关系，着实简朴来讲，就是小米想要展示 MiMo-V2.5-Pro 它能一连干几小时、挪用上千次工具、最后还真地把产品给你做出来。重点不是 " 聪不智慧 "，是它 " 能不可把活干完 "。在这些实验中，V2.5-Pro 展现出了一种 "harness awareness"。它充分使用 harness 情形提供的能力，管理自己的影象，并塑造自己的上下文怎样被填充以告竣最终目的。小米还把多模态和 agent 能力合到一起。原生视觉和音频明确，Video-MME 达 87.7 分，靠近 Gemini 3 Pro 的 88.4 分。Claw-Eval 多模态子集 23.8 分，与 Claude Sonnet 4.6 持平。最长支持 100 万 token 上下文，agent 性能凌驾上一代 MiMo-V2-Pro。在自家 MiMo Coding Bench 上，MiMo-V2.5 抵达靠近 Pro 级体验，但本钱只要一半。一样平常 AI 厂商，往往是 " 代码强的一个模子、多模态强的另一个模子、长上下文再单独区分一个版本 "。MiMo-V2.5 把 " 看、听、推理、挪用工具 " 全都放到一个统一模子里，可以明确更多的需求，也可以执行更重大的使命，这比纯粹刷分要有意义。MiMo 还把 "token 效率 " 当成了卖点，说白了，就是省钱。在 ClawEval 上，MiMo-V2.5-Pro 以约 7 万 token/trajectory 抵达 64% Pass^3，相较 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4，在相近能力下少用约 40% 到 60%token。为什么能省这么多呢？由于 agent 的真实成原来自长链条工具挪用、重复读写上下文、一连推理，单轮问答只是小头。谁在这件事上更省 token，谁在生产情形里就更可能被用。许多模子虽然宣称支持超长上下文，但真跑起来很贵。小米这次直接作废 1M 上下文的特殊倍率，实质上是在降低 Agent 试错门槛。小米应该是想要瞄准那些，跑恒久、重大使命的用户，由于这种使命反而会更省钱，关于一样平常用户来说，着实很难感受到 MiMo 省钱的地方。雷军要 " 卖算力 " 了？随着 V2.5 的宣布，小米完善了他们 4 月 3 号宣布的 Token Plan 订阅系统，从 Lite ? 39/ 月到 Max ? 659/ 月一共 4 档，新增夜间 8 折、包年 88 折等运营商式定价战略，并对老用户全量重置已用 Credits。这套打法相当于是告诉你，小米现在是一个正经卖 token 的公司了。MiMo 的 Token Plan 实质上是在构建一个非硬件依赖的经常性收入模子，这点很是 " 不小米 "。并且小米专程选在夜间宣布，就是为了瞄准美国的时间，以拓展国际化市场。当小米自建算力集群抵达一定规模后，每增添一个付用度户的本钱极低，但 ARPU（每用户平均收入）可以通过差别化定价一连提升。这是典范的 SaaS 商业模式，毛利率可以抵达 70% 以上，比汽车手机家电都要高。Token Plan 适配 Claude Code、OpenClaw 等主流 AI 开发框架，现实上也是在争取 AI 原生应用的底层基础设施入口。更深一层，若是小米汽车、小米 IoT 装备的第三方应用都基于 MiMo 开发，雷军就掌握了整个生态的 " 算力税收权 "。每一次 API 挪用都是一次变现机会。不过，我以为小米 Token Plan 能否腾飞的焦点，在于能否兑现 V2.5 系列的开源允许。小米从手机时代最先，走的就是开源蹊径。虽然说开源意味着社区开发者可以免费安排和微调模子，外貌上会蚕食 Token Plan 的付用度户。但真正的商业逻辑在于，开源吸引长尾开发者，他们孝顺代码、优化模子、构建应用，形成生态昌盛。闭源 API 服务高频高价值场景，企业客户为了稳固性、SLA 包管和手艺支持，依然会选择付费 Token Plan�？瓷缜床改Ｗ拥�，小米可以低本钱获取海量真实场景的微调数据和 bug 反响。这个逻辑在行业里已经被验证过。Meta 的 Llama 系列开源后，社区孝顺了大宗微调版本和应用案例，反过来牢靠了 Meta 在 AI 基础设施层的话语权。小米若是能走通这条路，Token Plan 就会成为毗连开发者、企业客户和小米生态的枢纽，订阅服务只是它的一个侧面。从产品定位看，MiMo-V2.5 和 V2.5-Pro 形成了明确的分层。V2.5 是 " 原生全模态 + 强 agent 能力 "，适合需要多模态输入的日�？⑹姑�。V2.5-Pro 是 " 长程 agent"，适合需要一连数小时、上千次工具挪用的重大工程使命。这种分层的逻辑是场景适配，性能崎岖只是表象。对小米来说，Token Plan 的意义不但是多一条收入泉源。它是小米从 " 硬件公司 " 到 "AI 公司 " 叙事转型中最主要的一块拼图。小米已往的商业模式是 " 硬件 +IoT 生态 "，用性价比硬件获取用户，用 IoT 装备构建生态。这个模式的天花板在于硬件销量和 IoT 装备渗透率。Token Plan 是雷军的新实验。用 AI 能力获取开发者，用开发者构建应用生态，用 API 挪用一连变现。这个模式的天花板在于 AI 能力的强度和生态的活跃度。至少比从北京到上海全程直播要更赚钱一些。若是 MiMo 能在开发者社区站稳脚跟，小米就有机会从 " 卖手机的公司 " 酿成 " 提供 AI 基础设施的公司 "。这个转变的商业价值，远远凌驾 Token Plan 自己的订阅收入。MiMo-V2.5 挑刺那么既然小米喜欢打我的脸，那我也愿意再给他们挑挑刺。现在 SWE-bench Pro 最高分是 Claude Mythos Preview 的 77.8%，MiMo-V2.5-Pro 在 SWE-bench Pro 上拿到 57.2%，距离这个新巅峰尚有些遥远。别的，MiMo-v2.5 在通用高阶推理天花板的要害测试集中体现一样平常。MiMo-V2.5-Pro 在 Humanity's Last Exam 上是 48.0%，而 GPT-5.4 是 58.7%。在 " 高阶知识密度 + 跨学科笼统推理 " 上，和最顶级模子尚有一段距离。更主要的是，现在小米还缺乏可复现的硬证据。小米自家的 MiMo Coding Bench、SysY 编译器 233/233、11.5 小时做视频编辑器、模拟电路 EDA 闭环优化、"harness awareness"，它们都是 " 高光 demo" 或 " 实验室 showcase"，作为 " 开源 "（虽然暂时还没开源）的模子，它没有完全可复现、可横向比照的果真标准。这件事着实 " 不太开源 "。这是最好的一次，照旧平均水平？prompt、工具、权限、上下文注入方法是什么？乐成率是几多？本钱是几多？换一批使命还稳不稳？1868 次工具挪用、672 次工具挪用，这些超长链路中，有几多次是无效挪用、重复挪用、过失挪用？若是这些细节不果真，demo 的说服力就会打折。"harness awareness" 这个说法很抓眼，但不敷有说服力。这个词听起来很高级，那它究竟是模子真的学会了怎样管理 agent runtime？照旧说只是由于这个使命的 harness 写得好、使命设计得顺，照旧评测情形对它较量友好？我现在很难判断。小米强调 V2.5-Pro 具备 "harness awareness"，但这也意味着模子高度依赖特定 harne

热门排行