跳转到内容

Cursor 新模型,你怎么还在套 Kimi?马斯克你怎么还在吆喝??

· 量子位
国内AI

1/10成本、Opus 4.7级表现。

Cursor模型更新,最新版本已来到 Composer 2.5

稍微一翻 Cursor 公告,两件事挺有意思:

一是 Cursor 这回学老实了,新模型“套”了 Kimi 不再藏着掖着,连具体用了多少都标得清清楚楚。

(Cursor:Kimi 打底,自家额外训练 + RL 占了 85% 的总算力)

Image 3

二是马斯克原地上演变脸。之前 Cursor 陷入“套壳风波”时,他在旁边煽风点火,现在却十分卖力地帮忙站台:

都给我去用 Cursor 新模型。

网友:老马你让我感到陌生(doge)。

Image 4

Image 5

别想多了,其实这是因为 Cursor 和马斯克达成了算力合作——

Composer 2.5 部分训练是在 Colossus 2 上完成的;另外,Cursor 还正在和 SpaceXAI 合作,从零开始训练一个规模明显更大的模型。

Image 6

好好好,新模型刚来,下一代模型的“饼”又吃上了,看来 Cursor 真是铆足了劲想搞自研(具体原因下文详聊)。

不过远的咱够不着,先看眼前这个实在的——Composer 2.5 本身亮点也很足。

1/10 成本、Opus 4.7 级表现,而且发布后首周还给你双倍用量。

好家伙,这几个词一甩出来,经常用模型的朋友谁不沸腾了。

但问题是,Cursor 新模型真有这么顶吗??

顶不顶目前咱不好说,反正测评成绩挺亮眼。

据 Cursor 介绍,“它更擅长在长时间运行的任务中持续工作,更可靠地遵循复杂指令,协作体验也更加顺畅。”

这些表现反映到具体数字上就是,其性能水平整体接近 Claude Opus 4.7。

  • Terminal-Bench 2.0(终端/命令行任务):69.3% VS 69.4%,几乎持平;
  • SWE-Bench Multilingual(多语言工程问题):79.8% VS 80.5%,差距微弱;
  • CursorBench v3.1(高难度编程任务):63.2% VS 最高配 64.8%,差距微弱。

Image 7

能和 Opus 4.7 相提并论,常用模型的人都知道这里头的含金量了。

Image 8

而且除了在更高难度的任务上训练之外,他们还改进了模型在沟通风格和投入级别校准(什么时候该出多大力)等行为层面的表现。

听起来有点抽象,但 Cursor 表示:

这些维度很难通过现有基准充分反映,但我们发现,它们对实际使用效果非常重要。

那么,Composer 2.5 真实能力如何呢?

鉴于目前 Cursor 免费用户只能体验 Auto 模式(虽然上架了但是选不了),所以咱先看一波网友的反馈。

先插一嘴,Composer 模型速度是真快啊,甭管是哪一个版本,用起来歘歘歘的。

Image 9

OK,回归正题。

目前一圈扒下来,感觉 Composer 2.5 反馈还不错??

Snapchat 前机器学习工程师激情发帖称,自从 Composer 2 发布后,她就把绝大多数开发工作搬到了 Cursor 上面。

而且还甩出了一句颇有暴论味道的话:

如果你在使用 AI 进行开发,却仍然默认使用成本最高的模型来完成每一项任务,那么你 80% 的工作都是在浪费钱。

Image 10

图像生成初创公司 LetzAI 的 CEO 也有类似感受。他在体验新模型几小时后表示:

以前可能会对 AI 的方案挑三拣四、反复修改,但这次因为 Composer 2.5 做得太好太快,自己直接“躺平认了”。

没什么可挑剔的,就这么办吧。

Image 11

想必你也发现了,除了模型能力之外,他们提到了另一个重要关键词:价格

Composer 2.5 的价格为每百万输入 token 0.50 美元、每百万输出 token 2.50 美元。

此外,还有一个智能水平相同但速度更快的变体,价格为每百万输入 token 3.00 美元、每百万输出 token 15.00 美元。

p.s. 与 Composer 2 一样,fast 是默认选项。

这个价格怎么说呢?也就是 Opus 4.7 的 1/10 吧。

Image 12

1/10 成本、Opus 4.7 级表现,如果效果真如测评和网友所言,那绝对是真香了。

Kimi 打底,还做了这些训练改进

那么 Composer 2.5 这次是如何实现性能“飞跃”(至少是表面上)的呢?

虽说是有 Kimi 打底,但好歹贴的是“Cursor 自研模型”的标签,这背后多多少少总得有自研吧。

Cursor:别说,我还真有。

Image 13

回到模型本身,Cursor 这回在训练栈上做了不少改进,主要围绕两个方向:

模型智能易用性

具体则有三点:

第一,给 RL 训练加了“定向反馈”

以前 RL 奖励是基于整条轨迹算的,rollout 动辄几十万 token,模型很难知道自己究竟是哪一步搞砸了——最终奖励只能告诉你“出问题了”,但具体错在哪儿,信号噪声特别大。

Cursor 的解法是:哪里不对就在哪里直接喂反馈。

举个例子,模型在某一轮调用了一个不存在的工具,收到报错后继续干别的。几百次调用里就这一次错,对最终奖励基本没影响。

但 Cursor 会在出错那一轮的上下文里插一句“Reminder: Available tools…”并附上可用工具列表,由此得到一个新的“教师”概率分布。

如此一来,错误工具的概率被压下去,有效替代项的概率被抬上来,然后让学生模型向这个分布靠拢就行。

这套方法在 Composer 2.5 里被用在了多种行为上,从编码风格到沟通方式都有。

Image 14

第二,合成数据规模翻了 25 倍

RL 训练几轮下来,Composer 已经能解决大部分训练题了,怎么继续提升?

答案是动态生成更难的任务

其中一个玩法叫“功能删除”——给智能体一个带测试的代码库,让它删掉某个特定功能但保证代码库还能跑,然后任务就是把这个功能重新实现出来,测试就是奖励信号。

不过任务一多,奖励作弊也跟着来了。

Cursor 发现 Composer 2.5 会整一些离谱操作,比如逆向 Python 类型检查缓存,找出被删的函数签名;甚至反编译 Java 字节码,重建第三方 API。

好在都被监控工具抓到了,但也算提了个醒——大规模 RL 得更小心。

Image 15

第三,底层训练做了优化

Cursor 用的是带分布式正交化的 Muon,并把通信做成异步——一个任务等通信时,优化器接着推进其他任务,让网络和计算重叠起来。

最终在 1T 模型上,优化器每步只要 0.2 秒

另外,针对 MoE 模型,他们把非专家权重和专家权重的 HSDP 布局拆开了:非专家权重小,FSDP 组就窄一点,单节点内搞定;专家权重大,就用更宽的分片网格。

这样彼此独立的并行维度也能重叠,比如 CP=2 和 EP=8 可以在 8 个 GPU 上跑,而不用占 16 个。

总之,从训练信号到数据规模,再到底层并行,Cursor 这次是全栈都动了一遍。

One More Thing

Cursor 为啥这么拼搞自研?其实从它和 Anthropic 的微妙关系里就能管中窥豹。

刚好最近看了姚顺宇(不是腾讯那个)做客张小珺播客的那期节目,这位 Anthropic 前员工的观察,正好能说明问题:

Cursor 最早是踩着 Claude 的肩膀火起来的。开发者社区里口口相传的好用,背后很大一部分功劳来自 Claude 模型本身。那段时间 Cursor 和 Anthropic 是典型的“鱼水关系”,一个出模型,一个出产品,各赚各的钱。

但 Claude Code 一出来,画风就变了。

**Anthropic 自己下场做编程产品,等于直接杀进了 Cursor 的腹地。**原本的“上游供应商”瞬间变成了“正面对手”,再继续把身家性命押在对方的 API 上,显然不是个安全的选择。

所以 Cursor 走上自研这条路,与其说是想成为下一个 Anthropic,不如说是被推着不得不走——

模型握在自己手里,命才在自己手里。

说到这里我很好奇一个问题:在自研模型成功之前,Cursor 现在的模式难道真的不具有护城河吗?

至少对我这种非专业开发者而言,听起来好像 Cursor 还不错——有多款前沿模型可选,价格还更便宜。

带着好奇,我看到 X 上有人给出了一种解读,挺有意思:

Cursor 的护城河从来都不是基础模型,而是 RL 训练流程 + 开发者工作流数据。现在他们正在证明:只要经过足够的微调,开源基础模型在特定任务上也能与前沿模型相媲美。

Image 16

仔细想想这话也不算太夸张。

Composer 2.5 的训练里,85% 的算力都花在了 Kimi 基模之外的后训练和 RL 上——Kimi K2.5 只是个起点,真正让它在编程任务上能打的,是 Cursor 自己那套围绕真实 IDE 场景做出来的训练管线。

这个打法也解释了为啥它能把价格压到 Opus 的十分之一。因为开源基模省掉了从零预训练那笔最贵的钱,剩下的全砸在编程这一件事上做精细化训练。

模型只为 Cursor 的 IDE 场景服务,没必要为通用能力买单。

至于为啥这次牵手的是马斯克的 SpaceXAI(毕竟老马上次表现得并不友好),逻辑貌似也不复杂。

OpenAI 有 Codex、Anthropic 有 Claude Code、Google 有 Gemini Code Assist,这几家自己都在做编程产品,跟 Cursor 都是潜在对手,算力上指望不上。

剩下能拿出世界级算力集群、又不跟 Cursor 在编程赛道正面冲突的玩家,掰着指头数也没几个了——

老马的 Colossus 2 刚好是现成的。

Image 17

而且如果把时间线拉长看,你会发现马斯克和 Cursor 之间,已经远不只是单纯的“算力合作”。

今年 3 月,xAI 内部动荡之际,马斯克先从 Cursor 挖走了两位核心工程负责人。

紧接着 4 月,更大的动作来了。SpaceX 宣布与 Cursor 达成合作,由 Colossus 超算为 Cursor 训练模型。

但真正关键的不是算力,而是协议本身。

按照网上披露的条款,SpaceX 获得了未来以 600 亿美元收购 Cursor 的优先权。即便最终不收购,Cursor 也需要支付 100 亿美元“合作费”。

耐人寻味的是,据 TechCrunch 披露,这份协议官宣前几小时,Cursor 原本正要敲定一轮 20 亿美元、估值 500 亿的融资,参投方包括 a16z、英伟达、Thrive 等一线机构。

结果老马一脚插进来,把这单给截胡了。

所以某种程度上而言,这其实是一次非常典型的“马斯克式绑定”:

要么卖给我,要么给我 100 亿,不管怎样先提前把 Cursor 的命运锁进了自己的版图。

至于他前脚煽风点火、后脚卖力站台的变脸速度嘛——硅谷的故事,向来如此。