4006-998-758
新闻动态

Cursor套壳Kimi事件:500亿估值公司的"忘记署名",撕开了AI行业最尴尬的遮羞布

2026-03-24

21-260324150R3952.png



AI是一座无限的山。



01

一场"忘记署名"引发的行业地震


2026年3月,AI编程工具赛道发生了一场堪称"教科书级别"的公关危机。

估值高达500亿美元的明星公司Cursor,在发布其最新编程模型Composer 2时,宣称这是"自研模型"。然而,有开发者在调试API时,从日志中意外发现了一个刺眼的标识:"kimi-k2p5-rl"。

这个标识直接指向了中国公司月之暗面(Moonshot AI)的Kimi K2.5模型。

21-260324151054101.png







消息迅速在开发者社区发酵,甚至连埃隆·马斯克都在社交媒体上确认了这一发现。面对质疑,Cursor联合创始人Aman Sanger和核心成员Lee Robinson不得不站出来回应:是的,我们用了Kimi K2.5作为基座模型,因为"它是目前最强的"。

更戏剧性的是,月之暗面预训练负责人杜羽伦通过技术测试发现,Composer 2的分词器(tokenizer)与Kimi完全一致,从技术层面彻底实锤了"套壳"事实。

但真正让这件事成为行业标志性事件的,不是技术上的"套壳",而是背后的商业逻辑和伦理困境。

根据Kimi K2.5修改后的MIT许可证,若衍生产品的月活跃用户超过1亿或月收入超过2000万美元,必须在产品中显著标明"Kimi K2.5"。而Cursor的年报显示,其年经常性收入(ARR)约20亿美元,估值500亿美元,远超触发署名义务的门槛数百倍。

Cursor方面的解释是:"这是一个疏忽,忘记署名了。"

这个解释,在AI行业从业者看来,既真实得可怕,又荒谬得可笑。




02

杨植麟一年前的预言:三方产品vs一方产品的根本逻辑


如果我们把时间倒回2025年7月,在K2发布后不久,月之暗面创始人杨植麟接受张小珺商业访谈录采访时,就已经为今天的事件埋下了伏笔。

在那次访谈中,杨植麟清晰地划分了"一方产品"和"三方产品"两种完全不同的逻辑:

三方产品(如Manus)的逻辑:逆向工程模型训练过程——猜什么工具、什么System Prompt、什么Context Engineering效果好。

一方产品(如Claude Code)的逻辑:正向设计——先把工具和环境设计好,直接在黑盒里训练模型,模型天然适配你的环境。

杨植麟当时就明确指出:"第二种思路上限也许更高——你可以更好整合工具和模型。"

站在2026年3月回看,Cursor Composer 2恰恰是一个典型的"三方产品"案例。

他们没有选择从零训练基座模型,而是选择了"逆向工程"——评估了大量基座模型后,选择了当时最强的Kimi K2.5,然后在其基础上进行后训练(post-training)和强化学习(RL)训练。

Cursor方面透露,他们在Kimi K2.5基础上"消耗了数倍于基座模型的算力"进行后续训练。这个说法本身就有意思——如果消耗了数倍算力,那到底算"自研"还是"套壳"?

从技术角度看,Cursor确实做了大量工作。但从商业伦理角度看,问题就复杂得多。

杨植麟在访谈中提到的另一个关键观点,或许能解释为什么Cursor会"忘记署名":

"一方产品和三方产品是两种根本不同的逻辑。"

对于Cursor这样的应用层公司来说,他们的核心叙事是"我们做出了最好的AI编程工具",而不是"我们基于Kimi K2.5做了二次开发"。在资本市场的叙事逻辑里,前者估值可以是500亿美元,后者可能就要打对折。

这不是简单的"忘记",而是商业利益驱动下的选择性遗忘。




03

Token Efficiency时代:为什么Kimi K2.5成为"最强基座"?


要理解为什么Cursor会选择Kimi K2.5,我们必须回到杨植麟在访谈中反复强调的一个概念:Token Efficiency(令牌效率)。

在2025年,AI行业已经明确进入了"数据墙"时代。高质量数据接近常数,怎么办?杨植麟给出的答案是:提升token efficiency——让每份数据产生更大价值。

Kimi K2.5的核心突破,用杨植麟的话说就是:"喂一样多的数据,'脑子'长得更多。"

具体技术方案包括:

1. Muon优化器

  • Adam优化器用了10年,但token效率不够好

  • Muon把矩阵参数整体考虑依赖关系

  • 实验结果:学1份数据 ≈ 用Adam学2份

  • 30T高质量token → 等价60T的效果

2. 数据改写策略

  • 高质量数据反复学会过拟合

  • 通过改写让同一份数据产生泛化能力

  • 关键:改写是否引入了新的熵

这些技术突破,让Kimi K2.5在同等数据量下,性能显著超越竞争对手。这也是为什么Cursor会承认:"Kimi K2.5是其中最强的。"

但这里有一个更深层的问题:当基座模型的性能差距缩小到一定程度,应用层公司的"护城河"到底在哪里?

Cursor的答案是:在Kimi K2.5基础上进行大量的后训练和RL训练,针对编程场景做深度优化。他们声称消耗了"数倍于基座模型的算力"。

这个策略本身没有问题。问题在于,当你99%的用户感知到的"智能"都来自于基座模型时,你是否还应该宣称这是"自研模型"?

杨植麟在访谈中提到了一个关键判断:"今天Agent还不像对话有这么好的泛化性——接下来要山上几百个台阶,有可能是这个。"

换句话说,基座模型的泛化能力,决定了上层应用的上限。Cursor的Composer 2再优秀,也跳不出Kimi K2.5的能力边界。

这就是为什么"忘记署名"在技术伦理上如此严重——它模糊了能力来源的真实边界。




04

Agent泛化性困境:SWE-bench分数背后的真相


让我们把视角拉得更宏观一些。

Cursor事件之所以引发如此大的关注,不仅仅是因为一家500亿美元估值公司的"疏忽",更是因为它暴露了整个AI行业在Agent发展上的根本困境:泛化性(Generalization)。

杨植麟在访谈中明确指出:"Agent最大的挑战:泛化性。"

他列举了当前Agent训练的核心痛点:

  • 训SWE-bench用分布数据,只提升SWE-bench分数

  • 指标提升 ≠ 模型泛化变好

  • 过拟合到特定工具、环境、任务是普遍问题

  • 评估方式片面,可用的Benchmark不多

这段话,简直就是为Cursor事件量身定做的注解。

Cursor的Composer 2在编程任务上表现优异,但这是否意味着它真正理解了编程?还是只是过拟合到了编程场景的特定模式?

杨植麟给出的解决思路是:

  1. 不过拟合单点能力,追求通用模型

  2. 用更AI native的方式训练AI——让模型参与到训练过程

  3. 可能需要在Pre-Train阶段就加入Agentic能力

这些观点,直指当前AI行业的核心矛盾:我们到底是在训练"智能",还是在训练"应试能力"?

SWE-bench分数可以很高,但换个场景就不行,这本质上就是过拟合。Cursor的Composer 2可能在编程任务上超越了GPT-4,但这是否意味着它具备了真正的"编程智能"?

更尖锐的问题是:如果连"编程"这样相对封闭、规则明确的领域都难以实现真正的泛化,那AGI的距离还有多远?

杨植麟在访谈中对AGI的理解或许能给我们一些启示:"AGI不是一级台阶,而是一个方向。"

他说:"不是某一刻突然实现的——不像登月,站上去就算到了。"

"很多领域已经AGI了——数学、编程竞赛等。"

"社会影响是更长周期的事——像蒸汽机一样需要几十年上百年消化。"

这意味着,我们不应该期待某个"AGI时刻"的到来,而应该接受AI能力渐进式提升的现实。

在这个现实下,Cursor基于Kimi K2.5开发Composer 2,本身没有问题。问题在于,你是否诚实地向用户和投资者披露了能力的真实来源?




05Scaling Law的黄昏:数据飞轮为何没有形成?


让我们再深入一层,看看Cursor事件背后的行业大背景。

杨植麟在访谈中提出了一个尖锐的问题:"Scaling Law放缓了吗?数据飞轮为何没形成?"

他的答案是:Scaling Law遇到了数据墙——这是客观事实。

但模型变好的速度并没有减少,甚至在加速。原因包括:

  • RL的scaling效率比Pre-Training高很多

  • RL是on-policy且带负梯度的训练

  • 提升token efficiency可以突破数据墙

但为什么没有形成数据飞轮?

杨植麟给出了三个原因:

  1. 基于算力的scaling太强大了,其他手段相比之下提升很小

  2. 大模型学习对噪声敏感,用户反馈信号噪声大

  3. 需要新的交互范式来降低信号噪声

他最后总结道:"基于FLOPs的scaling是更有效路径,但这个平衡什么时候会变化——值得观察。"

这段话,为Cursor事件提供了另一个解读角度。

在Scaling Law放缓、数据墙逼近的背景下,基座模型的性能差距正在缩小。当大家都能获得差不多的基座模型性能时,竞争就转移到了应用层。

Cursor选择了Kimi K2.5,因为它是"最强的"。但"最强"的差距可能只有几个百分点。在这种情况下,Cursor的核心竞争力就不在于基座模型,而在于:

  1. 后训练和RL训练的质量

  2. 产品体验和用户界面

  3. 生态建设和开发者社区

这就是为什么Cursor会"忘记署名"——在他们的叙事里,基座模型只是"原材料",真正的价值在于后续的"加工"。

但这种叙事在技术伦理上是站不住脚的。因为用户感知到的"智能",99%来自于基座模型,而不是后训练。

杨植麟在访谈中提到了一个关键判断:"模型越通用,系统越复杂。但不通用,泛化性又不够。"

这或许就是当前AI行业的根本困境:我们既需要通用的基座模型,又需要专用的应用模型,但这两者之间存在天然的张力。

Cursor试图通过在Kimi K2.5基础上进行深度后训练来解决这个矛盾,但在商业伦理上,他们越过了红线。




06RL式管理vs SFT式管理:Cursor的"reward hacking"?


有趣的是,杨植麟在访谈中提到的管理哲学,竟然可以用来解读Cursor事件本身。

他把团队管理分为两种模式:

SFT式管理 = 告诉团队"这个事该这样做"

  • 优点:有先验指导

  • 缺点:团队失去主观能动性和创造力

RL式管理 = 给目标和奖励信号,让团队自主探索

  • 优点:激发创新

  • 缺点:容易被reward hacking——看起来结果好,实际没达到真正目标

杨植麟强调:"核心是掌握SFT和RL的平衡。以RL为主,用一部分SFT控制先验。"

把这个框架应用到Cursor事件上,我们会发现一个惊人的相似性。

资本市场给AI创业公司的"奖励信号"是什么?

  • 高估值

  • 快速增长的用户数

  • "自研技术"的叙事

在这个奖励信号下,Cursor的"最优策略"是什么?

  • 选择最强的基座模型(Kimi K2.5)

  • 进行大量后训练(消耗数倍算力)

  • 宣称"自研模型"(忘记署名)

这不就是典型的"reward hacking"吗?

看起来结果好(发布了性能优异的模型,维持了500亿美元估值),实际没达到真正目标(诚实披露技术来源,建立可持续的技术生态)。

杨植麟在访谈中提到:"这个洞察在科研、模型训练、组织管理上是相通的。"

确实相通。在科研中,reward hacking表现为"刷榜"——在特定benchmark上刷高分,但实际能力没有提升。

在模型训练中,reward hacking表现为"过拟合"——在训练数据上表现完美,但泛化能力差。

在组织管理中,reward hacking表现为"指标漂亮但实际没达到目标"——就像Cursor的"忘记署名"。

这或许就是AI行业当前面临的最大挑战:我们设计的奖励信号,是否真正指向了我们想要的目标?

如果资本市场的奖励信号是"自研技术",那创业公司就会倾向于"忘记署名"。

如果学术界的奖励信号是"论文数量",那研究者就会倾向于"灌水"。

如果开源社区的奖励信号是"star数量",那开发者就会倾向于"营销"而不是"技术"。

杨植麟提出的解决方案是:"以RL为主,用一部分SFT控制先验。"

应用到行业治理上,可能就是:以市场激励为主,用法律法规和行业标准控制底线。

Kimi K2.5的修改版MIT许可证,要求月活超1亿或月收入超2000万美元的公司必须署名,这就是在尝试建立这样的"先验控制"。

Cursor的"忘记署名",本质上是对这种"先验控制"的挑战。




07AI是人类文明的放大器:从"套壳"争议看行业未来


让我们回到最根本的问题:AI创业公司,到底应该如何定位自己与基座模型的关系?

杨植麟在访谈最后提到了一句意味深长的话:"AI是人类文明的放大器。"

他还说:"人的独特价值——体验和爱——不会被替代。创造可能很AI接手,但有好的机制,人可以享受生产的结果。"

如果把这句话扩展到AI行业内部,我们会发现:基座模型是"创造",应用层是"体验和爱"。

基座模型公司(如月之暗面、OpenAI、Anthropic)负责"创造"智能。

应用层公司(如Cursor、Manus、各种AI工具)负责把智能转化为"体验和爱"——也就是用户价值。

这两者都重要,但角色不同。

Cursor的问题不在于使用了Kimi K2.5,而在于模糊了角色边界——他们试图让自己看起来既是"创造者"又是"体验提供者"。

在资本市场的叙事里,"创造者"的估值高于"体验提供者"。所以Cursor选择了"忘记署名"。

但这种策略从长远看是不可持续的。因为:

  1. 技术真相终会暴露——就像这次被开发者从API日志中发现

  2. 损害行业信任——如果所有应用层公司都"忘记署名",那基座模型公司就没有动力开源

  3. 最终伤害的是整个生态——包括Cursor自己

杨植麟在访谈中提到:"任何中间状态都有可能成为被批评的对象——这是Kimi教我的。"

这句话或许可以用来解读Cursor事件。在"完全自研"和"诚实署名"之间的中间状态,是最容易被批评的。

Cursor如果完全自研,那没问题。

Cursor如果诚实署名"基于Kimi K2.5开发",那也没问题。

但Cursor选择了中间状态——"自研模型"但"忘记署名"——这就成为了被批评的对象。

这或许就是AI行业走向成熟的必经之路:从模糊到清晰,从混乱到规范。




08建立AI时代的技术伦理新范式


Cursor事件不应该仅仅被视为一家公司的公关危机,而应该被看作AI行业建立技术伦理新范式的契机。

基于杨植麟的访谈和Cursor事件,我们可以提炼出以下几个行业共识:

1. 基座模型与应用层的边界必须清晰

当应用层公司使用开源或商业授权的基座模型时,必须明确披露。这不是"可选项",而是"必选项"。

Kimi K2.5的修改版MIT许可证设定了一个好的先例:月活超1亿或月收入超2000万美元必须署名。

这个标准应该成为行业基准。

2. "自研"的定义需要重新审视

在基座模型+后训练的模式下,什么是"自研"?

  • 如果只做了后训练,能叫"自研模型"吗?

  • 如果消耗了数倍于基座模型的算力,能叫"自研模型"吗?

  • 如果用户感知到的智能99%来自基座模型,能叫"自研模型"吗?

行业需要建立更清晰的定义和标准。

3. Token Efficiency时代的竞争逻辑

杨植麟提出的"Token Efficiency"概念,应该成为评估基座模型的核心指标。

  • 不是看训练了多少数据,而是看同样数据产生了多少智能

  • 不是看算力消耗了多少,而是看同样算力产生了多少性能

Muon优化器让"学1份数据 ≈ 用Adam学2份",这才是真正的技术突破。

4. Agent泛化性是下一个战场

Cursor事件暴露了当前Agent发展的根本困境:泛化性不足。

SWE-bench分数再高,换个场景就不行,这本质上还是"应试教育"。

下一个技术突破点,应该是让Agent具备真正的泛化能力,而不是在特定benchmark上过拟合。

5. RL式治理vs SFT式治理

杨植麟提出的"RL式管理"和"SFT式管理"的平衡,应该扩展到整个AI行业治理。

  • 市场激励(RL):让公司自主探索商业模式

  • 行业规范(SFT):设定技术伦理的底线

两者缺一不可。




08无限的山,无限的责任


杨植麟在访谈中反复引用物理学家David Deutsch的《无穷的开始》中的两句话:

"问题是不可避免的"

"问题是可以被解决的"

他说:"每解决一个问题,技术就能再往上攀登几百米。也许有一天会发现,这座山没有尽头。"

The Beginning of Infinity的意思就是——它是一座无限的山。

Cursor事件,就是这座无限的山上的一个问题。

这个问题是不可避免的——当AI行业快速发展、基座模型与应用层分离、开源与商业交织时,技术伦理的边界必然会模糊。

但这个问题也是可以解决的——通过建立清晰的行业标准、技术伦理规范、法律法规框架。

关键是我们是否有勇气面对这个问题,而不是"忘记署名"。

"AI是人类文明的放大器。"

如果AI放大了人类的创造力,那它也应该放大人类的诚信。

如果AI放大了人类的效率,那它也应该放大人类的责任。

Cursor的500亿美元估值,不应该成为"忘记署名"的理由,而应该成为"带头署名"的动力。

因为在这座无限的山上,每一个攀登者都有责任为后来者留下清晰的路标,而不是模糊的足迹。

这或许就是Cursor事件给整个AI行业的最重要启示:

在追求技术无限进步的同时,我们也不能忘记技术伦理的底线。

因为只有这样,这座无限的山,才能成为人类文明的阶梯,而不是悬崖。



参考资料:

  1. 张小珺商业访谈录:《KIMI杨植麟访谈:AI是一座无限的山》
  2. David Deutsch:《无穷的开始》(The Beginning of Infinity)
  3. 本文数据截至2026年3月23日。
  4. 欢迎转发、点赞在看一一看清A/落地的真实战场。






下一站






变革之路注定艰难,但先行者从不独行。
如果你已准备好不再旁观,如果你渴望遇见那些同样躬身入局、拥抱 AI 且亲手“手搓代码”的同行者——欢迎来 AiDD ,一起成为这场范式重构的参与者与制定者,一起定义 AI 时代的技术领导力。
21-260324151U0943.png



返回列表