
——Ilya Sutskever 在 2025 年底宣告:“Scaling Law 的技术扩展期正在接近尾声”;DeepSeek、普林斯顿与 UCLA 在2026 年初接连出手——以 mHC 与 DDL 为矛,正式开启“改进残差连接之年”。
几个月前,我们写下《Scaling已死?不,它只是累了》(Scaling已死?不,它只是累了——AI的下一站,是“科学探索”而非“算力堆叠”), AI 的“刷题时代”按下暂停键。
预训练数据红利见顶、算力边际收益断崖、模型“高分低能”频现——Scaling Law 的黄金时代正在退潮,AI 正从“刷题冠军”走向“理解者”。
今天,我们看到的是一场更深刻的觉醒——
从2025 年末到 2026 年初的短短时间内,学术界与工业界接连抛出多个“架构级突破”,引爆全球 AI 社区:
DeepSeek 创始人梁文锋署名发布 mHC(manifold Hyper-Connection),对 ResNet 沿用近十年的“残差连接”提出根本性质疑;
普林斯顿与 UCLA 联合团队提出 Deep Delta Learning(DDL),让神经网络中的“捷径”(shortcut)从固定恒等映射,变为可学习的动态通路;
LeCun 公开押注 JEPA(Joint Embedding Predictive Architecture),试图构建“世界模型”底层。
斯坦福大学 Christopher Manning 评价:
“2026 年,将成为改进残差连接之年。”
智能的重心,正从堆叠转向连接,不再靠规模证明存在,转而追问:智能能否被优雅地设计?
这不是技术的微调,而是一场智能领域的文艺复兴:
从暴力堆叠回归心智架构,
从计算蛮力升维至结构之美。
如果说 mHC 与 DDL 是 2026 年的“工程突破”,那么KAN(Kolmogorov-Arnold Networks) 则是其数学先声。
2024 年底,MIT、加州理工等团队在一篇论文中指出:
传统多层感知机(MLP)在表达效率与可解释性上存在根本缺陷。
MLP 将非线性激活函数“锁死”在节点内部,导致其无法显式建模函数间的复合结构。
而 KAN 将激活函数置于边(edges)上,通过 Kolmogorov-Arnold 表示定理,实现对任意多元连续函数的精确逼近。
结果令人震惊:
KAN 一作在后续檄文中直言:
“Scaling 终将撞上铁壁——不是算力不够,而是架构错了。”
“真正的泛化,来自对函数空间的先验建模,而非数据冗余。”
这不是对大模型的否定,而是对“智能如何涌现”的重新锚定:
智能,不来自模仿,而来自结构化的理解。
KAN 的意义,不在于它多快取代 MLP,而在于它证明了:
数学可以成为 AI 的新操作系统。
ResNet 自 2015 年以来,凭借“恒等映射 shortcut”解决了深度网络的梯度消失问题。
但没人问:为什么“跳过”必须是“原样传递”?
DeepSeek 的 mHC 提出:不同输入在特征空间中分布于不同流形,shortcut 应具备几何感知能力,动态调整信息传递路径。
在 ImageNet、CIFAR-100 上,mHC 以同等参数量实现 1.8–2.3% Top-1 精度提升,训练收敛速度加快 35%。
几乎同步,普林斯顿 & UCLA 的 DDL 走得更远:
让 shortcut 本身成为一个可学习函数
,输出变为 Δ ( x ) ,而非 F ( x ) + Δ ( x ) 。 F ( x ) + x
这意味着网络可以自主决定:哪些信息该直传,哪些该重构,哪些该遗忘。
在 ViT 和 ConvNeXt 中嵌入 DDL,小样本泛化能力显著提升。更重要的是——它赋予网络“选择性记忆”的能力。
Christopher Manning 评论:
“这标志着我们对神经网络‘连接’的理解,从工程技巧走向认知建模。”
mHC 与 DDL 的共同启示是:
智能不来自更深的堆叠,而来自更聪明的连接。
Yann LeCun赌上后半生,力主“大模型必死”。
他指出:当前 LLM 本质是“自回归压缩机”,缺乏世界模型、推理能力与目标驱动。他押注的 JEPA(Joint Embedding Predictive Architecture),试图通过能量模型构建“预测性世界表征”,让 AI 学会“想象未来”,而非“复述过去”。
Demis Hassabis(DeepMind CEO)则誓将 Scaling 进行到底。
他认为:只要数据足够、算力足够、奖励足够,强化学习 + 大模型终将涌现出通用智能。
但现实正在给出答案:
纯 Scaling 路线已触天花板。
AlphaCode 2 虽在 CodeContests 上表现惊艳,但在真实企业代码库中,仍频繁生成“语义正确但工程灾难”的方案——比如在高并发场景下引入全局锁。
而 JEPA 虽未发布完整系统,但其在机器人控制、视频预测等任务中,已展现出零样本泛化能力。
AI 的下一程,必须融合结构先验与数据驱动——
用 JEPA 构建世界模型,用 mHC/DDL 优化连接,用 KAN 提供可解释性。
这不再是一场“谁对谁错”的争论,而是一次智能范式的迁移:
未来胜出者,很可能是两者的融合——用结构约束数据,用数据丰富结构。
Ilya Sutskever 在访谈中提出一个观点:
“情绪,是人类智能的底层操作系统。”
这不是诗意比喻,而是神经科学事实。
Phineas Gage 的经典案例早已证明:失去前额叶情绪调节能力的人,即便逻辑完好,也无法做出任何有效决策。
因为 情绪不是噪音,而是价值信号——它实时告诉你:“这条路危险”“这个方向靠谱”。
今天的 AI,只有“任务失败后的 -1”;
而人类在思考中途就能感知:“这个解法太丑”“这个逻辑不对”。
Ilya 将这种能力称为 “情绪价值函数”(Emotional Value Function)——它不是附加模块,而是智能的内生驱动力。
而 mHC、DDL、KAN 的共性,正是试图在模型内部植入这种“内在价值感”:
未来 AI 的核心竞争力,不再是“能生成多少代码”,而是 “能否在生成前判断好坏”。
关键转变在于:
在真实产业场景中,AI 的瓶颈已从“模型能力”转向“组织认知”:
高效团队:将 PRD 写成“可执行上下文”,明确边界、约束、历史坑点;
低效团队:只丢一句“写个登录功能”,然后抱怨 AI 生成的东西“不靠谱”。
AI 的真正卡点,是 “是否会构建上下文”“是否懂 Agent 协作逻辑”。AI 的瓶颈,已从“模型能力”转向“组织认知”。
未来的 AI 原生团队,必须具备三项新技能:
上下文工程(Context Engineering):如何将模糊需求转化为结构化指令;
Agent 协作设计:如何设计人-AI 任务流,实现“目标-执行-反馈”闭环;
错误免疫机制:如何让 AI 从历史 bug 中学习“什么不能做”。
这不是“人被替代”,而是“人被升级”——从执行者,变为架构师。
当 AI 的竞争重心从“算力规模”转向“架构智能”,全球产业格局正面临重置。
美国凭借基础研究(KAN、DDL)、开源生态(PyTorch、Hugging Face)与顶尖人才,仍主导原创范式定义权;
中国则在垂直场景深度(金融、制造、新能源)、工程迭代速度(日均千次模型部署)、数据闭环能力(用户行为+IoT+政务)上具备独特优势。
DeepSeek 的 mHC 正是一个信号:中国团队不仅能高效应用,也开始向底层架构发起挑战。
但短板同样明显:
破局关键,不在于复制“千亿模型”路径,而在于:以场景反哺架构,以工程验证理论,以开源共建生态。
当中国开发者不仅能“用好 AI”,更能“定义下一代 AI 的连接方式”,才是真正的范式话语权。
AI 的文艺复兴,不应只有西方建筑师。
东方的飞檐与榫卯,同样可以支撑智能殿堂。
真正的智能,从不需要“大力出奇迹”。
Scaling 的狂热退潮后,AI 终于开始呼吸——
不再是 GPU 数量的比拼,而是对智能本质的理解深度。
像文艺复兴时期的建筑师,不再满足于哥特式的高耸堆砌,转而追寻黄金比例、透视法则与人性尺度。
2026 年,当 KAN 用数学定理重写网络底层,
当 mHC 让残差连接学会“几何直觉”,
当 DDL 赋予 shortcut “选择权”,
这些不是技术的修补,而是一场智能范式的自觉:
从模仿表象,走向理解本质;从规模竞赛,回归设计智慧。
AI 的下一站,是科学探索,而非 算力堆叠。
是 结构之美,而非 规模之大。
是 理解世界,而非 模仿人类。
欢迎进入 2026,
一个由结构、逻辑与可解释性定义的 AI 新时代。
——
*基于 2026 年初公开论文与社区共识:
欢迎转发、点赞、在看——看清AI落地的真实战场。
下一站