4006-998-758
新闻动态

当残差学会思考:AI 正拆掉它的脚手架

2026-01-03
当残差学会思考:AI 正拆掉它的脚手架(图1)

——Ilya Sutskever 在 2025 年底宣告:“Scaling Law 的技术扩展期正在接近尾声”;DeepSeek、普林斯顿与 UCLA 在2026 年初接连出手——以 mHC 与 DDL 为矛,正式开启“改进残差连接之年”。




当 Scaling 的时代开始转向


几个月前,我们写下《Scaling已死?不,它只是累了》Scaling已死?不,它只是累了——AI的下一站,是“科学探索”而非“算力堆叠”, AI 的“刷题时代”按下暂停键。

预训练数据红利见顶、算力边际收益断崖、模型“高分低能”频现——Scaling Law 的黄金时代正在退潮,AI 正从“刷题冠军”走向“理解者”。

今天,我们看到的是一场更深刻的觉醒——

从2025 年末到 2026 年初的短短时间内,学术界与工业界接连抛出多个“架构级突破”,引爆全球 AI 社区

  • DeepSeek 创始人梁文锋署名发布 mHC(manifold Hyper-Connection),对 ResNet 沿用近十年的“残差连接”提出根本性质疑;

  • 普林斯顿与 UCLA 联合团队提出 Deep Delta Learning(DDL),让神经网络中的“捷径”(shortcut)从固定恒等映射,变为可学习的动态通路;

  • LeCun 公开押注 JEPA(Joint Embedding Predictive Architecture),试图构建“世界模型”底层。

斯坦福大学 Christopher Manning 评价:

“2026 年,将成为改进残差连接之年。”

智能的重心,正从堆叠转向连接,不再靠规模证明存在,转而追问:智能能否被优雅地设计?

这不是技术的微调,而是一场智能领域的文艺复兴:

从暴力堆叠回归心智架构,

从计算蛮力升维至结构之美。


01MLP 被“数学定理”击穿:KAN 为何能碾压 DeepMind


如果说 mHC 与 DDL 是 2026 年的“工程突破”,那么KAN(Kolmogorov-Arnold Networks) 则是其数学先声

2024 年底,MIT、加州理工等团队在一篇论文中指出:

传统多层感知机(MLP)在表达效率与可解释性上存在根本缺陷。

MLP 将非线性激活函数“锁死”在节点内部,导致其无法显式建模函数间的复合结构。
而 KAN 将激活函数置于边(edges)上,通过 Kolmogorov-Arnold 表示定理,实现对任意多元连续函数的精确逼近

结果令人震惊:

  • 在偏微分方程(PDE)求解中,KAN 的参数量仅为 MLP 的 1/1000,误差却降低 2 个数量级
  • 在符号回归任务中,KAN “发现”了 F=ma、E=mc2等物理定律,而 DeepMind 的 Symbolic Math 模型只能靠暴力枚举;
  • 更重要的是——KAN 具备符号可解释性,每个边函数都可被人类理解、验证、修正。

KAN 一作在后续檄文中直言:

“Scaling 终将撞上铁壁——不是算力不够,而是架构错了。”
“真正的泛化,来自对函数空间的先验建模,而非数据冗余。”

这不是对大模型的否定,而是对“智能如何涌现”的重新锚定:
智能,不来自模仿,而来自结构化的理解

KAN 的意义,不在于它多快取代 MLP,而在于它证明了:

数学可以成为 AI 的新操作系统



02残差连接的革命:mHC 与 DDL 的双重突破


如果说 KAN 重构了 MLP,那么 mHC 与 DDL 则共同解构了 ResNet 的灵魂——残差连接

mHC:流形感知的超连接

ResNet 自 2015 年以来,凭借“恒等映射 shortcut”解决了深度网络的梯度消失问题。
但没人问:为什么“跳过”必须是“原样传递”?

DeepSeek 的 mHC 提出:不同输入在特征空间中分布于不同流形,shortcut 应具备几何感知能力,动态调整信息传递路径。

ImageNet、CIFAR-100 上,mHC 以同等参数量实现 1.8–2.3% Top-1 精度提升,训练收敛速度加快 35%。

DDL:可学习的增量通路

几乎同步,普林斯顿 & UCLA 的 DDL 走得更远:

让 shortcut 本身成为一个可学习函数 Δ(x),输出变为 F(x)+Δ(x),而非 F(x)+x

这意味着网络可以自主决定:哪些信息该直传,哪些该重构,哪些该遗忘。

在 ViT 和 ConvNeXt 中嵌入 DDL,小样本泛化能力显著提升。更重要的是——它赋予网络“选择性记忆”的能力

Christopher Manning 评论:

“这标志着我们对神经网络‘连接’的理解,从工程技巧走向认知建模。”

mHC 与 DDL 的共同启示是:
智能不来自更深的堆叠,而来自更聪明的连接



03LeCun 与 Hassabis 的终极对赌:世界模型 vs Scaling


面对 Scaling 的疲态,AI 路线图分裂为两大阵营:

  • Yann LeCun赌上后半生,力主“大模型必死”。
    他指出:当前 LLM 本质是“自回归压缩机”,缺乏世界模型、推理能力与目标驱动。他押注的 JEPA(Joint Embedding Predictive Architecture),试图通过能量模型构建“预测性世界表征”,让 AI 学会“想象未来”,而非“复述过去”。

  • Demis Hassabis(DeepMind CEO)则誓将 Scaling 进行到底。
    他认为:只要数据足够、算力足够、奖励足够,强化学习 + 大模型终将涌现出通用智能。

但现实正在给出答案:
纯 Scaling 路线已触天花板
AlphaCode 2 虽在 CodeContests 上表现惊艳,但在真实企业代码库中,仍频繁生成“语义正确但工程灾难”的方案——比如在高并发场景下引入全局锁。

而 JEPA 虽未发布完整系统,但其在机器人控制、视频预测等任务中,已展现出零样本泛化能力
AI 的下一程,必须融合结构先验与数据驱动——
用 JEPA 构建世界模型,用 mHC/DDL 优化连接,用 KAN 提供可解释性。

这不再是一场“谁对谁错”的争论,而是一次智能范式的迁移

    未来胜出者,很可能是两者的融合——用结构约束数据,用数据丰富结构


    04情绪即价值函数:智能的底层操作系统


    Ilya Sutskever 在访谈中提出一个观点:

    “情绪,是人类智能的底层操作系统。”

    这不是诗意比喻,而是神经科学事实。
    Phineas Gage 的经典案例早已证明:失去前额叶情绪调节能力的人,即便逻辑完好,也无法做出任何有效决策。
    因为 情绪不是噪音,而是价值信号——它实时告诉你:“这条路危险”“这个方向靠谱”。

    今天的 AI,只有“任务失败后的 -1”;
    而人类在思考中途就能感知:“这个解法太丑”“这个逻辑不对”。

    Ilya 将这种能力称为 “情绪价值函数”(Emotional Value Function)——它不是附加模块,而是智能的内生驱动力

    而 mHC、DDL、KAN 的共性,正是试图在模型内部植入这种“内在价值感”:

    • KAN 通过函数光滑性惩罚“不优雅”的解;
    • mHC 通过流形约束感知“特征是否合理”;
    • DDL 通过 delta 学习权衡“直传 vs 重构”的代价。

    未来 AI 的核心竞争力,不再是“能生成多少代码”,而是 “能否在生成前判断好坏”



    05从 Copilot 到共创伙伴:AI 的角色进化


    2024 年,我们称 AI 为 Copilot(副驾驶)
    2025 年,我们期待 Agent(自主智能体)
    2026 年,AI 正迈向 “共创伙伴”——理解意图、参与决策、协同进化。

    关键转变在于:

    • Copilot:被动响应(你给指令,我输出)→ 工具属性
    • Agent:主动规划(具备工具调用、记忆更新、目标分解能力)→ 自主属性
    • Co-Creator(共创伙伴):共同定义问题(我理解你的业务约束、历史包袱、成功标准)→ 协作属性

    技术变革的终点,从来不是技术本身,而是人的协作方式

    在真实产业场景中,AI 的瓶颈已从“模型能力”转向“组织认知”:

    • 高效团队:将 PRD 写成“可执行上下文”,明确边界、约束、历史坑点;

    • 低效团队:只丢一句“写个登录功能”,然后抱怨 AI 生成的东西“不靠谱”。

    AI 的真正卡点,是 “是否会构建上下文”“是否懂 Agent 协作逻辑”。AI 的瓶颈,已从“模型能力”转向“组织认知”

    未来的 AI 原生团队,必须具备三项新技能:

    • 上下文工程(Context Engineering):如何将模糊需求转化为结构化指令;

    • Agent 协作设计:如何设计人-AI 任务流,实现“目标-执行-反馈”闭环;

    • 错误免疫机制:如何让 AI 从历史 bug 中学习“什么不能做”。

    这不是“人被替代”,而是“人被升级”——从执行者,变为架构师


    06新范式下的中国机会:从工程红利到架构原创


    当 AI 的竞争重心从“算力规模”转向“架构智能”,全球产业格局正面临重置。

    美国凭借基础研究(KAN、DDL)、开源生态(PyTorch、Hugging Face)与顶尖人才,仍主导原创范式定义权
    中国则在垂直场景深度(金融、制造、新能源)、工程迭代速度(日均千次模型部署)、数据闭环能力(用户行为+IoT+政务)上具备独特优势。

    DeepSeek 的 mHC 正是一个信号:中国团队不仅能高效应用,也开始底层架构发起挑战

    但短板同样明显:

    • 高校与工业界在数学与系统底层的协同仍弱;
    • “重应用、轻理论”的惯性导致原创架构生态薄弱
    • 开源文化、社区治理、长期投入机制尚未成熟。

    破局关键,不在于复制“千亿模型”路径,而在于:以场景反哺架构,以工程验证理论,以开源共建生态
    当残差学会思考:AI 正拆掉它的脚手架(图2)

    当中国开发者不仅能“用好 AI”,更能“定义下一代 AI 的连接方式”,才是真正的范式话语权。

    AI 的文艺复兴,不应只有西方建筑师。
    东方的飞檐与榫卯,同样可以支撑智能殿堂。



    欢迎进入 2026,AI 新时代


    真正的智能,从不需要“大力出奇迹”。

    Scaling 的狂热退潮后,AI 终于开始呼吸——

    不再是 GPU 数量的比拼,而是对智能本质的理解深度。
    像文艺复兴时期的建筑师,不再满足于哥特式的高耸堆砌,转而追寻黄金比例、透视法则与人性尺度。

    2026 年,当 KAN 用数学定理重写网络底层,
    当 mHC 让残差连接学会“几何直觉”,
    当 DDL 赋予 shortcut “选择权”,
    这些不是技术的修补,而是一场智能范式的自觉:
    从模仿表象,走向理解本质;从规模竞赛,回归设计智慧。

    AI 的下一站,是科学探索,而非 算力堆叠
    是 结构之美,而非 规模之大
    是 理解世界,而非 模仿人类

    欢迎进入 2026,
    一个由结构、逻辑与可解释性定义的 AI 新时代


    ——

    *基于 2026 年初公开论文与社区共识:

    • KAN(MIT/Caltech, 2024)
    • mHC(DeepSeek, 2026)
    • DDL(Princeton/UCLA, 2026)
    • Ilya Sutskever 与 Dwarkesh Patel 对话(2025)
    • LeCun 关于 JEPA 的公开论述

    欢迎转发、点赞、在看——看清AI落地的真实战场。




    下一站




    在你与AI的每一次对话背后,一场更深远的变革正悄然到来——2026年,AI将不再只是工具和智能体,而是进化为真正的“共创伙伴”:理解意图、参与决策、协同进化。真正的AI原生时代,始于你与AI的深度对话。
    欢迎来AiDD 2026,共启这场研发DNA的重构之旅。
    返回列表