▼
节目介绍
K+Talk是由 “AI+研发数字(AiDD)峰会” 和 “K+全球软件研发行业创新峰会”独家冠名播出的一档在线直播节目,不定期邀请研发行业技术大咖共话热点技术话题。自2021年开播以来,已连续策划播放86期主题内容。每期邀请2-3位技术大咖,就热点技术话题进行交流(自由talk,观众答疑,主持人串场解说),为技术人指点迷津,是行业信息交流和最佳实践案例共享的有效交互平台。
本期K+Talk大咖对话,我们聚焦于《推理模型革命:慢思考x产业AI新范式的机会和挑战》这一主题,邀请了三位在人工智能领域具有深厚造诣的嘉宾,共同探讨推理模型的发展、挑战及其在产业AI中的应用前景。通过深入的对话与交流,我们将揭示推理模型如何引领AI技术进入新的阶段,以及如何在实践中推动产业AI的转型升级。
(扫描海报上方二维码观看直播回放)
嘉宾介绍
Talk焦点:
1.破题:什么是“慢思考”与推理模型革命?
2.推理模型的核心技术突破与挑战
3.产业AI新范式:从“数据驱动”转向“知识+数据双驱动”
4.推理模型的局限与破局之道
5.人机协同与未来展望
破题:什么是“慢思考”与推理模型革命?
王昊奋:
推理,作为AI领域的一个重要分支,涵盖了果因推理、对比推理及联想推理等多种类型。在当前大模型盛行的背景下,我们习惯了每个大模型都配备的“深度思考”功能。今天,我们将共同探讨“慢思考”与推理模型革命的内涵与外延。
刘焕勇:
今天我们讨论的主题是“慢思考”,一个近年来备受关注的概念。大家可能会好奇,什么是“慢思考”?它和“快思考”又有什么区别?当我们面对一个新概念时,首先要从字面意义入手。“慢思考”顾名思义,是相对于“快思考”而言的。
1.快思考 vs. 慢思考
所谓“快思考”,是指那种不假思索、迅速得出结论的过程。例如,早期我们在使用大语言模型(LLM)时,模型往往直接生成答案,速度极快,但缺乏深度和广度,甚至容易出现“幻觉”——也就是胡说八道的情况。就像一些搞笑节目里调侃的那样:“我能在10秒内看完一本书。”这种快速输出虽然高效,却往往流于表面,缺乏实质内容。
而“慢思考”则完全不同。它的核心在于通过更长时间的推理过程,深入分析问题,从而提供更有深度和广度的回答。这种模式的兴起,得益于推理模型的引入,使得“快慢模型”的分界线逐渐清晰。
2.慢思考的特点与优势
慢思考的第一个显著特点是时间消耗的增加。以OpenAI的某些推理模型为例,自去年9月推出以来,这类模型在处理问题时会先进行一段时间的思考,这个过程可能持续几秒甚至几分钟。我曾测试过一个案例,让模型回答某个复杂问题,它竟然耗费了将近600秒(10分钟)。虽然耗时较长,但结果却更加精准和全面。
慢思考的第二个特点是对深度和广度的提升。在解题过程中,模型会通过一系列复杂的操作,如问题扩展(query expansion)、多步推理(multi-step reasoning)等,逐步推导出更优质的答案。例如,在回答主观题或客观题时,简单的“一两句话”可能缺乏说服力,但经过慢思考后,模型能够生成逻辑严密、信息丰富的回答。
3.慢思考的代价与挑战
然而,慢思考并非完美无缺。它的高时间成本带来了多方面的挑战:
资源消耗 :慢思考通常伴随着token数量的激增和算力的巨大消耗。
用户耐心 :长时间等待可能导致用户体验下降。
逻辑陷阱 :过度思考可能引发逻辑错误或陷入不必要的复杂性。
黑盒化加剧 :慢思考的过程更加难以解释,增加了模型的“黑箱”属性。
尽管如此,慢思考也带来了许多积极的结果,比如提升了模型性能、增强了回答的可信度。因此,如何权衡其利弊,成为了当前研究的重要课题。
4.慢思考与推理的关系
谈到慢思考,不可避免地要提及“推理”这一概念。事实上,“推理”本身在不同场景下有着截然不同的含义。例如:
在大模型中,“推理”常指预测下一个token的过程(next token prediction)。
在知识图谱领域,“推理”涉及逻辑推导、概率推理或表示型推理。
在因果推理中,“推理”则关注事件之间的因果关系。
尽管定义各异,但目前业界对推理的普遍理解可以归纳为两类:
大模型预测 :即基于已有数据生成新内容。
分步推理(step-by-step reasoning) :通过逐步推导解决问题。
慢思考的实现离不开推理的支持,而推理的质量又直接影响慢思考的效果。两者之间形成了紧密的互动关系。例如,为了实现高质量的慢思考,我们需要设计更精细的推理工具和方法,并建立科学的评估体系。
5.慢思考的实际应用与影响
自从推理模型问世以来,尤其是今年春节期间,慢思考的应用范围进一步扩大。越来越多的企业开始部署推理模型,用于解决复杂问题。这不仅改变了客户的忍耐度,也提升了他们对高质量服务的认可。例如,客户现在愿意花费更多时间等待模型完成推理,因为他们相信这样的结果更具价值。
然而,这也带来了一些新的问题。例如,是否所有任务都需要漫长的推理过程?能否找到一种平衡点,既保证效率又不失质量?这些问题正是当前讨论的热点。
综上所述,慢思考通过引入推理机制,实现了对问题的深度剖析和广度拓展。然而,它也伴随着资源消耗、用户体验等方面的挑战。未来,我们需要在技术优化和实际应用之间找到最佳平衡点,从而推动慢思考在更多领域的落地与发展。
王昊奋:
慢思考和推理模型其实是一对密不可分的“CP”(搭档)。二者之间的关系可以形容为相互成就——慢思考成就了推理模型,而推理模型也反过来推动了慢思考的发展。以前我们都对于所有东西是既要又要,就是既要准确,又要秒出。这种对速度和精度的双重追求,反映了早期用户对人工智能的期待。然而,现在的情况有所不同。如果没让我看到你的思考过程,就是机器的内心戏,可能就觉得好像这个东西不够智能。用户开始不仅关注结果本身,还开始重视模型的推理路径和逻辑链条。这种转变正是慢思考和推理模型逐渐走入大众视野的重要原因。
徐彬(Jerry):
王老师提到一个非常重要的点,就是关于推理的讨论。我们通常在模型训练完成之后,会将后续的应用环节称为推理(inference)阶段。但实际上,正如焕勇老师之前提到的,推理这个概念其实有点像“盲人摸象”。直到我仔细研读了《知识图谱》第六章的内容后,才对推理的分类有了更清晰的认识,有种拨云见日的感觉。
书中将推理分为两大类:一种是自上而下的演绎推理 ,另一种是自下而上的归纳推理 。刚才王老师也提到了这一点,这让我又重新翻阅了这本书,为今天的分享做了更充分的准备。具体来说,在自下而上的归纳推理中,还可以进一步细分为两类:一类是溯因推理(abductive reasoning),另一类是类比推理 (analogical reasoning)。
溯因推理 是指,当我们已经掌握了一些事实和已有的知识时,可以从当前的问题出发,推导出一个最有可能的解释。
类比推理 则是基于观察到某个事物的特征,发现另一个事物具有相似的特性,从而对其进行类似的归纳推断。
在我看来,这种推理的分类尤其适用于理解大模型的推理能力。比如,最近 R1 模型所展现出来的“慢思考”推理能力,在其最新的论文(2025年发表)中有所体现。论文中有一张图表显示,当训练步数达到 8,000 步时,模型的测试时缩放法则(testing time scaling)发生了显著变化,输出的token 数量达到数万个。这种“慢”的特点,实际上是因为模型在生成答案之前,会先在 <think> 标签中详细地构建推理过程内容,然后将最终答案放在 </think>标签之后。
这一点让我联想到我的导师曾推荐过的一本书——奚恺元教授的《别做正常的傻瓜》。奚恺元教授主要研究决策经济学,他的工作被引用到诺贝尔奖得主丹尼尔·卡尼曼撰写的《思考,快与慢》一书中。虽然他们的研究领域是决策与行为经济学,与我们的算法研究不尽相同,但其中有一些相通之处。他们提出,人类的决策过程可以分为两种模式:快思考 和慢思考 。
快思考 是一种直觉性的、快速反应的决策方式,通常基于进化过程中形成的本能。例如,当野兽突然出现时,我们的祖先不需要深思熟虑,只需要拔腿就跑。这种机制在过去几十万年的进化中保护了人类的生存。
慢思考 则是一种更为理性、周全的决策方式,适用于需要深入分析和权衡的情境。随着现代社会的发展,我们不再需要频繁应对野外猛兽的威胁,而是需要更多地进行复杂问题的解决和长远规划。这种慢思考能够帮助我们实现效用最大化的决策。
从这个角度来看,我觉得大模型的推理本质仍然是基于概率的语言生成——即预测下一个token的概率分布。但如果我们结合《知识图谱》第六章中的推理分类,我认为大模型的表现更像是自下而上的类比推理。这是因为模型在训练过程中,使用了大量的高质量文本数据,这些数据中本身就包含了许多已经经过类比推理或溯因推理的结果。
因此,尽管大模型本质上还是在“猜下一个词”,但由于它在训练中学习了大量高质量的知识,其生成的结果往往能呈现出类似于溯因推理或类比推理的效果,并且还带有一定的“思考过程”。从结果上看,这种“慢思考”的表现显得更加周全,甚至具备一定的自我纠错能力。
王昊奋:
Jerry的补充非常到位,慢思考与推理模型之间确实存在着千丝万缕的联系。可以说,慢思考成就了推理模型,而推理模型也反过来丰富了慢思考的内涵。
正如丹尼尔·卡尼曼在《思考,快与慢》这本书里提到的,人类思维分为系统一和系统二。系统一是快速、直觉性的反应,类似于条件反射,这种能力是刻在我们基因当中的。这种快速反应机制可能是大自然自然选择的结果。久而久之,我们形成了一些“捷径”或者说“shortcut”,使得我们在处理日常事务时不用消耗太多能量。毕竟,如果每件事都需要慢思考,大脑会非常疲惫。但在面对一些不熟悉的任务,或者需要高质量处理的内容时,慢思考就变得非常重要了。
第二点,Jerry刚才讲得非常清楚。在这个过程中,提到了一个概念——缩放法则(scaling law)。焕勇老师也提到了这一点。在ChatGPT之前,或者说O1和R1出现之前,我们的scaling law更多是指预训练阶段的scaling law。那时候,模型的智能水平与算力和数据量密切相关。我们见到的数据越多,计算时间越长,最终得到的智能水平就越高,甚至会出现所谓的“涌现”现象。但“涌现”到底是什么,到现在仍有争议。
现在,无论是推理时刻的scaling law,还是test time的scaling law,都表明在推理过程中消耗更多的token会让模型表现得更加聪明。比如,当消耗了10万个token时,模型突然能够回答很多问题。这其实是基于预训练阶段的scaling law进一步提升的结果。
第三点,大语言模型本质上是在预测下一个词。这是因为文本接龙这种任务本身具有天然的标注性,让我们可以利用大量已有的语料进行训练。在这个过程中,机器更擅长归纳和联想,这是一种自底向上的过程,本质上是一种极大自然估计或概率估计。但从外部行为来看,模型似乎具备了一定的思考和规划能力,甚至能像焕勇老师提到的那样,通过思维链一步步地进行思考。
但实际上,这可能只是“假装推理”(pretend to reason),因为它的效果足够好,以至于人们不再关心它是否真的在推理。就像我们对推理的理解和分解一样,机器只是按照自己的方式完成了任务。但正因为效果不错,所以没有人去纠结它是不是“假装”。
焕勇还提到一个有趣的现象:人类现在变得更有耐心了。这背后有几个原因:第一,人们对新技术充满好奇心;第二,推理模型的效果更好,让人对其产生了更高的容忍度;第三,相比于传统方法,虽然推理时间从一秒延长到一分钟,但这对应的任务可能原本需要一天甚至更长时间。因此,参照系的变化并未改变推理模型带来的降本增效作用。
推理模型的核心技术突破与挑战
王昊奋:
接下来,我们进入第二个讨论点。现阶段是否需要推理?推理是否会比不推理更好?能好多少?是否存在过度思考(overthinking)或欠思考(underthinking)的问题?当推理结果消耗更多token、算力、时间和金钱时,如果效果不佳,该如何应对?哪些场景真正需要推理?是为了更好的可解释性,还是为了解决特定问题?现有的推理机制有哪些局限,又该如何突破?这些挑战如何影响推理模型在产业落地中的应用?
这些问题都非常关键。无论是Transformer架构的堆叠,还是基于思维链(Chain of Thought, COT)的大规模强化学习,现有机制仍存在一些局限性。这些局限性可能会成为推理模型在实际应用中的潜在障碍。那么,我们该如何破局?又有哪些需要注意的地方?接下来,请两位嘉宾从技术侧为我们深入解读。
刘焕勇:
在大模型时代,任何结论都是相对的,所有结果都依赖于特定领域、测试方式和数据集。我们无法绝对断言某种技术或方法一定优于另一种。例如,在某些场景下使用推理模型可能会带来更好的效果,但在其他场景中却未必如此。这种不确定性正是大模型领域的魅力所在,同时也提醒我们避免过于绝对化的判断——毕竟,历史告诉我们,太绝对的结论往往会被现实“打脸”。
以最近的一些热点事件为例(比如Llama4相关事件),我们可以得出第一个共识:所有技术和结论都具有场景依赖性,必须结合具体需求和环境来评估其适用性 。
推理模型适合做什么?不适合做什么?
推理模型并非万能工具,它的设计初衷决定了它更适合解决开放性和探索性问题,而不是确定性任务。
从技术角度看,推理模型通常基于 GRPO(Group Relative Policy Optimization,群体相对策略优化)等机制训练而成。这些模型通过多轮迭代和路径求解生成答案,但由于路径发散性强,它们容易产生超出预期的结果。
以简单的数学问题“1+1=?”为例。如果直接告诉孩子“1+1=2”,这是一种高效的教学方式;但如果引入复杂的推理过程,则可能引发不必要的联想,例如“你问的是不是计算机中的二进制加法?”或者“是否存在其他维度的解释?”——最终导致答案变得模糊甚至偏离主题。
因此,针对同一问题(如“1+1”),是否使用推理模型完全取决于用户的需求和应用场景。关键在于使用者如何平衡效率与复杂度之间的关系 。
推理模型的效果是否一定更好?
在一些需要高度精确的确定性任务中,推理模型的表现并不总是令人满意。例如:RAG(检索增强生成)场景的核心目标是提供准确的信息检索与生成能力。然而,当我们将基础模型替换为推理模型后,往往会发现其幻觉率较高,这是因为推理模型倾向于“超纲答题”,即便已经设置了严格的Prompt 约束条件,它仍然可能尝试猜测用户的意图并给出不符合要求的答案。
在召回阶段加入推理模型进行Ranking(排序)任务时,其效果因场景而异。对于复杂问题,推理模型确实能够带来正收益;但对于简单问题,反而可能导致性能下降。
相比之下,推理模型在面向消费者(C端)的应用中表现更为出色。例如,AI 搜索引擎类产品(如 Perplexity.AI)充分利用了推理模型的特点,通过推测用户潜在需求并提供多样化答案,显著提升了用户体验。尤其是在用户问题多样化且难以预测的情况下,推理模型能够展现出强大的灵活性和创造力。
总结来说,推理模型的效果好坏取决于任务类型和应用场景 。即使是相同的 RAG 任务,在不同场景下也可能呈现出截然不同的适用性。
在推理模型的推进与落地中,资源消耗与成本控制是个不可回避的问题。
推理模型的运行成本非常高,尤其是在涉及多步推理或复杂计算时。每次调用都会消耗大量 Token,这对企业而言是一个不可忽视的负担。
Agent 集成问题 :将推理模型与 Agent 结合时,常出现频繁报错的情况。此外,Agent 对 Token 的消耗进一步加剧了成本压力。
为了降低推理成本,目前业界正在探索多种优化策略,比如:
使用预算控制限制推理步骤;
微调数据以减少冗长的推理路径;
蒸馏短链 COT(Chain of Thought)数据,帮助模型更快收敛。
推理模型还有一个常见问题是“过度思考”。这不仅增加了计算开销,还可能导致输出质量下降。因此,如何在以下三种状态之间找到平衡点成为了一个重要课题:
何时需要深度思考 ?
何时只需浅层推理 ?
何时无需思考直接回答 ?
这本质上是一个路由问题,类似于早期 RAG 中的二分类决策(是否触发检索)。未来的研究可以围绕这一方向展开,例如通过强化学习或提示工程(Prompt Engineering)实现动态调整。
尽管推理模型可能存在一定程度的“假思考”现象,但其展示的“思考过程”本身却具备极高的情感价值。例如:在 B 端业务中,客户看到模型逐步推导出答案的过程,会感受到一种被认真对待的信任感,有一种可解释性。
类比 ATM 取款机的例子:即使实际操作只需几秒钟,机器仍会发出模拟数钞的声音,让用户觉得自己的交易被谨慎处理。同样地,推理模型通过展示详细的推理步骤,极大地缓解了用户的焦虑情绪,并提高了整体满意度。
当前推理模型面临的主要挑战包括:
速度问题 :推理过程仍然过慢,需进一步优化算法以提高效率。
Token 成本问题 :如何在保证效果的同时减少 Token 消耗是一个亟待解决的问题。
上下文扩展 :随着多模态推理的需求增加,如何有效融合文本、图像、音频等多种形式的上下文信息将成为研究重点。
分流能力 :推理模型应具备自我分流的能力,根据不同任务自动选择合适的推理深度。
总之,推理模型在大模型时代扮演着重要角色,其应用需建立在充分理解其特点和局限性的基础上。只有结合具体场景需求,合理权衡成本与收益,才能充分发挥其潜力。
王昊奋:
我们来看几个观众提问
第一个观众提问:“慢思考是否总是比快思考更准确?是否存在过度依赖慢思考而导致错误的情况?”
其实焕勇老师已经给出了很清晰的回答:第一,慢思考并不一定比快思考更准确;第二,过度思考可能会导致原本正确的直觉判断被复杂化,甚至得出错误结论。这就像我们常说的“想太多反而坏事”,本来是对的事情,可能因为过度分析而偏离了方向。所以,慢思考虽然看起来更理性,但并不是万能的。
第二个问题是:“为什么即使我们知道慢思考更理性,人们还是常常依赖直觉或快速判断?”
焕勇老师也提到了一个关键点,那就是现有的推理模型本身可能存在局限性。我们所谓的“理性”未必真的理性,只是在某些情况下,它看起来更符合逻辑或者更像“智者”的选择。但实际上,这种推理过程可能并不高效。
举个例子,就像走路一样——如果我们把推理比作步伐,那每个人的步幅是不同的。对于某些人来说,迈一大步可能就达到了目标,而对于其他人来说,可能需要分几步才能完成。换句话说,我们的认知能力和背景差异决定了推理的速度和方式。因此,有时候快速判断并不是懒惰或草率,而是基于个人经验和情境需求的一种高效选择。
此外,焕勇老师还提到一个很有意思的观点:如果能够构建一个更加健壮、更加高效的推理模型,那么从交互体验的角度来看,它实际上会更接近于一种“快速判断”的机制。也就是说,未来的理想状态可能是让理性与直觉结合得更好,从而既保证效率又提升准确性。
第三个观众问题涉及更深的哲学层面:“推理的本质是什么?以及如何根据任务场景决定是否进行推理?”
正如前面Jerry老师所讲,人类的推理类型多种多样,不同的情境需要不同类型和深度的推理。比如,在某些简单任务中,浅层次的推理就足够了;而在复杂场景下,则需要更严谨、更深入的分析。这就引出了一个问题:什么情况下需要深推?用什么方式推?
这些问题背后其实涉及很多因素,包括数据的完备性、推理方法的精准性以及对结果准确性的要求等等。这些都提醒我们,要实现真正自适应的推理能力,还有很多工作要做。
徐彬(Jerry):
为什么即使慢思考更理性,人们却依然经常依赖直觉或快速判断。这背后的核心原因其实是“成本”。在人类漫长的进化过程中,快速决策能力是我们得以生存的重要优势。试想一下,在远古时期,当野兽突然出现在你面前时,如果不迅速做出反应,可能就会被吃掉。这种生死攸关的场景迫使人类发展出一种快速决策机制,以便在危急时刻能够活下来。
此外,还有另一个因素:能量的限制。在原始社会中,如果一天没有采到果子、打不到猎物,身体的能量储备就会迅速耗尽。在这种情况下,根本没有多余的时间和精力去进行复杂的哲学思考。因此,快速找到一个解决方案并付诸行动,成为人类生存的优先选择。这也就是为什么我们会倾向于依赖直觉——因为它是一种低成本、高效率的决策方式。
应用层面的思考
从现代技术应用的角度来看,这个问题同样适用。比如,当我们讨论像671B参数量的大模型或者更大规模的专家模型(如685B)时,通常会发现模型规模越大,生成的效果质量往往越好。然而,并不是所有的推理任务都需要动用最大尺寸的模型来完成。焕勇老师刚才也提到了这一点:有时候,“慢思考”并不一定比“快思考”更准确。
我们小镇做题家考试经历中都有这样的体会,有些题目不会做时,大家往往会凭直觉选C;但如果你停下来仔细分析,反而可能选了一个错误的答案。这种情况并不少见,甚至让人扼腕叹息。因为慢思考有时会引入一些过于复杂、甚至超纲的答案,反而偏离了正确答案。
因此,在实际应用中,我们需要根据不同场景的需求来选择合适的模型规模。例如:
如果是一些互动问答型的非专业场景任务,比如为终端用户提供情绪价值或简单的信息支持,这类场景对准确性要求不高,只需要给出一个看似合理的回答即可。这时,完全可以使用小规模的模型(例如9B或32B),它们响应速度快、成本低,同时也能满足基本需求。
对于涉及专业知识的专业场景复杂任务,例如需要处理长上下文长度的RAG(检索增强生成)系统,或者需要读取大量知识库内容的场景,则可能需要更大规模的模型。这些模型具备更强的推理能力和上下文理解能力,可以更好地应对复杂任务。
通过这种方式,我们可以将不需要强推理能力的简单任务分流到小尺寸模型上,既提高了响应速度,又降低了成本。
成本问题:算力与能耗的挑战
说到这里,不得不提到一个关键问题——成本。根据2024年7月的一份数据,全球服务器的能耗已经占到了总发电量的2%,而且这个比例正在飞速增长。换句话说,算力的成本本质上是电力成本。以目前常见的算力服务器为例,单台机器的额定功率高达8千瓦,放在数据中心里运行,电费开支是非常高的。
因此,我们需要重新审视一个问题:并不是所有场景都需要用最大尺寸的模型来进行推理。焕勇老师刚才提到的一些方法也很值得借鉴。例如,可以通过强制Prompt控制输出长度,从而缩短模型的响应时间;还可以利用工作流工具中的意图识别节点,预先判断任务的复杂度,并将不同任务分配给适合规模的模型。
实际上,这种思路已经在实践中得到了验证。前年Lilian Wen在OpenAI发布的那篇关于“模型驱动自主代理”的文章让我印象深刻。文中提出了许多关于规划、反思等工具的设计理念,令人耳目一新。然而,经过一年的发展,真正取得突破的还是大模型本身的能力。基于此,我有一个猜想:未来那些外挂式的推理工具,可能会逐渐内化为大模型自身的一部分,成为其固有能力的一部分。当然,这只是我个人的想法,是否正确还有待验证。
知识图谱的作用:符号推理与大模型融合的可能性
有一位观众提出了一个非常专业的问题:知识图谱在推理模型中可能发挥什么样的作用?我认为,这实际上触及了一个核心议题——如何实现符号推理与大模型推理的真正融合?
目前来看,符号推理的优势在于它的精确性和可解释性,而大模型则擅长捕捉海量数据中的模式和关联。两者的结合或许能够带来全新的突破。不过,具体该如何融合,以及知识图谱在未来推理模型中的定位,可能还需要更多深入的研究和探索。
王昊奋:
首先,我们需要优化推理算法,提高模型的推理效率和准确性。其次,我们需要加强模型的可解释性研究,让用户能够更好地理解模型的推理过程。最后,我们还需要关注模型的鲁棒性和泛化能力,确保模型能够在不同场景下稳定地发挥作用。
“不管黑猫白猫,能抓住老鼠就是好猫。”这句话放在技术发展上依然适用。无论是传统的逻辑推理、自顶向下的设计方法,还是如今的大规模语言模型和推理模型,这些都只是我们在技术发展不同阶段所采用的实现手段。
事实上,推理问题本身一直存在,只是我们过去可能更倾向于用符号学的方法来解决某些特定问题,这种方法在当时显得优雅且高效。然而,它也并非万能,仍然有其局限性。同样地,今天我们看到的大语言模型(LLM)到大推理模型(Large Reasoning Model, LRM)的演进,虽然解决了许多问题,但也不是完美的解决方案,它们同样面临各种挑战。
因此,我认为看待这一问题的最佳方式,是以动态发展的视角去理解。技术的进步总是伴随着新问题的出现,而我们需要做的,是在不断探索中找到最适合当前场景的解决方案。
落地的关键:能力与投入产出比
两位老师都强调了,大规模落地的两个核心因素:能力和投入产出比 。
首先,技术的实际效果决定了它是否会被广泛采用。如果一个模型的效果足够好,大家自然愿意去使用它。其次,企业在实际应用中会严肃考虑投入产出比的问题。如果一个模型消耗了过多的token,导致能源成本过高,那么即使它的性能再好,也可能不值得投入。
以业务价值为例,如果一个模型能够为企业带来显著的开源或降本增效的价值,并且这种价值远超过其成本,那么它就具备了落地的可能性。反之,如果成本过高,而对业务的贡献有限,那么这个场景可能并不适合该模型的应用。
探索与利用的平衡:1 + 1 的哲学
刚刚焕勇老师提到的“1 + 1”问题非常有趣,这也是推荐系统中常见的“exploitation vs. exploration”(利用 vs. 探索)问题。简单来说,当面对“1 + 1”的提问时,大多数人可能会直接回答“2”,但如果深入思考,你可能会联想到陈景润的“1 + 1”猜想,或者特定语境中的梗或故事。
这就引出了一个关键点:模型是否需要过多的“探索”。通过强化学习训练的模型,往往会在探索上花费大量精力,而这可能导致以下问题:
超纲 :模型可能会偏离问题的核心,给出过于复杂或无关的答案。
冗余 :输出的内容可能啰嗦、绕圈子,缺乏简洁性。
效率低下 :长链式思维(Long Chain-of-Thought, Long COT)虽然有助于复杂推理,但如果不够紧凑,反而会影响效率。
因此,如何在“探索”和“利用”之间找到平衡,是一个值得研究的方向。正如Jerry老师所说,在大多数情况下,“不过脑”地选择最优解(例如直接回答“2”)可能是更好的策略。
对于观众提到的“知识图谱在推理模型中能发挥什么作用?”这是一个非常好的问题。
知识图谱实际上代表了神经符号结合的一种趋势。焕勇老师提到的 NLP 领域中的 Graph RAG 和 Neural Symbolic 方法,正是这一方向的具体体现。知识图谱可以在以下几个方面发挥作用:
背景知识引导 :为模型提供更丰富的背景信息,帮助其更好地完成推理任务。
事实校验 :验证模型输出的结果是否符合事实,从而提高结果的可靠性。
可以说,知识图谱不仅是推理模型的重要补充,也是未来多模态 AI 发展的重要方向之一。
大模型参数与逻辑能力的平衡
另一个问题是:大厂都在追求更大规模的模型参数量,但推理模型似乎更注重逻辑能力。这对算法架构师提出了哪些新的要求?
Jerry老师提到,早期的 V3 版本在逻辑推理能力上不如后来经过快速迭代的新版 V3。这说明,随着模型规模的增加(遵循 scaling law),其理解能力、指令遵循能力和推理能力都会显著提升。因此,参数量大的模型在逻辑推理任务中往往表现更好。
然而,这并不意味着逻辑能力可以完全依赖于大模型。从评测角度来看,逻辑推理能力仍然是一个重要的考核维度,包括多步推理、因果推理以及代码生成等任务。对于算法工程师而言,无论是在数据结构与算法、传统机器学习、深度学习网络架构设计,还是在提示工程、SFT、后训练或强化学习等领域,都需要保持life long learning终身学习的态度。只有不断学习,才能跟上技术发展的步伐。
中小企业 AI 转型的门槛与解决方案
最后一个问题非常贴近实际:推理模型需要大量的行业知识图谱支持,这对中小企业的 AI 转型是否构成高门槛?是否有低成本的解决方案?
我们的观点是,虽然构建完整的行业知识图谱确实需要较高的成本,但这并不是唯一的路径。近年来,许多领域都在尝试将 AI 技术应用于实际场景,例如金融、医疗、司法、政务等。此外,一些创业公司也在开发个人知识库工具,帮助企业更高效地管理数据。
对于中小企业而言,可以从以下几个方面入手:
轻量化知识图谱 :利用现有的开源工具或平台,构建针对特定领域的轻量化知识图谱。
模块化解决方案 :选择成熟的端到端解决方案,降低开发成本。
合作生态 :与其他企业或技术供应商合作,共享资源和经验。
产业AI新范式:从“数据驱动”转向“知识+数据双驱动”
王昊奋:
现阶段推理模型的能力在哪些场景和领域已经实现了落地?还有哪些领域需要进一步突破?对于大企业和中小企业,分别有哪些最佳实践或建议?
这个问题不仅关乎技术本身,也涉及产业链上下游的协同发展,咱们来听听Jerry老师的看法。
徐彬(Jerry):
在我看来,推理模型的兴起标志着产业AI正在从传统的“数据驱动”范式向“知识+数据双驱动”范式转变。在过去,我们主要依赖于海量数据进行模型训练和优化。然而,随着数据量的不断增加和数据质量的参差不齐,这种方法已经逐渐显露出其局限性。而推理模型的引入,则为我们提供了一种新的思路——通过引入领域知识来指导模型的推理过程,从而提高模型的准确性和鲁棒性。
有一个非常典型的场景。企业内部会有很多业务系统,这些系统的初衷是实现流程的自动化。然而,在实际运行中,我们往往发现,总有一些环节无法完全实现自动化。虽然像 RPA(机器人流程自动化)这样的工具可以解决一部分问题,但仍然存在一些“临门一脚”的环节,难以彻底突破。
如果我们仔细分析这些环节,会发现它们有一些共同的特点:这些环节通常缺乏明确的规则。举个例子,如果某个流程有非常清晰的规则,比如在不同条件下如何组合、如何触发特定的逻辑分支,那么即使这个流程再复杂,也可以通过规则引擎实现自动化。事实上,早在十年前,功能强大的规则引擎就已经能够处理非常复杂的逻辑了。
然而,为什么今天在一些系统中仍然需要人工介入呢?原因就在于某些环节的规则难以被清晰地定义。这种情况下,人的判断就显得尤为重要。但这种判断往往并不需要特别专业的技能,而是针对那些无法固化为具体规则的情境进行灵活处理。这类场景非常适合引入大模型来解决问题,甚至不需要特别大的模型,就能显著提升效率。
简单来说,这种场景的价值在于,可以把原来需要人工判断的部分进一步自动化。如果把整个自动化的进程比作 100 公里路的前 90公里,最后10公里可能就是这些“规则模糊”的环节。而大模型可以帮助我们在这最后的几公里里再走一步,甚至走得更远。
当然,还有一种场景是介于完全自动化和完全人工之间的。这部分工作本身无法做到像前面 90~95 公里那样完全自动化,但又不能完全脱离人工。它的特点是耗时较长,且需要大量人力投入。对于这种情况,我们可以利用大模型进行预判,并对预判结果进行自评分。模型可以将它认为不确定的结果筛选出来,交由人工进一步判断。这样一来,人工的工作量就会大幅减少。
实际上,我们在金融同业的一些交流中已经看到一些同行采用了类似的方法,并取得了显著的成本节约效果。这些节省下来的成本远远超过了运行大模型所需的电力成本。正如王老师提到的,从投入产出比来看,这对企业来说是非常划算的。
还有一个很典型的应用场景,比如将自然语言描述转化为数据库查询语句。这个需求非常明确,而且一旦实现,可以立竿见影地减少大量的技术工作量。但在实际应用中,生成的查询语句存在两个主要问题:
逻辑错误 :生成的查询语句在逻辑上可能是错误的,这显然是不可接受的。
效率低下 :即使语句逻辑正确,生成的查询语句可能效率非常低,无法在生产环境中使用。
有可能这并不是大模型本身的局限性,因为针对这类场景,可能需要专门设计的训练数据,或者进行特定的微调(SFT)和强化学习(RL)处理。这些场景的问题可能不仅仅是“临门一脚”的差距,可能还需要跨越好几步才能真正达到可用的效果。
刘焕勇:
第一个共识:技术的下限决定其可用性
回到核心问题,当我们评价一个技术的适用性时,首先需要达成一个共识——决定这个技术是否可用的关键,并不是它的上限,而是它的下限。这就是我们常说的“木桶原理”。坦白说,目前传统行业的很多企业,甚至包括一些对大模型一知半解的人,都在尝试部署大模型。但大家普遍的心态是求稳,而稳定的输出依赖于大模型的“最差表现”能达到什么水平。只有当你清楚它在最差情况下会如何表现时,你才敢放心使用它。敢用才能用好 ,这是我认为的前提条件。
我们需要明确的是,任何技术的落地,最终取决于它的可靠性,而不是偶然的高光表现。这一点尤其适用于当前的大模型应用环境。如果一个模型的输出不稳定,或者在某些场景下表现极差,那么即使它偶尔能做出惊艳的结果,也很难被广泛接受。
第二个共识:推理模型的核心能力
推理模型适合做创意性的头脑风暴(brainstorming),而不是确定性的工作。这是因为推理模型具备举一反三的能力,擅长发散性思考。换句话说,这种模型的特点决定了它更适合用于创造性任务,比如生成新想法、探索未知领域等。
从实际应用场景来看,我们可以分两个方向来探讨其价值:
C端的应用:AI搜索与意图理解
推理模型在C端确实展现出了显著的收益。例如,将其接入AI搜索系统后,无论是后续的追问还是推荐功能,都能呈现出高质量的表现。过去让开发者头疼的“意图理解”问题,在推理模型的帮助下得到了有效解决。这表明,推理模型在提升用户体验方面具有很大的潜力。当然,至于这些应用是否能直接带来盈利,还需要结合用户习惯和发展趋势来进一步观察。
B端的应用:知识抽取与数据蒸馏
推理模型在B端同样可以发挥重要作用。例如,当涉及到知识图谱的构建时,R1版本的模型在抽取任务上的表现比V3更好。这是一个非常具体且可落地的方向。此外,如今“数据蒸馏”和“合成”成为热门话题,但它们都有一个共同前提:需要一个强大的基础模型作为支撑。而推理模型正是这样的强模型,它可以协助完成各种数据蒸馏任务,甚至可以帮助标注数据或构建奖励模型(reward model)。对于那些专注于行业数据生产的厂商来说,推理模型能够显著减轻人工标注的负担,同时提高数据的可用率(通常可达60%-70%)。
由于推理模型擅长发散性思维,它非常适合用于创作型任务,比如撰写深度报告、进行深入研究(deep research)等。昊奋老师提到的RAG框架就是一个很好的例子。无论是传统的RAG还是基于图谱的Graph RAG,推理模型都能够在其基础上实现更高效的落地。这是因为推理模型本身强调全面性和不确定性,能够在已知材料中挖掘出隐藏的关联,从而为分析提供意想不到的洞见。
以司法场景为例,推理模型可以帮助检察官快速检索案件信息,减轻工作负担。更重要的是,它还能通过分析因果关系,揭示案件中的潜在线索。我之前做过一些因果分析的尝试,发现推理模型能够生成有模有样的因果链,其结果令人印象深刻。这种能力不仅适用于司法领域,还可以扩展到其他需要复杂分析的行业。
另一个典型案例来自故障维修行业。过去,企业通常通过BS网络推导故障概率,但这种方法的泛化能力有限。而现在,利用推理模型可以更精准地分析故障原因,不仅能找到解决方案,还能解释故障发生的根本原因。这种对不确定性的挖掘,恰好满足了用户的情感需求——他们不仅仅想知道“怎么办”,还想知道“为什么”。
关于行业知识图谱的讨论
有观众提问:“推理模型是否需要大量的行业知识图谱?”我的观点是,这个问题值得商榷。推理模型并不一定依赖知识图谱,图谱只是附加项而非必选项。事实上,随着技术的发展,知识图谱的形式正在发生变化。过去,我们强调严格的本体论(ontology)和schema设计,但现在像Graph RAG这样的方法已经不再拘泥于固定的schema。只要存在关系,就可以通过随机游走算法等形式将其组织成图谱。
在这个过程中,规则依然是关键因素。尤其是在设计奖励模型时,动态规则奖励机制能够更好地引导推理模型的行为。例如,在医疗领域,将专家规则和知识库融入推理模型后,可以显著提升其性能。同时,图谱还能够有效引导推理的方向,避免工具之间的依赖冲突问题(类似MCP架构的痛点)。
总的来说,推理模型的价值在于其灵活性和适应性。它不仅可以帮助我们解决具体的技术难题,还能在多个行业中找到切实可行的应用场景。无论是C端的用户体验优化,还是B端的数据处理与分析,推理模型都展现出了巨大的潜力。未来,随着技术的不断演进,我们有理由相信,推理模型将在更多领域发挥更大的作用。
王昊奋:
确实如此。从知识图谱的角度来看,“知识+数据双驱动”范式具有巨大的潜力。知识图谱作为一种结构化的知识表示方式,能够清晰地展示实体之间的关系和属性。通过将知识图谱与推理模型相结合,我们可以实现知识的自动推理和智能问答等功能。这不仅有助于提高模型的准确性和鲁棒性,还能为用户带来更加智能化、个性化的服务体验。
正如刚刚提到的,我们在讨论ToB和ToC业务时,确实存在一些显著的区别。特别是在使用生成式人工智能和大模型的过程中,如果我们的目标是让这些工具帮助我们进行头脑风暴和创意生成,那么我们自然希望它们能够尽可能地发散思维。然而,当我们需要对生成的内容进行编辑或修改时,问题就出现了。尤其是在ToB市场中,大多数行业都有其特定的标准操作程序(SOP)和专业知识(know-how)。
正如Jerry老师所强调的,自动化是我们追求的核心目标。无论是制造业工厂还是白领工作环境,我们都在使用各种软件和互联式系统来规范和约束行为,从而形成一个规则系统。在这个过程中,我们追求的是降低成本、提高效率,并确保结果的确定性、可重复性和可复现性。因此,当我们在讨论最近热门的“agent”概念时,会涉及到两个关键词:agentic workflow和 AI agent。前者指的是可迭代、多次执行的确定性工作流,而后者则是指目标相对清晰,但实现路径开放的情况。在这种情况下,AI可以用多种新方法完成任务。
当我们对任务有明确要求时,自动化是首选。但如果任务不够明确,我们需要评估新方法的成本效益。只要新方法的成本足够低、性价比足够高,它仍然符合降本增效的目标。例如,新员工可能缺乏经验,而AI可以作为一种粘合剂或胶水,将自动化和智能化结合起来。
即使在相对确定的系统中,如许多行业的NL to SQL应用,也会遇到问题。结构化查询语言(SQL)虽然是声明式的,但它并不为最终执行结果负责。这可能导致生成的内容虽然语法正确,但执行效率低下,甚至产生空结果或错误结果。因此,我们需要与符号系统(如数据库)结合,确保端到端的高效执行。
焕勇老师提到的微笑曲线也是一个重要概念。微笑曲线描述了两端高、中间低的价值分布。当前AI技术较易落地的应用主要集中在浅水区,如前端的聊天机器人(chatbot)、text to SQL等。而后端则包括智能运维和客服等领域。然而,在设计、生产、研发和验证等深水区,目前仍有许多不足之处。不过,这也并非绝对。现代大模型,特别是推理模型,擅长从看似无规律的数据中提取蛛丝马迹,并进行有效组织。这种能力在司法、医疗等领域尤为重要,尤其是在处理疑难杂症时。
对于简单问题,我们通常容易判断其优劣,性价比也相对较低。但对于复杂问题,由于我们接触较少,难以评判。这时,AI可能成为我们的老师。在简单问题上,我们是AI的老师;而在复杂问题上,角色可能会互换。因此,现阶段我们需要类似于数据库中的成本模型或经济学中的价值模型,来评估在特定场景下应使用何种AI手段,以及预期效果如何。这为企业决策提供了更理性的依据。
在讨论推理模型赋能千行百业时,焕勇老师提到了一些实际案例。最初,大家关注的是复现和部署满血版或本地化版本的一体机。接下来的问题是如何产生实际价值,而不是仅仅停留在简单的文案生成上。这就需要更深层次的推理和思考。
观众提出的一个问题也很有意思。“传统制造业数据积累不足,如何实现数据和知识的双驱动?”焕勇老师提到了智能设备运维的例子。在实际生产过程中,无论是排班、调整节拍,还是缺陷检测,都有不同的尝试。但这些尝试往往需要综合运用多种模型,包括视觉模型和多模态模型。如果在边缘侧或端侧部署,性价比和投入产出比仍然是关键考量因素。
在医疗过程中,如何通过知识驱动确保专家经验的有效数字化?是否会存在数据知识失真?知识失真确实不可避免。因此,在标数据和审数据的过程中,一旦进入推理模型,就会进入深水区。你会发现,除了数学和代码,其他学科领域真的需要专家参与。否则,外行可能误以为内行,而内行在真正落地时却发现困难重重。
推理模型的局限与破局之道
王昊奋:
确实如此。推理模型的应用场景非常广泛,几乎涵盖了所有需要智能决策和推理的领域。在未来,随着技术的不断进步和应用场景的不断拓展,推理模型将会为更多行业带来革命性的变化。同时,我们也需要关注推理模型在落地过程中可能遇到的问题和挑战,并积极寻求解决方案以确保其能够真正发挥出应有的价值。
刘焕勇:
大模型出来之后,甚至是一些推理类的大模型出来之后,它加剧了一个现象,叫“陌生化”——专业的人不专业化。举个例子,我有一些医生朋友,他们聊到一个情况:假设他们在诊断时看到某种病状,觉得应该下某种药。这时候去问一下DeepSeek R1,或者类似的推理工具,这些工具会给出各种各样的可能性。结果医生们会开始怀疑:“我从书本上学的知识真的够专业吗?还是我考虑得不够全面?我这么快下结论,到底对不对?” 这就造成了专业知识的“陌生化”现象。
另外,大模型说的越多,它的逻辑陷阱可能也越多。你看它回答得严丝合缝,洋洋洒洒一千字,逻辑看似完美,但人的知识毕竟是有限的。它中间某一个环节可能是在诡辩,你根本发现不了。我觉得大模型虽然有幻觉的问题,但现在更大的问题是,我们无法验证它生成的内容到底是真是假。你可能连错在哪里都找不出来。
这个现象其实会引发一个更深层次的思考,就是我们对大模型的信任感其实是失控的。心里没底,不知道它给的东西到底靠不靠谱。这种情况确实让人有点担忧。
王昊奋:
每个人都有自己的专业领域,而在技术发展的过程中,我们往往会面临一个核心问题:对技术的信任与依赖。如果过分相信技术,就会产生依赖;而如果拒绝相信,又可能抗拒技术的使用。这两种态度都容易走向极端。
举个例子,就像我们现在对手机的依赖一样——如果你把手机收起来,可能会觉得会错过什么重要的事情,但实际上,可能什么事情都没有发生。这种心态恰恰反映了我们对技术的深度依赖。
推理模型的出现看似增加了可解释性,因为它不仅给出结果,还提供了各种证据支持。然而,这也可能导致用户产生更多的盲区。一方面,你会觉得它说的有道理,开始自我怀疑;另一方面,由于模型生成的内容往往碎片化且信息量巨大,人们容易陷入信息过载的状态,缺乏耐心去深入阅读和思考。这种情况下,用户的判断力可能会受到干扰,进而更加怀疑自己。
这就引出了两个关键问题: 第一,如果推理模型出现了错误,责任应该由谁承担? 第二,未来的发展方向是人机协同,但具体该如何实现?
虽然推理模型目前还存在一些局限性和挑战,但其巨大的潜力和广泛的应用前景不容忽视。我相信在不久的将来,随着技术的不断进步和应用场景的不断拓展,推理模型将会为更多行业带来革命性的变化并为人类社会的发展做出更大的贡献。
人机协同与未来展望
王昊奋:
从另外一个角度看,“人机协同”“人在环路”这些概念已经喊了很多年,但技术的实际落地似乎一直滞后。很多时候,我们发现所谓的“技术债”其实是过去人们对未来的美好设想,但真正要实现这些目标,依然需要解决许多实际问题。
在这样的背景下,我想请每位嘉宾用两三句话总结一下:
在技术发展过程中,人类能够发挥什么样的作用?
面对未来层出不穷的技术,比如推理模型、智能体、事件模型等,我们应该如何更好地看待自己、拥抱技术,并最终赋能各行各业,做到以人为本?
希望嘉宾们的分享能给大家带来启发,帮助我们在AI发展的浪潮中找到属于自己的方向。
刘焕勇:
首先,在人机交互的过程中,我们首先需要学会适应这一全新的模式。在这个过程中,人类的角色更多是设计者和监督者,我们需要深度参与其中,并为最终的结果负责。
其次,在当前的AI时代,面对复杂多变的环境,我们要学会抓住主要矛盾,聚焦根本逻辑,心中要有筛子,有所为,有所不为。只有找到问题的核心,才能更高效地利用AI技术解决实际问题。
最后,如果你想过得更好,或者想成功做成一件事,一定要清楚自己的边界,同时善于用“好AI”、 “用好”AI。
徐彬(Jerry):
在拥抱新技术的同时,我们必须抓住主要矛盾。自2022年ChatGPT问世以来,这一技术成为了行业的分水岭,不仅新闻行业,甚至整个出版领域都发生了深刻的变化。
如今,我们在新闻报道、杂志文章以及其他出版物中,常常会看到一些带有明显“机器味”的内容。这种现象实际上对我们提出了更高的要求——我们需要更加注重真实内容的提炼与内化。面对铺天盖地的信息浪潮,无论是文章还是数字人生成的内容,我们都必须具备辨别真伪的能力。这不仅是对外界信息的筛选,更是对我们自身能力的一种提升。
因此,我的直观感受是,我们要更加珍惜2022年之前的文字内容——无论是新闻、杂志还是其他出版物。这些内容承载了更多人类智慧的真实表达,具有不可替代的价值。而2022年之后的内容,则需要我们用自己的判断力去甄别和筛选。
王昊奋:
今天的几个话题都非常好,希望能对大家有所启发。
第一点:技术的长期价值往往被低估,而短期收益却被高估。
我们需要意识到,任何技术的发展都是一场长跑,而不是短跑冲刺。当一项新技术出现时,我们既不要因为它的初期表现不足就彻底否定它,也不要因为它一时的热度而盲目跟风。这两种极端态度都会让我们失去理性判断的机会。技术的价值通常需要时间去沉淀和积累,因此我们要保持耐心,以长远的眼光看待它的发展潜力。
第二点:面对变革,永远不要做鸵鸟或抗拒者。
当前毫无疑问是一个属于人工智能的时代,AI 正在深刻地改变我们的生活和工作方式。与其抗拒或逃避,不如主动拥抱它,学会使用它,并在观念上不断升级。正如 Jerry 老师刚才提到的,我们要学会思考:“如果用 AI 来解决这个问题,会是什么样的?” 可能目前 AI 还无法完全胜任所有任务,或者只能解决部分问题,但这是一个动态发展的过程。随着时间推移,AI 的能力会越来越强,而我们也需要在这个过程中不断调整自己的认知与行动。
第三点:保持独立的判断力和品位,拒绝被外界带节奏或贩卖焦虑。
在信息爆炸的时代,我们很容易被各种噪音干扰,甚至陷入焦虑之中。这种情绪不仅会影响个人的竞争力,还会削弱企业的决策力以及对技术发展趋势的洞察力。如果我们缺乏独立判断力,就很可能在这场技术浪潮中迷失方向,甚至被远远甩在后面。所以,请务必保持冷静,理性分析,培养自己的核心判断力和审美标准,这样才能在快速变化的环境中站稳脚跟。
只有通过不断地交流、实践和反思复盘,我们才能更好地推动这些前沿技术的落地应用,让它们真正为社会创造更大的价值。希望大家在未来能够一起努力,在这场技术变革中找到属于自己的位置!这个主题绝对可以继续延展下去。如果大家有兴趣,欢迎持续关注AiDD峰会活动。
推荐活动