
在人工智能技术迅猛发展的当下,为了帮助企业在人工智能的浪潮中抓住机遇,“AI+研发数字峰会(AiDD)”应时而生,致力于协助企业利用AI技术深化计算机对现实世界的理解,推动研发进入智能化和数字化的新时代。AiDD峰会是兼具专业性、专注性、全面性与前瞻性的顶级 AI 数字峰会。
2025 AiDD峰会深圳站共设五大条线,分别是“AI+开发”、“AI+测试”、“AI+技术前沿”、“AI+领域”、“AI+工程”线。其中“AI+测试”线精心策划了三大论坛,涵盖从智能测试到自主测试、AI测试工具开发与应用以及大模型和AI应用评测,汇聚了众多AI领域的顶尖专家与前沿成果,包括华为、蚂蚁集团、百度、快手、小米、中兴、OPPO、平安等企业和北京邮电大学的优秀实践案例,为参会者带来了一场思想碰撞与技术盛宴。
一、从智能测试到自主测试论坛:AI Agent引领测试新范式
本论坛聚焦测试向智能自主化演进中的关键问题与实践,四位嘉宾将分享不同领域的创新解决方案。出品人高广达,华为数据存储测试首席专家,2001年入职华为,长期从事测试技术、工程工具方面的工作,在协议测试、自动化测试、测试设计等领域有深厚积累。
1.《多端多模态GUI智能体构建及在蚂蚁智能测试中的创新应用》
蚂蚁集团大模型算法专家农松沁将分享面对传统RPA质检流程难以处理海量动态应用的挑战,蚂蚁集团通过数据采集和RL训练,构建了专用多模态GUI智能体Visco。Visco能够像人一样进行理解和自主操作,7x24小时不间断进行小程序质检和已上线应用的巡检任务,显著提高了人效比。听众将获得多模态GUI Agent从数据采集、训练、部署到落地应用的全流程实践分享。2.《前端测试新范式:从用例生成与自愈到端到端智能化》
百度资深工程师王哲将探讨在AI重塑软件开发的新时代,前端端到端测试作为“一块难啃的骨头”面临巨大挑战与机遇。百度提出的新范式实现了“注释即代码,代码自愈合”机制,彻底解决前端自动化测试用例的维护难题,实现几乎零门槛的用例创建。更重要的是,该方案从回归测试扩展到新功能测试场景,实现从需求文档到可执行用例的全流程AI赋能。3.《从感知到决策:打造电商B端AI测试的自动化闭环》
快手电商商家团队前端负责人李东东将分享面对电商B端高频迭代的复杂挑战,快手构建了AI巡检平台,与研发流程打通,在发布与日常巡检中利用AI能力进行智能巡检、根因分析及精准告警。该分享将重点介绍从“智能测试”到“自主测试”的实践路径,探讨如何让系统具备自我决策与演进能力,以实现无人值守的质量保障。4.《基于AI Agent与代码知识图谱的单元测试自主生成与自治优化实践》
中兴通讯中研院AI教练、测试教练顾琳燕将介绍该框架通过构建详尽的代码知识图谱,赋予系统自主识别缺乏UT覆盖业务函数的能力。采用Langgraph框架进行多智能体编排,实现了UT从发现、智能生成、执行、自主修复、覆盖率持续优化到有效性验证的端到端自治管理,创新性地引入变异测试,深度校验UT的真正有效性。二、AI测试工具开发与应用论坛:智能化从点工具向平台化演进
本论坛聚焦AI赋能测试工具链的创新实践,三位嘉宾将分享在复杂系统中提升测试覆盖率与效率的前沿工具与工程落地案例。出品人曾梦良,OPPO测试工程团队负责人,2011年加入OPPO,主导AI辅助测试技术研发与测试工程体系构建,成功孵化用例精准推荐、系统测试代码生成、缺陷智能分析等AI测试应用。
1.《小米Android GUI AI Agent自动化测试实践》
小米手机测试部自动化中台负责人张海峰将分享小米设计的GUI AI Agent融合了传统随机测试的高效执行能力、大语言模型对GUI语义理解能力,以及强化学习的序列决策优化能力,实现了一种高效、自适应的App探索性测试新范式。该智能体具备智能探索、异常感知、自主进化三大核心能力,通过广度探索和深度探索相结合,动态权衡“执行速度”与“探索深度”,显著提升了测试效率、覆盖率和缺陷发现深度。OPPO高级测试开发工程师华凯建将探讨针对AIGC测试脚本生成受限于历史数据质量的问题,OPPO提出创新解决方案:依托大模型对测试aw及文本用例实施质量治理,同步构建框架代码结构化知识图谱,建立脚本-aw调用链。通过调用链实现历史脚本用例的一致性检测,形成高质量数据闭环,最终基于优质数据输入与调用链推理机制,生成符合工程规范的高质量脚本。3.《Al+DevOps:构建平安可持续API自动化测试智能生态体系》平安高级产品经理吴朝雄将分享。平安依托金融背景下API治理+DevOps工具链的底座,构建可演进、可观测、可提效的API测试质量智能生态。该体系变“被动管理”为“主动发现”,构建可演进的API资产智能地图;变“拍脑袋”为“智能推演”,构建金融级真实、合规、可复用的测试数据引擎;变“事后检查”为“测试左移”,构建代码变更的测试智能预判系统。三、大模型和AI应用评测论坛:构建可靠AI能力评估体系
本论坛聚焦大模型能力、AI应用能力的测评,三位嘉宾将分享评测指标、评测数据集构建和评测方法的理念与实践。出品人黄胜鲁,中兴通讯敏捷高级教练,智家中心研发改进总工,深耕管理域、工程域十余年,支撑公司百亿级产品研发效能改进。
1.《基于蜕变测试的大模型内容安全评估研究与实践》
北京邮电大学副教授、硕/博士生导师邢颖将分享该研究构建了一个多语言基准,基于蜕变关系生成变体数据集,对多个大模型进行评测,评估其在不同安全类别下的表现。该基准涵盖中文与英文两种语言,每种语言均覆盖四个安全领域九个安全类别,支持多维度的安全评测。通过引入蜕变测试作为系统性评估方法,有效发现细微但关键的安全缺陷。2.《面向行业智能体评测的个性化、高拟真的评估新范式》
蚂蚁集团测试开发专家张俊俊将探讨随着大语言模型驱动的智能体在各行各业迅速落地,传统单元测试和离线数据集已无法有效捕捉用户行为的多样性、任务目标的动态性以及多模态交互的复杂性。蚂蚁集团提出以Evaluation Agent为核心的自动化评测体系,将其作为“数字分身”,在可控的沙盒环境中模拟真实用户与多种模态交互下的个性化行为,产生可量化的交互轨迹,并通过judge model进行自动化评分。中兴通讯有线研究院AI技术教练蔡李生将分享该体系借鉴TDD思想,创新性构建了场景驱动的三层自动化评测体系,通过高频场景触发,赋能“知识-模型-应用”的闭环验证,为企业数智化转型保驾护航。该体系已融入公司级工具链,并完成多领域试点验证,具备显著的可复制性与推广价值,有效解决了大模型应用在准确性、稳定性及价值交付上的不确定性痛点。
腾讯微信WXG大模型体验评测系统负责人欧阳灿将系统阐述大模型评测体系建设的“5W1H”方法论,结合能源、医疗等领域中试基地及企业级平台案例,剖析评测如何驱动模型优化与产业落地,破解有效性、难度、可靠性三大技术挑战。
演讲聚焦生态共建与工具链创新,首度披露WXG评测系统技术细节,助力中国AI生态以评测体系为支点,实现技术标准化与全球化竞争突围。
测试技术的智能化革命正在加速推进。从自动化到智能化,再到自主化,测试领域正在经历一场深刻范式转移。三大论坛汇聚了国内顶尖企业的实战经验,展示了AI技术在测试领域的最新应用成果。无论是测试工程师、开发人员还是技术负责人,都能从这些分享中获得前沿的AI测试技术视野和系统性解决方案,把握测试领域的发展趋势,为自身技术转型和职业发展做好准备。测试不再仅仅是软件的“质检环节”,而是正在演进为智能驱动的全流程质量保障体系。加入我们,共同探索测试技术的未来!