4006-998-758
3000+课程任你选择
打造高质量 RAG 知识库:文档清洗、拆分与精准匹配实战
研发学院 RAG
黄佳

入行20余年。参与过政府部门、银行、电商、能源等多领域大型项目,积累了极为丰富的人工智能和大数据项目实战经验。近年主攻方向为 NLP 预训练大模型应用、FinTech 应用、持续学习。目前正与 PlatoX.AI展开富有前景的技术合作。

曾出版《GPT图解 大模型是怎样构建的》《数据分析咖哥十话》《零基础学机器学习》《SAP 程序设计》等多本畅销书,即将出版的书籍还有《GPT实战Agent是怎样实现的》。同时,在极客时间开设专栏《零基础实战机器学习》《LangChain 实战课》,在深蓝学院开设视频课程《生成式预训练语言模型:理论与实战》。

近期出版的新书《大模型应用开发动手做 AI Agent》上市一周,在京东,当当位居IT图书榜第一名。


查看老师详情
课程内容


课程大纲


模块一:大模型应用开发概述(1 小时)

目的:构建完整的 GenAI 认知框架,明确 RAG 与 Agent 的关系,厘清技术栈结构

内容包括:

   大模型技术演进路径:从Prompt到RAG、Agent、再到MCP和A2A

   DeepSeek简析:R1 vs V3、MoE、推理能力对比(结合开源模型应用)

   应用范式分类:

          Retrieval-Augmented Generation(RAG)

          微调 vs RAG

          Agentic System 与多模态系统

   常见开发工具对比

          LangChain / LlamaIndex / Flowise / Dify

          哪些适合工程实践?如何组合使用?

   大语言模型的应用开发的发展和未来趋势

 

模块二:RAG系统工程细节解析(3小时)

目的:聚焦实际项目中的工程化痛点与优化路径,展示每一个RAG项目实操过程中的细节知识。

多类型文档的清洗与拆分技术

   多格式文档处理框架:TXT、JSON、图片、网页、PPT、PDF

   PDF(扫描版/原生版)、Word、PPT、HTML、TXT、表格(Excel、CSV)

   非结构化、半结构化混杂;OCR质量差;逻辑结构缺失

   Unstructured 工具的使用技巧(结构化元素标记)

   PDF解析中的表格定位、版式识别、标题层次提取

   Markdown结构的优势与大模型适配性

   文档父子关系构建(ParentID)、分层结构嵌入

 

清洗流程设计与常用工具推荐

22-250Z4155PM34.png

文本分块与嵌入策略

   分块策略对结果影响(检索精度 vs 生成质量)

   固定长度 vs 递归分块 vs 基于格式/结构分块

   父子块、滑动窗口、多粒度索引的构建技巧

   嵌入模型选型:

          Dense vs Sparse

          多语言嵌入、多模态嵌入(Visualized BGE)

          OpenAI、BGE、Jina、Cohere等对比

   嵌入缓存与更新策略(LangChain caching机制)

 

向量存储与混合检索

   多源知识库融合的挑战与应对技术

   主流向量数据库解析:Milvus / Weaviate / Qdrant / Chroma / PGVector

   Index类型(IVF / HNSW / PQ)选择对比

   向量检索 vs 结构化数据:如何分工

   实操:Milvus创建collection、插入、搜索、混合检索

检索优化与后处理

   检索前:Text-to-SQL、Self-Query Retriever、HyDE、查询澄清

   检索后:

          文档重排(RRF / CrossEncoder)

          文档压缩(LLMLingua / RECOMP / Prompt Caching)

          结果校正与引用追踪

 

模块三:Workshop 实战演练(1小时)

目的:使用开源模型和本地环境,完整跑通一个银行/审计类RAG系统。

内容:

   环境准备:

          GitHub项目下载、huggingface模型连接

          DeepSeek + Ollama + LangChain/LlamaIndex组合

   项目结构讲解:

   实操步骤:

          加载财务审计文档(PDF/Word)

          嵌入生成并存入Milvus

          构建评估数据集

          结果评估和验证

   实践中的挑战与解决方案讨论

 

模块四:AI Agent开发基础以及RAG的融合与展望(1小时)

目的:介绍Agent与RAG的关系、工具差异、未来发展趋势

内容:

   AI Agent认知范式:Prompt → CoT → ReAct → BoT → GRPO

   主流Agent工具链简述:

          LangGraph:状态控制、多Agent调度

          AutoGen / CrewAI:Agent协作与工具调用

   Agent vs RAG:

          哪些场景适合Agent?

          如何将RAG结果作为Agent思维的一部分?

   RAG和Agent以及大模型应用开发的最新进展

          MCP:Model Context Protocol,统一大型语言模型(LLM)与外部数据源和工具之间的通信协议

          A2A:多个Agent相互调用、对话、协作完成复杂任务


返回上一级