RAG

打造高质量 RAG 知识库：文档清洗、拆分与精准匹配实战

研发学院 RAG

黄佳

入行 20 余年。参与过政府部门、银行、电商、能源等多领域大型项目，积累了极为丰富的人工智能和大数据项目实战经验。近年主攻方向为 NLP 预训练大模型应用、FinTech 应用、持续学习。

曾出版畅销书《大模型应用开发动手做AI Agent》《GPT图解大模型是怎样构建的》《数据分析咖哥十话》《零基础学机器学习》《SAP 程序设计》等多本畅销书。同时，也是《零基础实战机器学习》《AI应用实战课》《生成式预训练语言模型理论与实战》专栏讲师，《ChatGPT 和预训练模型实战课》公开课讲师。

新作：Agent设计模式 2026年2月问世

近期出版的新书《大模型应用开发动手做 AI Agent》上市一周，在京东，当当位居IT图书榜第一名。

查看老师详情

课程内容

课程大纲

模块一：大模型应用开发概述（1 小时）

目的：构建完整的 GenAI 认知框架，明确 RAG 与 Agent 的关系，厘清技术栈结构

内容包括：

大模型技术演进路径：从Prompt到RAG、Agent、再到MCP和A2A

DeepSeek简析：R1 vs V3、MoE、推理能力对比（结合开源模型应用）

应用范式分类：

Retrieval-Augmented Generation（RAG）

微调 vs RAG

Agentic System 与多模态系统

常见开发工具对比

LangChain / LlamaIndex / Flowise / Dify

哪些适合工程实践？如何组合使用？

大语言模型的应用开发的发展和未来趋势

模块二：RAG系统工程细节解析（3小时）

目的：聚焦实际项目中的工程化痛点与优化路径，展示每一个RAG项目实操过程中的细节知识。

多类型文档的清洗与拆分技术

多格式文档处理框架：TXT、JSON、图片、网页、PPT、PDF

PDF（扫描版/原生版）、Word、PPT、HTML、TXT、表格（Excel、CSV）

非结构化、半结构化混杂；OCR质量差；逻辑结构缺失

Unstructured 工具的使用技巧（结构化元素标记）

PDF解析中的表格定位、版式识别、标题层次提取

Markdown结构的优势与大模型适配性

文档父子关系构建（ParentID）、分层结构嵌入

清洗流程设计与常用工具推荐

文本分块与嵌入策略

分块策略对结果影响（检索精度 vs 生成质量）

固定长度 vs 递归分块 vs 基于格式/结构分块

父子块、滑动窗口、多粒度索引的构建技巧

嵌入模型选型：

Dense vs Sparse

多语言嵌入、多模态嵌入（Visualized BGE）

OpenAI、BGE、Jina、Cohere等对比

嵌入缓存与更新策略（LangChain caching机制）

向量存储与混合检索

多源知识库融合的挑战与应对技术

主流向量数据库解析：Milvus / Weaviate / Qdrant / Chroma / PGVector

Index类型（IVF / HNSW / PQ）选择对比

向量检索 vs 结构化数据：如何分工

实操：Milvus创建collection、插入、搜索、混合检索

检索优化与后处理

检索前：Text-to-SQL、Self-Query Retriever、HyDE、查询澄清

检索后：

文档重排（RRF / CrossEncoder）

文档压缩（LLMLingua / RECOMP / Prompt Caching）

结果校正与引用追踪

模块三：Workshop 实战演练（1小时）

目的：使用开源模型和本地环境，完整跑通一个银行/审计类RAG系统。

内容：

环境准备：

GitHub项目下载、huggingface模型连接

DeepSeek + Ollama + LangChain/LlamaIndex组合

项目结构讲解：

实操步骤：

加载财务审计文档（PDF/Word）

嵌入生成并存入Milvus

构建评估数据集

结果评估和验证

实践中的挑战与解决方案讨论

模块四：AI Agent开发基础以及RAG的融合与展望（1小时）

目的：介绍Agent与RAG的关系、工具差异、未来发展趋势

内容：

AI Agent认知范式：Prompt → CoT → ReAct → BoT → GRPO

主流Agent工具链简述：

LangGraph：状态控制、多Agent调度

AutoGen / CrewAI：Agent协作与工具调用

Agent vs RAG：

哪些场景适合Agent？

如何将RAG结果作为Agent思维的一部分？

RAG和Agent以及大模型应用开发的最新进展

MCP：Model Context Protocol，统一大型语言模型（LLM）与外部数据源和工具之间的通信协议

A2A：多个Agent相互调用、对话、协作完成复杂任务

返回上一级

课程时长

1天

课程排期

待定

我要报名我要分享

课程推荐

返回上一级