课程描述
分享内容包括知识表示、建模、获取、存储、融合、推理等多方面,通过实用化真实案例的方式完整阐述知识图谱的全过程。
在技术推进过程中介绍图数据库和关系型数据库的异同,重点介绍图数据库的使用和Cypher语言的使用,完成知识推理和知识补全。
在知识表示、实体识别、关系抽取中介绍深度学习对于建立知识图谱的影响、代码实现和手动建立的过程。
介绍知识图谱和Python代码的结合,完成完整的问答系统。
课程对象
对自然语言处理感兴趣,有一定深度学习经验的程序员、算法工程师、AI工程师。
课前准备
熟悉Python的任意一个IDE,可以使用Python调用Package包
课程时长
3天(6小时/天)
课程收益
1、 整体把握知识图谱、图数据库的技术要点,可以建立并使用知识图谱完成问答、知识推理等工作
2、 整体把握自然语言处理的发展过程、发展方向、当今热点模型和方法
3、 解图数据库的主要技术,理解自然语言处理的思维方式和关键技术,能够完成知识表示和存储
4、 可以通过Python代码完成实体识别、关系抽取等自动工作
课程大纲
1、典型的图数据库
NoSQL数据库
列存储数据库
键值数据库
文档型数据库
与关系型数据库对比
图数据库的图存储
图处理引擎
图数据与知识推理的关系
典型图数据库介绍
Neo4J
JanuasGraph
Giraph
Dgraph
TigerGraph
InfiniteGraph
2、知识图谱基础—知识表示与建模
知识表示概述
知识表示框架
知识图谱的发展历史
知识表示方法
RDF、RDFs、本体建模
RDF序列化方法
利用Protégé进行本体建模
3、知识图谱核心技术:知识源数据的获取
结构化数据的获取
非结构化数据的获取
将mysql数据导出为图谱源数据
案例:
QQ音乐信息爬取实战
使用爬虫获取歌星、歌曲和专辑等信息
4、知识图谱核心技术:知识抽取
知识抽取概述
实体抽取技术:基于命名实体、基于关键词
关系抽取技术
事件抽取技术
案例:
使用hanlp抽取法人名称、企业名称等信息
RNN、LSTM、Word2Vec、Transformer、CRF、Bert等技术
天池中医说明书实体识别
DeepDive关系抽取实战
基于模板完成事件抽取
5、知识图谱核心技术:知识融合
知识融合概述
实体统一
实体消歧
知识合并
案例:
使用jieba完成公司名的实体统一
使用tf-idf完成实体消歧
6、知识图谱核心技术:知识推理
本体知识推理简介与任务分类
本体推理方法与工具介绍
案例:
使用Jena进行知识推理
7、知识图谱核心技术:知识存储
知识存储常用数据库
ApacheJena数据库
Jena数据库的安装与部署
SPARQL语言
Cypher语言
案例:
音乐知识图谱
图数据库neo4j
neo4j的安装与部署
neo4j药品成分知识图谱
8、案例1:使用neo4j从零搭建简单的音乐知识图谱
项目背景
数据模型设计
使用爬虫获取原始数据
构建知识图谱
展示知识图谱
9、案例2:基于知识图谱的问答机器人
项目背景
项目架构
基于检索与知识图谱相结合的功能模块
基于句子相似度的功能模块
项目展示
10、案例3:基于法律领域的知识图谱
项目背景
数据模型设计
原始数据获取
构建知识图谱
展示知识图谱