课程描述
分享内容包括知识表示、建模、获取、存储、融合、推理等多方面,通过实用化真实案例的方式完整阐述知识图谱的全过程。
在技术推进过程中介绍图数据库和关系型数据库的异同,重点介绍图数据库的使用和Cypher语言的使用,完成知识推理和知识补全。
在知识表示、实体识别、关系抽取中介绍深度学习对于建立知识图谱的影响、代码实现和手动建立的过程。
介绍知识图谱和Python代码的结合,完成完整的问答系统。
课程对象
对自然语言处理感兴趣,有一定深度学习经验的程序员、算法工程师、AI工程师。
课程准备
熟悉Python的任意一个IDE,可以使用Python调用Package包
课程收益
1、 整体把握知识图谱、图数据库的技术要点,可以建立并使用知识图谱完成问答、知识推理等工作
2、 整体把握自然语言处理的发展过程、发展方向、当今热点模型和方法
3、 了解图数据库的主要技术,理解自然语言处理的思维方式和关键技术,能够完成知识表示和存储
4、 可以通过Python代码完成实体识别、关系抽取等自动工作
课程时长
2天(6小时/天)
课程大纲
1、典型的图数据库
NoSQL数据库
列存储数据库
键值数据库
文档型数据库
与关系型数据库对比
图数据库的图存储
图处理引擎
图数据与知识推理的关系
典型图数据库介绍
Neo4J
JanuasGraph
Giraph
Dgraph
TigerGraph
InfiniteGraph
2、知识图谱基础—知识表示与建模
知识表示概述
知识表示框架
知识图谱的发展历史
知识表示方法
RDF、RDFs、本体建模
RDF序列化方法
利用Protégé进行本体建模
3、知识图谱核心技术:知识源数据的获取
结构化数据的获取
非结构化数据的获取
将mysql数据导出为图谱源数据
案例:
QQ音乐信息爬取实战
使用爬虫获取歌星、歌曲和专辑等信息
4、知识图谱核心技术:知识抽取
知识抽取概述
实体抽取技术:基于命名实体、基于关键词
关系抽取技术
事件抽取技术
案例:
使用hanlp抽取法人名称、企业名称等信息
RNN、LSTM、Word2Vec、Transformer、CRF、Bert等技术
天池中医说明书实体识别
DeepDive关系抽取实战
基于模板完成事件抽取
5、知识图谱核心技术:知识融合
知识融合概述
实体统一
实体消歧
知识合并
案例:
使用jieba完成公司名的实体统一
使用tf-idf完成实体消歧
6、知识图谱核心技术:知识推理
本体知识推理简介与任务分类
本体推理方法与工具介绍
案例:
使用Jena进行知识推理
7、知识图谱核心技术:知识存储
知识存储常用数据库
ApacheJena数据库
Jena数据库的安装与部署
SPARQL语言
Cypher语言
案例:
音乐知识图谱
图数据库neo4j
neo4j的安装与部署
neo4j药品成分知识图谱
8、案例1:使用neo4j从零搭建简单的音乐知识图谱
项目背景
数据模型设计
使用爬虫获取原始数据
构建知识图谱
展示知识图谱
9、案例2:基于知识图谱的问答机器人
项目背景
项目架构
基于检索与知识图谱相结合的功能模块
基于句子相似度的功能模块
项目展示
10、案例3:基于法律领域的知识图谱
项目背景
数据模型设计
原始数据获取
构建知识图谱
展示知识图谱