一.Csv reader
1.从文件或者文件夹读取,可设置扩展名,文件名模糊匹配
2.查看表格数据的技巧:
1)表格排序,柱状图,全精度数据等功能
2)借助 KNIME 图形化控件,绘制各类图形
3.审视数据,类型,范围,属性,改变列名,变量类型等
4.高级设置,加入路径,行数限制,行筛选,跳行,行范围
5. CSv 文件名,以及各种参数设置,可以来源于工作流变量
6.字符集设置,解决读取文件中的乱码问题
7.审视数据的几种额外方法:
1)Data Explorer
2)Extract table dimension
3)Extract table spec
4)Statistics
二.关于正则表达式
1.重要性,理念层面:
1)人机交互符号系统交流媒介
2)语义学家发明,功能完备,无歧义
3)非编程人员亦需掌握,直接实现所想
2.要点:
1)。句号匹配任意单个字符除了换行符
2)[]匹配中括号内的任意字符,每个字符是或关系
3)[^]否定的字符种类,匹配除了方括号里的任意字符
4)匹配0次或无限次,重复在*号之前的字符
5)匹配1次或无限次,复在+号之前的字符
6)匹配0次或1次,重复在?号之前的字符非贪婪
7)D ( n , m )|匹配 num 个大括号之前的字符( n <= num <= m )
8)( xyz )|字符集又称做组,匹配 xyz 相等字符串,之间是且关系
9)或运算符,匹配符号前或后的字符
10)^/$从字符串开始/末端位置开始匹配
三.行筛选(Row Filter)
1.根据内容
1)字符串
a)从下拉菜单直接选择
b)使用通配符匹配
c)使用正则表达式匹配
2)数值型
根据范围,上下限,闭区间
3)根据缺失值
2. 根据行号
1)给定行号范围
2)给定起始行,直到表结尾
3.根据行索引
使用正则表达式来匹配索引
4.以上所有方法都可以选择保留或者排除
四.自动正则表达式
1.创建自由表格( TableCreator )
1)可以指定列的名字及类型
2)可以自由编辑表格内容
2.字符串拼接( Column Combiner)
1)拼接符号设置
2)为拼接的新列命名并删除原有列
3)自由选择参与合并的列
3.将表格行转变为变量( Table Row to Variable)
1)通过表格建立流变量
2)流变量的使用
3)节点中流变量的来源,以及命名输出流变量
4.在节点中使用流变量
1)将构成的正则表达式在行筛选节点中应用
2)注意将原有公式清空,选择流变量,显示变量名字
3)灵活改变正则表达式设置,观察筛选结果变化
五.分组(Group By)
1.一维线性数据的聚合整理
2.分组的依据及方法
1)分组的依据可以选择一个或多个
2)字符串主要方法
a)集合或列表
b)第一个最后一个
c)唯一值及数量
d)计数
3)数值型主要方法
a)平均值
b)最大值最小值
c)中位数
d)百分位数(可设置)
e)积
f)和,平方和,对数和
g)常见值
h)计数
i)第一个最后一个
j)唯一值及数量
六.透视(Pivoting)
1.升维,由一维线性数据转二维表格
2.透视的分组选择(行,可多选)
3.透视的支点选择(列,可多选)
4.透视的量(交点,可多选)
5.透视的方法(同分组,可多选)
6.透视方法的统一更新,右键使用技巧
7.一些额外设置
1)列名构成选择
a)维持原有列名
b)列名+方法名
c)方法名+列名
2)维持原有行顺序
3)按字母顺序排列
七.逆透视(Unpivoting)
1.降维,由二维表格转为一维线性数据
2.便于统一处理和操作
八.时间相关
1.创建时间( Create Date & Time Range )
1)创建方式
a)起始及终了时间,份数
b)起始及时间戳数量,间隔
c)起始及终了均可选择执行时间
2)创建技巧
a)时间间隔的符号表达
b)执行时间的利用
c)日历控件使用,快速选择
2.时间字符串的解析
1)String to Date & Time ( legacy )
2)Date Extractor
3.时间格式转换
1)时间转字符串
2)字符串转时间
3)旧时间转新时间( Legacy Date& Time to Date & Time )
4.时间的处理
1)时间偏移
2)计算时间差
3)基于时间的筛选
4)时间的修改
5.时间信息提取(Extract Date & Time Fields)
1)Date Fields日期字段
a)Year 年
b)Year ( week - based )
c)Quarter 季度
d)Month ( number )
e)Month ( name )
f)Week 周
g)Day of year
h)Day of month
i)Day of week ( number )
j)Day of week ( name )
2)Time Fields时间字段
a)Hour
b)Minute
c)Second
d)Subsecond
6.附:部分时间符号
1)Y : year Q : quarter M : month of year W : week of year
2)DDD : day of year D : day of month d : day of week
3)dd : day of week ( Su Mo .. Fr Sa )
4)a : am/pm marker
5)H : hour in day (0-23) k : hour in day (1-24)
6)h : hour in am / pm (1-12)
7)m : minute in hour s : second in minute