本文将对Kettle6中常用步骤行分开为多行(英文原名:Split Field to Rows)。也就是说,将输入数据行集中的某个列按照条件拆分为多行。这种条件可以是简单的一个分隔符,也可以指定正则表达式。
2.说明
步骤的属性对话框如下图所示:
行分开为多行步骤Kettle6图一
下面通过一个表格逐项解释每一个对话框中字段的含义。
1
字段名称 标识本步骤的名称。
2
要拆分的字段 从输入数据行集中,挑选需要拆分的字段。
3
分隔符 拆分字段时,使用的分隔符。简单情况下,分隔符划分的每一个字符串片段,都将成为一个新行。如果4选中,那么这里的分隔符实质是一个正则表达式。
4
分隔符是一个正则表达式 控制3的真实含义。如果选中,3就是正则表达式。否则,不管3中的字符串是何内容,Kettle只是将其当成一个分割文本的字符串。
5
新字段名 分割列后形成的新字段名称。输出数据行集将包含这个新的列,列的值为分割后形成的字符串片段。
6
输出中包含行号 输出数据行集中,是否需要包含行号字段。如果需要,那么应输入这个行号字段的名称。
7
对接收到的每一行重置行号 输出数据行集中的行号,类似于一个序列,从1开始,每行增加1。如果选中7,那么每一个输入行集中的每一行,将独享一个从1开始的序列;否则,所有输入行集中的行共享一个序列。
举例来说,假设输入数据行集中有2行,第一行拆分为3行,第二行拆分为2行。如果选中7,那么产生的行号是1 2 3 1 2;如果未选中7,那么产生的行号是1 2 3 4 5。
3.实战
假设从输入数据行集中拿到如下数据:
行分开为多行步骤Kettle6图二
需要把其中所有市、区、县的名称得到,依次按行处理。
可以看出,来源数据实际上只有一行,但是想得到的结果是多行,这就需要用到列拆分为多行步骤。步骤的具体设置可以参照文章开始的第一个图,通过上述步骤,这一行被拆分为以下行:
行分开为多行步骤Kettle6图三
注意上图,其中第一行为空。其实这应属Kettle6的一个bug。如果分割列的正则表达式正好满足来源行的头部,那么分割结果中将产生一个空行!
如果要解决这个bug,可以往下阅读附录部分。
4.附录
解决第3部分实战中第一个行数据为空的bug,可以在类:
org.pentaho.di.trans.steps.splitfieldtorows.SplitFieldToRows
的方法splitField中增加以下代码(117行后):
if(splitStrings.length>1&& StringUtil.isEmpty(splitStrings[0])){
String[] handledStrings = new String[splitStrings.length-1];
System.arraycopy(splitStrings,1,handledStrings,0,handledStrings.length);
splitStrings = handledStrings;
}
这样可在输出到目标数据行集前将第一个空行处理掉。
以上就是行分开为多行步骤Kettle6