行分开为多行步骤Kettle6

本文将对Kettle6中常用步骤行分开为多行（英文原名：Split Field to Rows）。也就是说，将输入数据行集中的某个列按照条件拆分为多行。这种条件可以是简单的一个分隔符，也可以指定正则表达式。

2.说明

步骤的属性对话框如下图所示：

行分开为多行步骤Kettle6图一

下面通过一个表格逐项解释每一个对话框中字段的含义。

字段名称标识本步骤的名称。

要拆分的字段从输入数据行集中，挑选需要拆分的字段。

分隔符拆分字段时，使用的分隔符。简单情况下，分隔符划分的每一个字符串片段，都将成为一个新行。如果4选中，那么这里的分隔符实质是一个正则表达式。

分隔符是一个正则表达式控制3的真实含义。如果选中，3就是正则表达式。否则，不管3中的字符串是何内容，Kettle只是将其当成一个分割文本的字符串。

新字段名分割列后形成的新字段名称。输出数据行集将包含这个新的列，列的值为分割后形成的字符串片段。

输出中包含行号输出数据行集中，是否需要包含行号字段。如果需要，那么应输入这个行号字段的名称。

对接收到的每一行重置行号输出数据行集中的行号，类似于一个序列，从1开始，每行增加1。如果选中7，那么每一个输入行集中的每一行，将独享一个从1开始的序列；否则，所有输入行集中的行共享一个序列。

举例来说，假设输入数据行集中有2行，第一行拆分为3行，第二行拆分为2行。如果选中7，那么产生的行号是1 2 3 1 2；如果未选中7，那么产生的行号是1 2 3 4 5。

3.实战

假设从输入数据行集中拿到如下数据：

行分开为多行步骤Kettle6图二

需要把其中所有市、区、县的名称得到，依次按行处理。

可以看出，来源数据实际上只有一行，但是想得到的结果是多行，这就需要用到列拆分为多行步骤。步骤的具体设置可以参照文章开始的第一个图，通过上述步骤，这一行被拆分为以下行：

行分开为多行步骤Kettle6图三

注意上图，其中第一行为空。其实这应属Kettle6的一个bug。如果分割列的正则表达式正好满足来源行的头部，那么分割结果中将产生一个空行！

如果要解决这个bug，可以往下阅读附录部分。

4.附录

解决第3部分实战中第一个行数据为空的bug，可以在类：

org.pentaho.di.trans.steps.splitfieldtorows.SplitFieldToRows

的方法splitField中增加以下代码（117行后）：

if(splitStrings.length>1&& StringUtil.isEmpty(splitStrings[0])){

String[] handledStrings = new String[splitStrings.length-1];

System.arraycopy(splitStrings，1，handledStrings，0，handledStrings.length);

splitStrings = handledStrings;

}

这样可在输出到目标数据行集前将第一个空行处理掉。

以上就是行分开为多行步骤Kettle6

大家都在找