[Kettle] CSV文件输入

CSV(Comma-Separated Values)文件是以字符(大多数使用逗号,)分隔值,以纯文本形式存储数据的文件

数据源

语文成绩(kettle数据集1).csv icon-default.png?t=MBR7https://download.csdn.net/download/Hudas/87356192?spm=1001.2014.3001.5501

1.建立【CSV文件输入】转换工程

使用Ctrl + N快捷键,创建【CSV文件输入】转换工程,选择【核心对象】|【输入】|【CSV文件输入】组件,将其拖曳到右边工作区中

[Kettle] CSV文件输入_第1张图片

2.设置【CSV文件输入】组件参数

双击工作区中的【CSV文件输入】组件,弹出【CSV文件输入】窗口,设置相关参数

[Kettle] CSV文件输入_第2张图片

基础参数说明

1.步骤名称:表示CSV文件输入组件名称,在单个转换工程中名称必须唯一,默认值为"CSV文件输入"的组件名称

2.文件名:表示读取源数据的CSV文件名称,单击"浏览"按钮,选择对应的csv文件

3.列分隔符:表示每个数据之间的分隔符,默认值为英文逗号,

4.封闭符:表示封闭起一个数据、保持其完整性的一对符号,默认值为英文双引号"

5.NIO缓存大小:表示定义Java读取文件缓冲区的大小,默认值为50000

6.简易转换?:表示是否启用简易转换。如果选择了简易转换,那么可以尽可能避免不必要的数据类型转换,从而显著提高性能。默认为勾选

7.包含列头行:表示源文件是否包含有列名(字段名称)的标题行。默认勾选

8.将文件添加到结果文件中:表示是否将文件名添加到结果文件中。默认不勾选

9.行号字段:表示在组件输出字段名称时包含行号,可选项。默认值为空

10.并发运行?:表示在读取多个文件时,根据文件大小来划分其工作负载;选择并发,可提高读写速度。默认不勾选

11.字段中有回车换行?:表示字段中是否有回车换行符。默认不勾选

12.格式:表示DOS、Unix和mixed 3种格式的文件。默认值为mixed混合模式

13.文件编码:表示文件使用的编码,使用下拉框选择编码。默认值为空

字段参数说明

1.名称:表示CSV文件的字段名称

2.类型:表示字段的数据类型

3.格式:表示原始字段格式的可选掩码

4.长度:表示字段长度

5.精度:表示数字类型字段的浮点数的精确位数

6.货币符号:表示货币符号,例如"¥"、"€"和"$"等货币符号

7.小数点符号:表示小数点符号,一般用英文点号.

8.分组符号:表示数值分组符号,一般用英文逗号,

9.去除空格类型:表示去除空格,适用于字符串

在"CSV文件输入"对话框中,设置有关参数,获取"语文成绩.csv"文件中的数据

[Kettle] CSV文件输入_第3张图片

弹出"Sample data"对话框,点击【确定】按钮,导入"语文成绩.csv"文件的字段到字段参数表中

[Kettle] CSV文件输入_第4张图片

[Kettle] CSV文件输入_第5张图片

对上述字段参数进行修改编辑

[Kettle] CSV文件输入_第6张图片

编辑修改完参数后,点击【确定】按钮,完成组件参数的设置

[Kettle] CSV文件输入_第7张图片

3.预览数据

我们也可以点击CSV文件输入对话框中的【预览】按钮,预览展示CSV文件输入的数据

[Kettle] CSV文件输入_第8张图片

你可能感兴趣的:(Kettle,Kettle,数据仓库,ETL)