wzy0623

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

一、Hadoop相关的步骤与作业项

二、连接Hadoop

1. 连接Hadoop集群

（1）开始前准备

（2）配置步骤

2. 连接Hive

3. 连接Impala

4. 建立MySQL数据库连接

三、导入导出Hadoop集群数据

1. 向HDFS导入数据

2. 向Hive导入数据

3. 从HDFS抽取数据到MySQL

4. 从Hive抽取数据到MySQL

四、执行HiveQL语句

五、执行MapReduce

1. 生成聚合数据集

（1）准备文件与目录

（2）建立一个用于Mapper的转换

（4）建立一个调用MapReduce步骤的作业

（5）执行作业并验证输出

2. 格式化原始web日志

（1）准备文件与目录

（2）建立一个用于Mapper的转换

（3）建立一个调用MapReduce步骤的作业

（4）执行作业并验证输出

六、提交Spark作业

1. 在Kettle主机上安装Spark客户端

2. 为Kettle配置Spark

（1）备份原始配置文件

（2）编辑spark-defaults.conf文件

（3）编辑spark-env.sh文件

（4）编辑core-site.xml文件

3. 提交Spark作业

（1）修改Kettle自带的Spark例子

（2）保存行执行作业

七、小结

本篇演示使用Kettle操作Hadoop上的数据。首先概要介绍Kettle对大数据的支持，然后用示例说明Kettle如何连接Hadoop，如何导入导出Hadoop集群上的数据，如何用Kettle执行Hive的HiveQL语句，还会用一个典型的MapReduce转换，说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。本篇最后介绍如何在Kettle中提交Spark作业。

一、Hadoop相关的步骤与作业项

在“ETL与Kettle”（https://wxy0327.blog.csdn.net/article/details/107985148）的小结中曾提到，Kettle具有完备的转换步骤与作业项，使它能够支持几乎所有常见数据源。同样Kettle对大数据也提供了强大的支持，这体现在转换步骤与作业项的“Big Data”分类中。本例使用的Kettle 8.3版本中所包含的大数据相关步骤有19个，作业项有10个。表3-1和表3-2分别对这些步骤和作业项进行了简单描述。

步骤名称	描述
Avro input	读取Avro格式文件
Avro output	写入Avro格式文件
Cassandra input	从一个Cassandra column family中读取数据
Cassandra output	向一个Cassandra column family中写入数据
CouchDB input	获取CouchDB数据库一个设计文档中给定视图所包含的所有文档
HBase input	从HBase column family中读取数据
HBase output	向HBase column family中写入数据
HBase row decoder	对HBase的键/值对进行编码
Hadoop file input	读取存储在Hadoop集群中的文本型文件
Hadoop file output	向存储在Hadoop集群中的文本型文件中写数据
MapReduce input	向MapReduce输入键值对
MapReduce output	从MapReduce输出键值对
MongoDB input	读取MongoDB中一个指定数据库集合的所有记录
MongoDB output	将数据写入MongoDB的集合中
ORC input	读取ORC格式文件
ORC output	写入ORC格式文件
Parquet input	读取Parquet格式文件
Parquet output	写入Parquet格式文件
SSTable output	作为Cassandra SSTable写入一个文件系统目录

表3-1 Kettle转换中的大数据相关步骤

作业项名称	描述
Amazon EMR job executor	在Amazon EMR中执行MapReduce作业
Amazon Hive job executor	在Amazon EMR中执行Hive作业
Hadoop copy files	将本地文件上传到HDFS，或者在HDFS上复制文件
Hadoop job executor	在Hadoop节点上执行包含在JAR文件中的MapReduce作业
Oozie job executor	执行Oozie工作流
Pentaho MapReduce	在Hadoop中执行基于MapReduce的转换
Pig script executor	在Hadoop集群上执行Pig脚本
Spark submit	提交Spark作业
Sqoop export	使用Sqoop将HDFS上的数据导出到一个关系数据库中
Sqoop import	使用Sqoop将一个关系数据库中的数据导入到HDFS上

表3-2 Kettle作业中的大数据相关作业项

Kettle的设计很独特，它既可以在Hadoop集群外部执行，也可以在Hadoop集群内的节点上执行。在外部执行时，Kettle能够从HDFS、Hive和HBase抽取数据，或者向它们中装载数据。在Hadoop集群内部执行时，Kettle转换可以作为Mapper或Reducer任务执行，并允许将Pentaho MapReduce作业项作为MapReduce的可视化编程工具来使用。后面我们会用示例演示这些功能。关于Hadoop及其组件的基本概念和功能特性不是本专题所讨论的范畴，可参考其它资源。

二、连接Hadoop

Kettle可以与Hadoop协同工作。通过提交适当的参数，Kettle可以连接Hadoop的HDFS、MapReduce、Zookeeper、Oozie、Sqoop和Spark服务。在数据库连接类型中支持Hive和Impala。在本示例中配置Kettle连接HDFS、Hive和Impala。为了给本专题后面实践中创建的转换或作业使用，我们还将定义一个普通的mysql数据库连接对象。

1. 连接Hadoop集群

要使Kettle连接Hadoop集群，需要两个操作：设置一个Active Shim；建立并测试连接。Shim是Pentaho开发的插件，功能有点类似于一个适配器，帮助用户连接Hadoop。Pentaho定期发布Shim，可以从sourceforge网站下载与Kettle版本对应的Shim安装包。使用Shim能够连接不同的Hadoop发行版本，如CDH、HDP、MapR、Amazon EMR等。当在Kettle中执行一个大数据的转换或作业时，缺省会使用设置的Active Shim。初始安装Kettle时，并没有Active Shim，因此在尝试连接Hadoop集群前，首先要做的就是选择一个Active Shim，选择的同时也就激活了此Active Shim。设置好Active Shim后，再经过一定的配置，就可以测试连接了。Kettle内建的工具可以为完成这些工作提供帮助。

（1）开始前准备

在配置连接前，要确认Kettle具有访问HDFS相关目录的权限，访问的目录通常包括用户主目录以及工作需要的其它目录。Hadoop管理员应该已经配置了允许Kettle所在主机对Hadoop集群的访问。除权限外，还需要确认以下信息：

Hadoop集群的发行版本。Kettle与Hadoop版本要匹配，本例使用的Kettle 8.3所对应的大数据支持矩阵详见“https://help.pentaho.com/Documentation/8.3/Setup/Components_Reference”。
HDFS、MapReduce或Zookeeper服务的IP地址和端口号。
如果要使用Oozie，需要知道Oozie服务的URL。

本例中已经安装好4个节点的CDH 6.3.1集群，IP地址及主机名如下：
172.16.1.124 manager
172.16.1.125 node1
172.16.1.126 node2
172.16.1.127 node3

启动的Hadoop服务如图3-1所示，所有服务都使用缺省端口。关于CDH集群的安装与卸载，可以参见我的博客“基于Hadoop生态圈的数据仓库实践 —— 环境搭建（二）”和“一键式完全删除CDH 6.3.1”。

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持_第1张图片

图3-1 Hadoop集群服务

为了用主机名访问Hadoop相关服务，在Kettle主机（172.16.1.101）的/etc/hosts文件中添加了Hadoop集群四个节点的IP与主机名。

（2）配置步骤

1. 在Kettle中配置Hadoop客户端文件
在浏览器中登录Cloudera Manager，选择Hive服务，点击“操作”->“下载客户端配置”。在得到的hive-clientconfig.zip压缩包中包括了当前Hadoop客户端的12个配置文件。将其中的core-site.xml、hdfs-site.xml、hive-site.xml、yarn-site.xml、mapred-site.xml 5个文件复制到Kettle根目录下的plugins/pentaho-big-data-plugin/hadoop-configurations/cdh61/目录下，覆盖原来Kettle自带的这些文件。

2. 选择Active Shim
在Spoon界面中，选择主菜单“工具” -> “Hadoop Distribution...”，在对话框中选择“Cloudera CDH 6.1.0”，如图3-2所示，点击OK按钮确定后重启Spoon。

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持_第2张图片

图3-2 选择Active Shim

3. 在Spoon中创建Hadoop clusters对象
新建一个转换，在工作区左侧的树的“主对象树”标签中，选择 Hadoop clusters -> 右键New Cluster，对话框中输入如图3-3所示的属性值。

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持_第3张图片

图3-3 Hadoop集群连接配置

上图的Hadoop集群配置窗口中的选项及定义说明如下：

Cluster Name：定义要连接的集群名称，这里为CDH631。
Hostname（HDFS段）：Hadoop集群中NameNode节点的主机名。由于本例中的CDH配置了HDFS HA，这里用HDFS NameNode服务名替代了主机名。
Port（HDFS段）：Hadoop集群中NameNode节点的端口号，HA不需要填写。
Username（HDFS段）：HDFS的用户名，通过宿主操作系统给出，不用填。
Password（HDFS段）：HDFS的密码，通过宿主操作系统给出，不用填。
Hostname（JobTracker段）：Hadoop集群中JobTracker节点的主机名。如果有独立的JobTracker节点，在此输入，否则使用HDFS的主机名。
Port（JobTracker段）：Hadoop集群中JobTracker节点的端口号，不能与HDFS的端口号相同。
Hostname（ZooKeeper段）：Hadoop集群中Zookeeper节点的主机名，只有在连接Zookeeper服务时才需要。
Port（ZooKeeper段）：Hadoop集群中Zookeeper节点的端口号，只有在连接Zookeeper服务时才需要。
URL（Oozie段）：Oozie WebUI的地址，只有在连接Oozie服务时才需要。

这是本例CDH的配置，你应该按自己的情况进行相应修改。然后点击“Test”按钮，测试结果如图3-4所示。正常情况下此时除了一个Kafka连接失败的警告外，其它都应该通过测试。Kafka连接失败，原因是没有配置Kafka的Bootstrap servers。我们在CDH中并没有启动Kafka服务，因此忽略此警告。

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持_第4张图片

图3-4 测试通过

关闭“Hadoop Cluster Test”窗口后，点击“Hadoop cluster”窗口的“确定”按钮，至此就建立了一个Kettle可以连接的Hadoop集群。

如果是首次配置Kettle连接Hadoop，难免会出现这样那样的问题，Pentaho文档中列出了配置过程中的常见问题及其通用解决方法，如表3-3所示。希望这能对Kettle或Hadoop新手有所帮助。

症状	通常原因	通用解决方法
Shim和配置问题
No shim	没有选择shim。 shim安装位置错误。 plugin.properties 文件中没有正确的shim名称。	检查plugin.properties文件中active.hadoop.configuration参数的值是否与pentaho-big-data-plugin/hadoop-configurations下的目录名相匹配。确认shim安装在正确的位置（缺省安装在Kettle安装目录的plugins/pentaho-big-data-plugin子目录下）。参考Pentaho “Set Up Pentaho to Connect to a Hadoop Cluster”文档，确认shim插件的名称和安装目录。
Shim doesn't load	没有安装许可证。 Kettle版本不支持装载的shim。如果选择的是MapR shim，客户端可能没有正确安装。配置文件改变导致错误。	参考Pentaho “required licenses are installed”文档，验证许可证安装，并且确认许可证没有过期。参考Pentaho “Components Reference”文档，验证使用的Kettle版本所支持的shim。参考Pentaho “Set Up Pentaho to Connect to an Apache Hadoop Cluster”文档，检查配置文件。如果连接的是MapR，检查客户端安装，然后重启Kettle后再测试连接。如果该错误持续发生，文件可能损坏，需要从Pentaho官网下载新的shim文件。
The file system's URL does not match the URL in the configuration file	*-site.xml文件配置错误	参考Pentaho “Set Up Pentaho to Connect to an Apache Hadoop Cluster”文档，检查配置文件，主要是core-site.xml文件是否配置正确。
Sqoop Unsupported major.minor version Error	在pentaho6.0中，Hadoop集群上的Java版本比Pentaho使用的Java版本旧。	验证JDK是否满足受支持组件列表中的要求。验证Pentaho服务器上的JDK是否与Hadoop集群上的JDK主版本相同。
连接问题
Hostname does not resolve	没有指定主机名。主机名/IP地址错误。主机名没有正确解析。	验证主机名/IP地址是否正确。检查DNS或hosts文件，确认主机名解析正确。
Port name is incorrect	没有指定端口号。端口号错误。	验证端口号是否正确。确认Hadoop集群是否启用了HA，如果是，则不需要指定端口号。
Can't connect	被防火墙阻止。其它网络问题。	检查防火墙配置，并确认没有其它网络问题。
目录访问或权限问题
Can't access directory	认证或权限问题。目录不在集群上。	确认连接使用的用户对被访问的目录有读、写、或执行权限。检查集群的安全设置（如dfs.permissions等）是否允许shim访问。验证HDFS的主机名和端口号是否正确。
Can't create, read, update, or delete files or directories	认证或权限问题。	确认用户已经被授予目录的执行权限检查集群的安全设置（如dfs.permissions等）是否允许shim访问。验证HDFS的主机名和端口号是否正确。
Test file cannot be overwritten	Pentaho测试文件已在目录中。	测试已运行，但未删除测试文件。需要手动删除测试文件。检查Kettle根目录下logs目录下的spoon.log文件中记录的测试文件名。测试文件用于验证用户可以在其主目录中创建、写入和删除。

表3-3 Kettle连接Hadoop时的常见问题

2. 连接Hive

Kettle把Hive当作一个数据库，支持连接Hive Server和Hive Server 2/3，数据库连接类型的名字分别为Hadoop Hive和Hadoop Hive 2/3。这里演示在Kettle中建立一个Hadoop Hive 2/3类型的数据库连接。

Hive Server有两个明显的问题，一是不够稳定，经常会莫名奇妙假死，导致客户端所有的连接都被挂起。二是并发性支持不好，如果一个用户在连接中设置了一些环境变量，绑定到一个Thrift工作线程，当该用户断开连接，另一个用户创建了一个连接，他有可能也被分配到之前的线程，复用之前的配置。这是因为Thrift不支持检测客户端是否断开连接，也就无法清除会话的状态信息。Hive Server 2的稳定性更高，并且已经完美支持了会话。从长远来看都会以Hive Server 2作为首选。

在工作区左侧的“主对象树”标签中，选择 “DB连接” -> 右键“新建”，对话框中输入如图3-5所示的属性值。

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持_第5张图片

图3-5 Hive连接配置

上图的数据库连接配置窗口中的选项及定义说明如下：

Connection Name：定义连接名称，这里为hive_cdh631。
Connection Type：连接类型选择Hadoop Hive 2/3。
Host Name：输入HiveServer2对应的主机名。在Cloudera Manager中，从Hive服务的“实例”标签中可以找到。
Datebase Name：这里输入的rds是Hive里已经存在的一个数据库名称。
Port Number：端口号输入hive.server2.thrift.port参数的值。
User Name：用户名，这里为空。
Password：密码，这里为空。

点击“测试”，应该弹出成功连接窗口，显示内容如下：

正确连接到数据库[hive_cdh631] 
主机名         : node2
端口           : 10000
数据库名       :rds

为了让其它转换或作业能够使用此数据库连接对象，需要将它设置为共享。选择 “DB连接” -> hive_cdh631 -> 右键“共享”，然后保存转换。

3. 连接Impala

Impala是一个运行在Hadoop之上的大规模并行处理（Massively Parallel Processing，MPP）查询引擎，提供对Hadoop集群数据的高性能、低延迟的SQL查询，使用HDFS作为底层存储。对查询的快速响应使交互式查询和对分析查询的调优成为可能，而这些在针对处理长时间批处理作业的SQL-on-Hadoop传统技术上是难以完成的。Impala是Cloudera公司基于Google Dremel的开源实现。Cloudera公司宣称除Impala外的其它组件都将移植到Spark框架，并坚信Impala是大数据上SQL解决方案的未来，可见其对Impala的重视程度。

通过将Impala与Hive元数据存储数据库相结合，能够在Impala与Hive这两个组件之间共享数据库表。并且Impala与HiveQL的语法兼容，因此既可以使用Impala也可以使用Hive进行建立表、发布查询、装载数据等操作。Impala可以在已经存在的Hive表上执行交互式实时查询。

创建Impala连接的过程与Hive类似。在工作区左侧的“主对象树”标签中，选择“DB连接” -> 右键“新建”，对话框中输入如图3-6所示的属性值。

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持_第6张图片

图3-6 Impala连接配置

上图的数据库连接配置窗口中的选项及定义说明如下：

Connection Name：定义连接名称，这里为impala_cdh631。
Connection Type：连接类型选择Impala。
Host Name：输入任一Impala Daemon对应的主机名。在Cloudera Manager中，从Impala服务的“实例”标签中可以找到。
Datebase Name：这里输入的rds是Hive里已经存在的一个数据库名称。
Port Number：端口号输入Impala Daemon HiveServer2端口参数的值。
User Name：用户名，这里为空。
Password：密码，这里为空。

点击“测试”，应该弹出成功连接窗口，显示内容如下：

正确连接到数据库[impala_cdh631] 
主机名         : node3
端口           : 21050
数据库名       :rds

同hive_cdh631一样，将impala_cdh631数据库连接共享，然后保存转换。

4. 建立MySQL数据库连接

Kettle中创建数据库连接的方法都类似，区别只是在“连接类型”中选择不同的数据库，然后输入相关的属性，“连接方式”通常选择Native(JDBC)。例如MySQL连接配置如图3-7所示。

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持_第7张图片

图3-7 MySQL连接配置

这里的连接名称为mysql_node3。配置MySQL数据库连接需要注意的一点是，需要事先将对应版本的MySQL JDBC驱动程序拷贝到Kettle根目录的lib目录下，否则在测试连接时可能出现如下错误：

org.pentaho.di.core.exception.KettleDatabaseException: 
Error occurred while trying to connect to the database

Driver class 'org.gjt.mm.mysql.Driver' could not be found, make sure the 'MySQL' driver (jar file) is installed.
org.gjt.mm.mysql.Driver

本例中连接的MySQL服务器版本为5.6.14，因此使用下面的命令拷贝JDBC驱动，然后重启Spoon以重新加载所有驱动。

cp mysql-connector-java-5.1.38-bin.jar /root/pdi-ce-8.3.0.0-371/lib/

至此成功创建了一个Hadoop集群对象CDH631，,以及三个数据库连接对象hive_cdh631、impala_cdh631和mysql_node3。

三、导入导出Hadoop集群数据

本节用四个示例演示如何使用Kettle导出导入Hadoop数据。这四个示例是：向HDFS导入数据；向Hive导入数据；从HDFS抽取数据到MySQL；从Hive抽取数据到MySQL。

1. 向HDFS导入数据

用Kettle将本地文件导入HDFS非常简单，只需要一个“Hadoop copy files”作业项就可以实现。它执行的效果同 hdfs dfs -put 命令是相同的。从下面的地址下载Pentaho提供的web日志示例文件，将解压缩后的weblogs_rebuild.txt文件放到Kettle所在主机的本地目录下。

http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificationDate=1327069200000

在Spoon中新建一个只包含“Start”和“Hadoop copy files”两个作业项的作业，如图3-8所示。

图3-8 向HDFS导入数据的作业

双击“Hadoop Copy Files”作业项，编辑属性如下：

Source Environment：选择“Local”。
源文件/目录：选择本地文件，本例为“file:///root/kettle_hadoop/3/weblogs_rebuild.txt”
通配符：空。
Destination Environment：选择“CDH631”，这是我们之前已经建立好的Hadoop Clusters对象。
Destination File/Folder：选择HDFS上的目录，本例为/user/root。

保存并成功执行作业后，查看HDFS目录，结果如下。可以看到，weblogs_rebuild.txt文件已从本地导入HDFS的/user/root目录中。每次执行作业会覆盖HDFS中已存在的同名文件。

[hdfs@manager~]$hdfs dfs -ls /user/root
Found 1 items
-rw-r--r--   3 root supergroup   77908174 2020-08-28 08:53 /user/root/weblogs_rebuild.txt
[hdfs@manager~]$

2. 向Hive导入数据

Hive缺省是不能进行行级插入的，也就是说缺省时不能使用insert into ... values这种SQL语句向Hive插入数据。通常Hive表数据导入方式有以下两种：

从本地文件系统中导入数据到Hive表，使用的语句是：
```
load data local inpath 目录或文件 into table 表名;
```
从HDFS上导入数据到Hive表，使用的语句是：
```
load data inpath 目录或文件 into table 表名;
```

再有数据一旦导入Hive表，缺省是不能进行更新和删除的，只能向表中追加数据或者用新数据整体覆盖原来的数据。要删除表数据只能执行truncate或者drop table操作，这实际上是删除了表所对应的HDFS上的数据文件或目录。

Kettle作业中的“Hadoop Copy Files”作业项可以将本地文件上传至HDFS，因此只要将前面的作业稍加修改，将Destination File/Folder选择为hive表所在的HDFS目录即可，作业执行的效果与load data local inpath语句相同。

首先从下面的地址下载Pentaho提供的格式化后的web日志示例文件，将解压缩后的weblogs_parse.txt文件放到Kettle所在主机的本地目录下。

http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000

然后执行下面的HiveQL建立一个Hive表，表结构与weblogs_parse.txt文件的结构相匹配。

create table test.weblogs (
client_ip         string,
full_request_date string,
day               string,
month             string,
month_num         int,
year              string,
hour              string,
minute            string,
second            string,
timezone          string,
http_verb         string,
uri               string,
http_status_code  string,
bytes_returned    string,
referrer          string,
user_agent        string)
row format delimited fields terminated by '\t';

创建和前例相同的作业，只是修改以下两个作业项属性：

源文件/目录：file:///root/kettle_hadoop/3/weblogs_parse.txt
Destination File/Folder：/user/hive/warehouse/test.db/weblogs

保存并成功执行作业后，查询test.weblogs表的记录与weblogs_parse.txt文件内容相同。

3. 从HDFS抽取数据到MySQL

从下面的地址下载文件
http://wiki.pentaho.com/download/attachments/23530622/weblogs_aggregate.txt.zip?version=1&modificationDate=1327067858000

这是Pentaho提供的一个压缩文件，其中包含一个名为weblogs_aggregate.txt的文本文件，文件中有36616行记录，每行记录有4列，分别表示IP地址、年份、月份、访问页面数，前5行记录如下。我们使用这个文件作为最初的原始数据。

0.308.86.81    2012    07    1
0.32.48.676    2012    01    3
0.32.85.668    2012    07    8
0.45.305.7    2012    01    1
0.45.305.7    2012    02    1

用下面的命令把解压缩后的weblogs_aggregate.txt文件上传到HDFS的/user/root目录下。

hdfs dfs -put weblogs_aggregate.txt /user/root/

在Spoon中新建一个如图3-9的转换。转换中只包含“Hadoop File Input”和“表输出” 两个步骤。

图3-9 从HDFS抽取数据到MySQL的转换

编辑“Hadoop File Input”步骤属性如下：
（1）“文件”标签

Environment：选择“CDH631”。
File/Folder：选择“/user/root/weblogs_aggregate.txt”

（2）“内容”标签

文件类型：CVS
分隔符：删除分号，点击“Insert TAB”按钮插入TAB分隔符。
头部：勾掉。
格式：选择“Unix”。
本地日期格式：选择“en_US”

（3）“字段”标签
输入如表3-4所示。

名称	类型	格式	长度	去除空字符串方式	重复
client_ip	String		20	不去掉空格	否
year	Integer	#	15	不去掉空格	否
month_num	Integer	#	15	不去掉空格	否
pageviews	Integer	#	15	不去掉空格	否

表3-4 weblogs_aggregate.txt对应的字段

编辑“表输出”步骤属性如下：

数据库连接：选择“mysql_node3”。
目标表：输入“aggregate_hdfs”。
剪裁表：勾选。

mysql_node3是连接Hadoop时已经建好的一个MySQL数据库连接。“主选项”和“数据库字段”标签下的属性都不需要设置，“表字段”和“流字段”会自动映射。

下面执行SQL建立mysql的表：

use test;
create table aggregate_hdfs (
    client_ip varchar(15),
    year smallint,
    month_num tinyint,
    pageviews bigint
);

保存并执行转换，然后查询aggregate_hdfs表，结果如下：

mysql> select count(*) from test.aggregate_hdfs;
+----------+
| count(*) |
+----------+
|    36616 |
+----------+
1 row in set (0.03 sec)

mysql> select * from test.aggregate_hdfs limit 5;
+-------------+------+-----------+-----------+
| client_ip   | year | month_num | pageviews |
+-------------+------+-----------+-----------+
| 0.308.86.81 | 2012 |         7 |         1 |
| 0.32.48.676 | 2012 |         1 |         3 |
| 0.32.85.668 | 2012 |         7 |         8 |
| 0.45.305.7  | 2012 |         1 |         1 |
| 0.45.305.7  | 2012 |         2 |         1 |
+-------------+------+-----------+-----------+
5 rows in set (0.00 sec)

4. 从Hive抽取数据到MySQL

在Spoon中新建一个如图3-10的转换。转换中只包含“表输入”和“表输出” 两个步骤。

图3-10 从Hive抽取数据到MySQL的转换

编辑“表输入”步骤属性如下：

数据库连接：选择“hive_cdh631”。

SQL：输入下面的SQL语句：

select client_ip, year, month, month_num, count(*) as pageviews
  from test.weblogs
 group by client_ip, year, month, month_num

hive_cdh631是连接Hadoop时已经建好的一个Hive数据库连接。

编辑“表输出”步骤属性如下：

数据库连接：选择“mysql_node3”。
目标表：输入“aggregate_hive”。
剪裁表：勾选。

下面执行SQL建立mysql的表：

use test;
create table aggregate_hive (
    client_ip varchar(15),
    year varchar(4),
    month varchar(10),
    month_num tinyint,
    pageviews bigint
);

保存并执行转换，然后查询aggregate_hive表，结果如下：

mysql> select count(*) from test.aggregate_hive;
+----------+
| count(*) |
+----------+
|    36616 |
+----------+
1 row in set (0.03 sec)

mysql> select * from test.aggregate_hive limit 5;
+---------------+------+-------+-----------+-----------+
| client_ip     | year | month | month_num | pageviews |
+---------------+------+-------+-----------+-----------+
| 0.45.305.7    | 2012 | Feb   |         2 |         1 |
| 0.48.322.75   | 2012 | Jul   |         7 |         1 |
| 0.638.50.46   | 2011 | Dec   |        12 |         8 |
| 01.660.68.623 | 2012 | Jun   |         6 |         1 |
| 01.660.70.74  | 2012 | Jul   |         7 |         1 |
+---------------+------+-------+-----------+-----------+
5 rows in set (0.00 sec)

四、执行HiveQL语句

在这个示例中演示如何用Kettle执行Hive的HiveQL语句。我们在“向Hive导入数据”一节建立的weblogs表上执行聚合查询，同时建立一个新表保存查询结果。新建一个Kettle作业，只有“START”和“SQL”两个作业项，如图3-11所示。

图3-11 执行Hive HiveQL语句的作业

编辑“SQL”作业项属性如下：

数据库连接：选择“hive_cdh631”。

SQL脚本：

create table test.weblogs_agg
as
select client_ip, year, month, month_num, count(*)
  from test.weblogs
 group by client_ip, year, month, month_num;

保存并成功执行作业后检查hive表，结果如下：

hive> select count(*) from test.weblogs_agg;
...
36616

可以看到weblogs_agg表中已经保存了全部的聚合数据。

五、执行MapReduce

1. 生成聚合数据集

“执行HiveQL语句”示例只用一句HiveQL就生成了聚合数据，本示例使用“Pentaho MapReduce”作业项完成相似的功能，把细节数据汇总成聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时，这是一个常见的使用场景。我们把weblogs_parse.txt文件作为细节数据，目标是生成聚合数据文件，其中包含按IP和年月分组统计的PV数。

（1）准备文件与目录

# 创建格式化文件所在目录
hdfs dfs -mkdir /user/root/parse/
# 上传格式化文件
hdfs dfs -put -f weblogs_parse.txt /user/root/parse/
# 修改读写权限
hdfs dfs -chmod -R 777 /user/root/

（2）建立一个用于Mapper的转换

图3-12 生成聚合数据Mapper转换

如图3-12所示的转换由“MapReduce Input”、“拆分字段”、“利用Janino计算Java表达式”、“MapReduce Output”四个步骤组成。

编辑“MapReduce Input”步骤如下：

Key field：“Type”选择“String”，定义 Hadoop MapReduce 键的数据类型。
Value field：“Type”选择“String”，定义 Hadoop MapReduce 值的数据类型。

该步骤输出两个字段，名称是固定的key和value，也就是Map阶段输入的键值对。

编辑“拆分字段”步骤如下：

需要拆分的字段：选择“value”。
分隔符：输入“$[09]”，以TAB作为分隔符。

字段：新的字段名如下，类型均为String。

client_ip
full_request_date
day
month
month_num
year
hour
minute
second
timezone
http_verb
uri
http_status_code
bytes_returned
referrer
user_agent

该步骤将输入的value字段拆分成16个字段，输出17个字段（key字段没变，文本文件每行的key是文件起始位置到每行的字节偏移量）。

编辑“利用Janino计算Java表达式”步骤如表3-5所示。

New field	Java expression	Value type
new_key	client_ip + '\t' + year + '\t' + month_num	String
new_value	1	Integer

表3-5 聚合数据转换中的“利用Janino计算Java表达式”步骤

该步骤为数据流中增加两个新的字段，名称分别定义为new_key和new_value。new_key字段的值定义为client_ip + '\t' + year + '\t' + month_num，将IP地址、年份、月份和字段间的两个TAB符拼接成一个字符串。new_value字段的值为1，数据类型是整数。该步骤输出19个字段。

编辑“MapReduce Output”步骤如下：

Key field：选择“new_key”。
Value field：选择“new_value”。

该步骤输出“new_key”和“new_value”两个字段，即Map阶段输出的键值对。

将转换保存为aggregate_mapper.ktr。

（3）建立一个用于Reducer的转换

图3-13 生成聚合数据Reducer转换

如图3-13所示的转换由“MapReduce Input”、“分组”、“MapReduce Output”三个步骤组成。

编辑“MapReduce Input”步骤如下：
. Key field：“Type”选择“String”。
. Value field：“Type”选择“Integer”。

该步骤输出两个字段，名称是固定的key和value，key对应Mapper转换的new_key输出字段，value对应Mapper转换的new_value输出字段。

编辑“分组”步骤如下：

构成分组的字段：选择“key”。
聚合：名称、Subject、类型三列的值分别是new_value、value、求和。

该步骤按key字段分组（key字段的值就是client_ip + '\t' + year + '\t' + month_num），对每个分组的value求和，每组的合计值定义为一个新的字段new_value。注意，此处的new_value和Mapper转换输出的new_value字段含义是不同的。Mapper转换输出的new_value字段对应这里的Subject字段值。

编辑“MapReduce Output”步骤如下：

Key field：选择“key”。
Value field：选择“new_value”。

输出Reducer处理后的键值对，这就是我们想要的结果。

将转换保存为aggregate_reducer.ktr。

（4）建立一个调用MapReduce步骤的作业

图3-14 聚合数据Pentaho MapReduce作业

如图3-14所示的作业使用mapper和reducer转换。需要编辑Pentaho MapReduce作业项的Mapper、Reducer、job Setup、Cluster四个标签页，每个标签页上的选项及定义。

Mapper标签：

Transformation：选择第（1）步建立的Mapper转换，这里为“/root/kettle_hadoop/3/aggregate_mapper.ktr”。
Input step name：输入“MapReduce Input”。这是接收mapping数据的步骤名，必须是一个MapReduce Input步骤的名称。
Output step name：输入“MapReduce Output”。这是mapping输出步骤名，必须是一个MapReduce Output步骤的名称。

Reducer标签：

Transformation：选择第（2）步建立的Reducer转换，这里为“/root/kettle_hadoop/3/aggregate_mapper.ktr”。
Input step name：输入“MapReduce Input”。这是接收reducing数据的步骤名，必须是一个MapReduce Input步骤的名称。
Output step name：输入“MapReduce Output”。这是reducing输出步骤名，必须是一个MapReduce Output步骤的名称。

Job Setup标签：

Input path：输入“/user/root/parse/”。一个以逗号分隔的HDFS目录列表，目录中存储的是MapReduce要处理的源数据文件。
Output path：输入“/user/root/aggregate_mr”。存储MapReduce作业输出数据的HDFS目录。
Remove output path before job：勾选。执行作业时先删除输出目录。
Input format：输入“org.apache.hadoop.mapred.TextInputFormat”，为输入格式的类名。
Output format：输入“org.apache.hadoop.mapred.TextOutputFormat”，为输出格式的类名。

Cluster标签：

Hadoop job name：输入“aggregate”。
Hadoop cluster：选择“CDH631”，为一个已经定义的Hadoop集群。
Number of mapper tasks：1。分配的mapper任务数，由输入的数据量所决定。典型的值在10-100之间。非CPU密集型的任务可以指定更高的值。
Number of reduce tasks：1。分配的reducer任务数。一般来说，该值设置的越小，reduce操作启动的越快，设置的越大，reduce操作完成的更快。加大该值会增加Hadoop框架的开销，但能够使负载更加均衡。如果设置为0，则不执行reduce操作，mapper的输出将作为整个MapReduce作业的输出。
Logging interval：60。日志消息间隔的秒数。
Enable blocking：勾选。如果选中，作业将等待每一个作业项完成后再继续下一个作业项，这是Kettle感知Hadoop作业状态的唯一方式。如果不选，MapReduce作业会自己执行，而Kettle在提交MapReduce作业后立即会执行下一个作业项。除非选中该项，否则Kettle的错误处理在这里将无法工作。

将作业保存为aggregate_mr.kjb。

（5）执行作业并验证输出

[hdfs@node3~]$hdfs dfs -ls /user/root/aggregate_mr/
Found 2 items
-rw-r--r--   3 root supergroup          0 2020-08-31 13:46 /user/root/aggregate_mr/_SUCCESS
-rw-r--r--   3 root supergroup     890709 2020-08-31 13:46 /user/root/aggregate_mr/part-00000
[hdfs@node3~]$hdfs dfs -cat /user/root/aggregate_mr/part-00000 | head -10
0.308.86.81    2012    07    1
0.32.48.676    2012    01    3
0.32.85.668    2012    07    8
0.45.305.7    2012    01    1
0.45.305.7    2012    02    1
0.46.386.626    2011    11    1
0.48.322.75    2012    07    1
0.638.50.46    2011    12    8
0.87.36.333    2012    08    7
01.660.68.623    2012    06    1
cat: Unable to write to output stream.
[hdfs@node3~]$

可以看到，/user/root/aggregate_mr/目录下生成了名为part-00000输出文件，文件中包含按IP和年月分组的PV数。

2. 格式化原始web日志

本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。

（1）准备文件与目录

# 创建原始文件所在目录
hdfs dfs -mkdir /user/root/raw
# 修改读写权限
hdfs dfs -chmod -R 777 /user/root/

然后用Hadoop copy files作业项将weblogs_rebuild.txt文件放到HDFS的/user/root/raw目录下，具体操作参见前面“向HDFS导入数据”。

（2）建立一个用于Mapper的转换

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持_第8张图片

图3-15 格式化文件Mapper转换

编辑“MapReduce Input”步骤如下：

Key field：“Type”选择“String”。
Value field：“Type”选择“String”。

编辑“正则表达式”步骤如下：

要匹配的字段：输入“value”。
Result field name：输入“is_match”
为每个捕获组（capture group）创建一个字段：勾选。
Replace previous fields：勾选。

正则表达式：

^([^\s]{7,15})\s            # client_ip
-\s                         # unused IDENT field
-\s                         # unused USER field
\[((\d{2})/(\w{3})/(\d{4})  # request date dd/MMM/yyyy
:(\d{2}):(\d{2}):(\d{2})\s([-+ ]\d{4}))\]
                            # request time :HH:mm:ss -0800
\s"(GET|POST)\s             # HTTP verb
([^\s]*)                     # HTTP URI
\sHTTP/1\.[01]"\s           # HTTP version
 
(\d{3})\s                   # HTTP status code
(\d+)\s                     # bytes returned
"([^"]+)"\s                 # referrer field
 
"                           # User agent parsing, always quoted.
"?                          # Sometimes if the user spoofs the user_agent, they incorrectly quote it.
(                           # The UA string
  [^"]*?                    # Uninteresting bits
  (?:
    (?:
     rv:                    # Beginning of the gecko engine version token
     (?=[^;)]{3,15}[;)])    # ensure version string size
     (                      # Whole gecko version
       (\d{1,2})                   # version_component_major
       \.(\d{1,2}[^.;)]{0,8})      # version_component_minor
       (?:\.(\d{1,2}[^.;)]{0,8}))? # version_component_a
       (?:\.(\d{1,2}[^.;)]{0,8}))? # version_component_b
     )
     [^"]*                  # More uninteresting bits
    )
   |
    [^"]*                   # More uninteresting bits
  )
)                           # End of UA string
"?
"

捕获组（Capture Group）字段：如下所示，所有字段都是String类型。

client_ip
full_request_date
day
month
year
hour
minute
second
timezone
http_verb
uri
http_status_code
bytes_returned
referrer
user_agent
firefox_gecko_version
firefox_gecko_version_major
firefox_gecko_version_minor
firefox_gecko_version_a
firefox_gecko_version_b

编辑“过滤记录”步骤如下：

发送true数据给步骤：选择“值映射”。
发送false数据给步骤：选择“空操作（什么也不做）”
条件：选择“is_match = Y”

编辑“值映射”步骤如下：

使用的字段名：选择“month”。
目标字段名（空=覆盖）：输入“month_num”。
不匹配时的默认值：输入“00”。

字段值：源值与目标值输入如下。

Jan 01
Feb 02
Mar 03
Apr 04
May 05
Jun 06
Jul 07
Aug 08
Sep 09
Oct 10
Nov 11
Dec 12

编辑“利用Janino计算Java表达式”步骤如下：

New field：输入“output_value”。

Java expression：输入如下。

client_ip + '\t' + full_request_date + '\t' + day + '\t' + month + '\t' + month_num + '\t' + year + '\t' + hour + '\t' + minute + '\t' + second + '\t' + timezone + '\t' + http_verb + '\t' + uri + '\t' + http_status_code + '\t' + bytes_returned + '\t' + referrer + '\t' + user_agent

Value type：选择“String”。

编辑“MapReduce Output”步骤如下：

Key field：选择“key”。
Value field：选择“output_value”。

将转换保存为weblog_parse_mapper.ktr。

（3）建立一个调用MapReduce步骤的作业

图3-16 格式化文件Pentaho MapReduce作业

编辑“Pentaho MapReduce”作业项如下。
Mapper标签：

Transformation：选择上一步建立的转换，这里为“/root/kettle_hadoop/3/weblogs_parse_mapper.ktr”。
Input step name：输入“MapReduce Input”。
Output step name：输入“MapReduce Output”。

Job Setup标签：

Input path：输入“/user/root/raw”。
Output path：输入“/user/root/parse1”。
Remove output path before job：勾选。
Input format：输入“org.apache.hadoop.mapred.TextInputFormat”。
Output format：输入“org.apache.hadoop.mapred.TextOutputFormat”。

Cluster标签：

Hadoop job name：输入“Web Log Parse”。
Hadoop cluster：选择“CDH631”。
Number of mapper tasks：2
Number of reduce tasks：0
Logging interval：60
Enable blocking：勾选。

将作业保存为weblogs_parse_mr.kjb。

（4）执行作业并验证输出

作业成功执行后检查HDFS的输出文件，结果如下。

[hdfs@node3~]$hdfs dfs -ls /user/root/parse1
Found 3 items
-rw-r--r--   3 root supergroup          0 2020-08-31 10:59 /user/root/parse1/_SUCCESS
-rw-r--r--   3 root supergroup   42601640 2020-08-31 10:59 /user/root/parse1/part-00000
-rw-r--r--   3 root supergroup   42810160 2020-08-31 10:59 /user/root/parse1/part-00001
[hdfs@node3~]$hdfs dfs -get /user/root/parse1/part-00000
[hdfs@node3~]$head -5 part-00000 
0    323.81.303.680    25/Oct/2011:01:41:00 -0500    25    Oct    10    2011    01    41    00    -0500    GET    /download/download6.zip    200    0    -    Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.19) Gecko/2010031422 Firefox/3.0.19
193    668.667.44.3    25/Oct/2011:07:38:30 -0500    25    Oct    10    2011    07    38    30    -0500    GET    /download/download3.zip    200    0    -    Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070719 CentOS/1.5.0.12-3.el5.centos Firefox/1.5.0.12
405    13.386.648.380    25/Oct/2011:17:06:00 -0500    25    Oct    10    2011    17    06    00    -0500    GET    /download/download6.zip    200    0    -    Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB6.3; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; InfoPath.2)
651    06.670.03.40    26/Oct/2011:13:24:00 -0500    26    Oct    10    2011    13    24    00    -0500    GET    /product/demos/product2    200    0    -    Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.2.3) Gecko/20100401 Firefox/3.6.3
838    18.656.618.46    26/Oct/2011:17:15:30 -0500    26    Oct    10    2011    17    15    30    -0500    GET    /download/download4.zip    200    0    -    Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_3; en-us) AppleWebKit/531.22.7 (KHTML, like Gecko) Version/4.0.5 Safari/531.22.7
[hdfs@node3~]$

可以看到，/user/root/parse1目录下生成了名为part-00000和part-00001的两个输出文件（因为使用了两个mapper），内容已经被格式化。

六、提交Spark作业

Kettle不但支持MapReduce作业，还可以通过“Spark Submit”作业项，向CDH 5.3以上、HDP 2.3以上、Amazon EMR 3.10以上的Hadoop平台提交Spark作业。在本示例中，我们先为Kettle配置Spark，然后修改并执行Kettle安装包中自带的Spark PI作业例子，说明如何在Kettle中提交Spark作业。

1. 在Kettle主机上安装Spark客户端

使用Kettle执行Spark作业，需要在Kettle主机安装Spark客户端。只要将CDH中Spark的库文件复制到Kettle所在主机即可。

-- 在172.16.1.127上执行
cd /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib
scp -r spark 172.16.1.101:/root/

2. 为Kettle配置Spark

以下操作均在172.16.1.101以root用户执行。

（1）备份原始配置文件

cd /root/spark/conf/
cp spark-defaults.conf spark-defaults.conf.bak
cp spark-env.sh spark-env.sh.bak

（2）编辑spark-defaults.conf文件

vim /root/spark/conf/spark-defaults.conf

内容如下：

# 使用spark.yarn.archive减少任务启动时间
spark.yarn.archive=hdfs://nameservice1/user/spark/lib/spark_jars.zip
# 解决和yarn相关Jersey包冲突，避免spark on yarn启动spark-submit时出现java.lang.NoClassDefFoundError错误
spark.hadoop.yarn.timeline-service.enabled=false
# 记录Spark事件，用于应用程序在完成后重构WebUI
spark.eventLog.enabled=true
# 记录Spark事件的目录
spark.eventLog.dir=hdfs://nameservice1/user/spark/applicationHistory
# spark on yarn的history server地址
spark.yarn.historyServer.address=http://node3:18088

（3）编辑spark-env.sh文件

vim /root/spark/conf/spark-env.sh

内容如下：

#!/usr/bin/env bash

# hadoop配置文件所在目录 
HADOOP_CONF_DIR=/root/pdi-ce-8.3.0.0-371/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh61
# spark主目录
SPARK_HOME=/root/spark

（4）编辑core-site.xml文件

vim /root/pdi-ce-8.3.0.0-371/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh61/core-site.xml

去掉下面这段的注释：


  net.topology.script.file.name
  /etc/hadoop/conf.cloudera.yarn/topology.py

3. 提交Spark作业

（1）修改Kettle自带的Spark例子

cp /root/pdi-ce-8.3.0.0-371/samples/jobs/Spark\ Submit/Spark\ submit.kjb /root/kettle_hadoop/3/spark_submit.kjb

在Spoon中打开/root/kettle_hadoop/spark_submit.kjb文件，如图3-17所示。

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持_第9张图片

图3-17 Kettle自带的Spark例子

编辑Spark PI作业项如下：

Spark Submit Utility：选择Spark提交程序，本例为“/root/spark/bin/spark-submit”。
Master URL：因为yarn运行在CDH集群，而不是Kettle主机上，所以这里选择“yarn-cluster”。
Files标签的Application Jar：选择“/root/spark/examples/jars/spark-examples_2.11-2.4.0-cdh6.3.1.jar”。

（2）保存行执行作业

Spark History Server Web UI如图3-18所示。

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持_第10张图片

图3-18 Spark UI看到提交的Spark作业

七、小结

本篇以Kettle 8.3和CDH 6.3.1为例，介绍Kettle对Hadoop的支持。通过提交适当的参数，Kettle可以连接Hadoop的HDFS、MapReduce、Zookeeper、Oozie和Spark服务。Kettle的数据库连接类型中支持Hive、Hive 2/3和Impala。可以使用Kettle导出导入Hadoop集群中（HDFS、Hive等）的数据，执行Hive的HiveQL语句。Kettle支持在Hadoop中执行基于MapReduce的Kettle转换，还支持向Spark集群提交作业。这里演示的例子都是Pentaho官方提供示例。从下一篇开始，我们将建立一个模拟的Hadoop数据仓库，并用使用Kettle完成其上的ETL操作。

你可能感兴趣的:(Pentaho,Work,with,Big,Data)

WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Vue中table合并单元格用法 weixin_30613343 javascript ViewUI
地名结果人名性别{{item.name}}已完成未完成{{item.groups[0].name}}{{item.groups[0].sex}}{{item.groups[son].name}}{{item.groups[son].sex}}exportdefault{data(){return{list:[{name:'地名1',result:'1',groups:[{name:'张三',sex
uniapp map组件自定义markers标记点以对_ uni-app学习记录 uni-app javascript 前端
需求是根据后端返回数据在地图上显示标记点，并且根据数据状态控制标记点颜色，标记点背景通过两张图片实现控制{{item.options.labelName}}exportdefault{data(){return{storeIndex:0,locaInfo:{longitude:120.445172,latitude:36.111387},markers:[//标点列表{id:1,//标记点idin
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
Spring Boot中实现跨域请求 BABA8891 spring boot 后端 java
在SpringBoot中实现跨域请求（CORS，Cross-OriginResourceSharing）可以通过多种方式，以下是几种常见的方法：1.使用@CrossOrigin注解在SpringBoot中，你可以在控制器或者具体的请求处理方法上使用@CrossOrigin注解来允许跨域请求。在控制器上应用：importorg.springframework.web.bind.annotation.
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
vue + Element UI table动态合并单元格我家媳妇儿萌哒哒 element UI vue.js 前端 javascript
一、功能需求1、根据名称相同的合并工作阶段和主要任务合并这两列，但主要任务内容一样，但要考虑主要任务一样，但工作阶段不一样的情况。（枞向合并）2、落实情况里的定量内容和定性内容值一样则合并。（横向合并）二、功能实现exportdefault{data(){return{tableData:[{name:'a',address:'1',age:'1',six:'2'},{name:'a',addre
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
使用datepicker和uploadify的冲突解决（IE双击才能打开附件上传对话框） zhanglb12
在开发的过程当中，IE的兼容无疑是我们的一块绊脚石，在我们使用的如期的datepicker插件和使用上传附件的uploadify插件的时候，两者就产生冲突，只要点击过时间的插件，uploadify上传框要双才能打开ie浏览器提示错误Missinginstancedataforthisdatepicker解决方案//if(.browser.msie&&'9.0'===.browser.version
golang获取用户输入的几种方式余生逆风飞翔 golang 开发语言后端
一、定义结构体typeUserInfostruct{Namestring`json:"name"`Ageint`json:"age"`Addstring`json:"add"`}typeReturnDatastruct{Messagestring`json:"message"`Statusstring`json:"status"`DataUserInfo`json:"data"`}二、get请求的
详解“c:/work/src/components/a/b.vue“‘ has no default export报错原因 hw_happy 开发语言前端 vue.js javascript
前情提要在一个vue文件中需要引入定义的b.vue文件，但是提示b文件没有默认导出，对于vue2文件来说有exportdefault，在中，所有定义的变量、函数和组件都会自动被视为默认导出的组件内容。因此，不需要显式地使用exportdefault来导出组件。但是在我引用这个文件的时候还是提示了这个错误，原来是我的项目使用了ts和vite\webpack，因为TypeScript和Vue的默认导出
【Java】已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException 屿小夏 java 开发语言
文章目录一、分析问题背景问题背景描述出现问题的场景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException在使用Spring框架进行开发时，数据源的配置和使用是非常关键的一环。然而，有时候我们可能会遇到org.springframewo
SpringBoot和SpringMVC是什么关系?SpringBoot替代SpringMVC了吗? 瑞金彭于晏 spring boot 后端 java MVC spring 数据库
SpringBoot和SpringMVC都是SpringFramework生态系统中的一部分，但它们各自扮演着不同的角色和提供不同的功能集。理解它们之间的关系，首先需要了解SpringFramework本身。SpringFrameworkSpringFramework是一个全面的、开源的应用程序开发框架，它提供了广泛的功能来支持企业应用开发的几乎所有方面。SpringFramework的核心特性之
el-table实现全选整表，单元一页复选框功能周bro vue.js elementui javascript 前端
全选整表单选一页0":popper-append-to-body="false":total="tableData.length":page-size="pageObj.pagesize":page-sizes="[10,50,100]"layout="total,sizes,prev,pager,next"@size-change="handleSizeChange"@current-chang
Vue + Express实现一个表单提交九旬大爷的梦
最近在折腾一个cms系统，用的vue+express，但是就一个表单提交就弄了好久，记录一下。环境：Node10+前端：Vue服务端：Express依赖包：vueexpressaxiosexpress-formidableelement-ui（可选）前言：axiosget请求参数是：paramsaxiospost请求参数是：dataexpressget接受参数是req.queryexpresspo
Kubernetes部署MySQL数据持久化沫殇-MS Kubernetes MySQL数据库 kubernetes mysql 容器
一、安装配置NFS服务端1、安装nfs-kernel-server：sudoapt-yinstallnfs-kernel-server2、服务端创建共享目录#列出所有可用块设备的信息lsblk#格式化磁盘sudomkfs-text4/dev/sdb#创建一个目录：sudomkdir-p/data/nfs/mysql#更改目录权限：sudochown-Rnobody:nogroup/data/nfs
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
使用input[type=file]遇上的一些问题刘圣凯
项目遇到一个需要，如下image.png功能大致就是添加图片，展示出来，然后在用户点击提交的时候把图片传给后台，在和后台交涉之后，决定在用户选择图片之后转成formdata传给后台，后台返回一个url，提交的时候将url返回给后台/**转formdata*/varformdata=newFormData();formdata.append("file1",$("#pic")[0].files[0]
详解mybatis的一二级缓存以及缓存失效原因仰望天花板缓存数据库 mybatis java mysql
数据库的大部分场景下是从磁盘读取，如果数据从内存进行读取，速度较比磁盘要快得多。但因为内存的容量有限，所以一般只会把使用和查询较多的数据缓存起来，以便快速反应，其他使用率不太多的继续存放在磁盘。mybatis分为一级缓存和二级缓存1.一级缓存一级缓存存放在SqlSqeeion上，默认开启1.1pojo@DatapublicclassRole{privateLongid;privateStringr
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【C#生态园】深度剖析：C#嵌入式开发工具大揭秘 friklogff C#生态园 c#开发语言
C#嵌入式开发：全面了解六大框架与库前言随着物联网和嵌入式系统的快速发展，越来越多的开发者开始关注使用C#语言进行嵌入式开发。本文将介绍几种用于C#的嵌入式开发框架和相关库，以及它们的核心功能、安装配置方法和API概览，帮助读者了解并选择适合自己项目的工具和资源。欢迎订阅专栏：C#生态园文章目录C#嵌入式开发：全面了解六大框架与库前言1.nanoFramework：一个用于C#的嵌入式开发框架1.
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f