Xiao Miao

大数据：Flume和Sqoop

文章目录

Flume和Sqoop
- 一、Flume的功能与应用
- - 1.功能
  - 2.应用
- 二、Flume的基本组成
- 三、Flume的开发规则：
- 四、Flume开发测试
- 五、常用Source
- - 1.Exec
  - 2.Taildir
  - 3.其他source
- 六、常见Channel
- 七、常见Sink
- - 1.常用的Sink
  - 2.Flume架构和高级组件
- 八、Sqoop的功能和作用
- 九、Sqoop导入：HDFS
- 十、Sqoop导入：Hive
- 十一、Sqoop导入：增量导入
- 十二、Sqoop导出：全量导出
- 十三、Sqoop导出：增量导出
- 十四、Sqoop Job
- 十五、Sqoop密码问题与脚本封装

Flume和Sqoop

一、Flume的功能与应用

1.功能

数据采集：将数据从一个地方采集到另一个地方
将数据进行了复制
大数据的数据采集：将各种需要处理的数据源复制到大数据仓库中

实现：实时数据流的数据采集，可以将不同各种数据源的数据采集到各种目标地
数据源：文件、网络端口
Flume：实时
目标地：HDFS、Hbase、Hive、Kafka

特点：
功能全面
所有的读取和写入的程序，都已经封装好了
只需要配置从哪读，写入哪里，就要可以实现采集

允许自定义开发
如果功能不能满足实际的业务需求，Flume提供各种接口，允许自定义开发
基于Java开发的应用程序

开发相对简单
所有功能都封装好了，只要调用即可
写一个配置文件：从哪读，都谁，写到哪去

可以实现分布式采集
分布式采集：每一台机器都可以用Flume进行采集
注意：Flume不是分布式架构

2.应用

应用于实时数据流采集场景
基于文件或者网络协议端口的数据流采集

美团的Flume设计架构

二、Flume的基本组成

Agent：每个Agent就是一个Flume的程序，每个Agent由三部分组成：source、Channel、Sink

Source：负责读取数据，Source会动态监听数据源，将数据源新增的数据实时采集变成Event数据流，将每个Event发送到Channel中

每一条数据会变成一个Event
实时监听数据源

Channel：临时缓存数据，将source发送过来的event的数据缓存起来，供Sink取数据
内存、文件(磁盘)

Sink：负责发送数据，从Channel中读取采集到的数据，将数据写入目标地
sink主动到Channel中读取数据

Event：用于构建每一条数据的对象，每一条数据就会变成一个Event，进行传递，最终写入目标
组成

head：定义一些KV属性和配置，默认head时空的
body：数据存在body中
理解：

Event
Map head;
byte[] body; //每一条数据的字节流

三、Flume的开发规则：

step1：开发一个Flume的参数配置文件
properties格式的文件：

#step1:定义一个agent：agent的名称、定义source、channel、sink
#step2：定义source：读什么、读哪
#step3：定义channel：缓存在什么地方
#step4：定义sink：写入什么地方

step2：运行flume的agent程序

flume -ng
Usage:bin/flume-ng [options]...

为什么叫Flume-ng?

flume-og：老的版本，架构非常麻烦，性能非常差，后不用了
flume-ng：现在用的版本

flume-ng agent -c  -f  -n

agent:表示要运行一个Flume程序

-c ：指定Flume的配置文件目录
-f ：要运行那个文件
-n ：运行的agent的名字是什么

一个程序文件中可以有多个agent程序，通过名字来区别

四、Flume开发测试

需求：采集Hive的日志、临时缓存在内存中、将日志写入Flume的日志中并打印在命令中
source：采集一个文件数据

创建测试目录：

cd /export/server/flume-1.6.0-cdh5.14.0-bin
mkdir usercase

复制官方示例：

cp conf/flume-conf.properties.template usercase/hive-mem-log.properties

hive-mem-log.properties：采集hive的日志临时缓存在内存中最终打印在日志中

Exec Source

执行一条Linux的命令来实现采集
命令：搭配tail -f动态采集文件最新的内容

Chanel：Flume提供了各种channel应用缓存数据

memory channel将数据缓存在内存中


Sink：Flume提供很多sink
Logger Sink 日志类型的Sink

开发配置文件hive-mem-log.properties

# The configuration file needs to define the sources, 
# the channels and the sinks.
# Sources, channels and sinks are defined per a1, 
# in this case called 'a1'

#define the agent
a1.sources = s1
a1.channels = c1
a1.sinks = k1

#define the source
a1.sources.s1.type = exec
a1.sources.s1.command = tail -f /export/server/hive-1.1.0-cdh5.14.0/logs/hiveserver2.log


#define the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000

#define the sink
a1.sinks.k1.type = logger


#bond
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

运行

#1.切换到指定目录
cd /export/server/flume-1.6.0-cdh5.14.0-bin/
#2.运行agent程序
flume-ng agent -c conf/ -f usercase/hive-mem-log.properties -n a1 -Dflume.root.logger=INFO,console

-Dflume.root.logger=INFO,console：将flume的日志打印在命令行

结果：

五、常用Source

1.Exec

功能：通过执行一条Linux命令来实现数据量动态采集

固定搭配tail -F使用

应用场景：实现动态监听采集（单个文件)的数据

2.Taildir

功能：从Apache Flume1.7版本开始支持，动态监听采集多个文件

如果用的是1.5或者1.6，遇到这个问题，需要自己手动编译这个功能

测试实现
需求：让Flume动态监听一个文件和一个目录下的所有文件

准备

cd /export/server/flume-1.6.0-cdh5.14.0-bin
mkdir position
mkdir -p /export/data/flume
echo " " >> /export/data/flume/bigdata01.txt
mkdir  -p /export/data/flume/bigdata

开发

cp usercase/hive-mem-log.properties usercase/taildir-mem-log.properties

taildir-mem-log.properties

# define sourceName/channelName/sinkName for the agent 
a1.sources = s1
a1.channels = c1
a1.sinks = k1

# define the s1
a1.sources.s1.type = TAILDIR
#指定一个元数据记录文件
a1.sources.s1.positionFile = /export/server/flume-1.6.0-cdh5.14.0-bin/position/taildir_position.json
#将所有需要监控的数据源变成一个组，这个组内有两个数据源
a1.sources.s1.filegroups = f1 f2
#指定了f1是谁：监控一个文件
a1.sources.s1.filegroups.f1 = /export/data/flume/bigdata01.txt
#指定f1采集到的数据的header中包含一个KV对
a1.sources.s1.headers.f1.headerKey1 = value1
#指定f2是谁：监控一个目录下的所有文件
a1.sources.s1.filegroups.f2 = /export/data/flume/bigdata/.*
#指定f2采集到的数据的header中包含一个KV对
a1.sources.s1.headers.f2.headerKey1 = value2
a1.sources.s1.fileHeader = true 

# define the c1
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# def the k1
a1.sinks.k1.type = logger

#source、channel、sink bond
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

运行

flume-ng agent -c conf/ -f usercase/taildir-mem-log.properties -n a1 -Dflume.root.logger=INFO,console

元数据文件的功能：/export/server/flume-1.6.0-cdh5.14.0-bin/position/taildir_position.json

问题：如果Flume程序故障，重启Flume程序，已经被采集过的数据还要不要采集？
需求：不需要，不能导致数据重复

功能：记录Flume所监听的每个文件已经被采集的位置

[
{"inode":34599996,"pos":14,"file":"/export/data/flume/bigdata01.txt"},{"inode":67595704,"pos":19,"file":"/export/data/flume/bigdata/test01.txt"},{"inode":67805657,"pos":7,"file":"/export/data/flume/bigdata/test02.txt"}
]

3.其他source

Kafka Source：监听读取Kafka数据

Spooldir Source：监控一个目录，只要这个目录中产生一个文件，就会采集一个文件
缺点：不能动态监控文件，被采集的文件是不能发生变化的

六、常见Channel

mem Channel：将数据缓存在内存中

特点：读写快、容量小、安全性较差
应用：小数据量的高性能的传输

file Channel：将数据缓存在文件中

特点：读写相对慢、容量大、安全性较高
应用：数据量大，读写性能要求不高的场景下

常用属性

capacity：缓存大小：指定Channel中最多存储多少条event

transactionCapacity：每次传输的大小

每次source最多放多少个event和每次sink最多取多少个event
这个值一般为capacity的十分之一，不能超过capacity

七、常见Sink

1.常用的Sink

Kafka Sink
HDFS Sink

问题：为什么离线采集不直接写入Hive，使用Hive sink

原因1：很多场景下，需要对数据提前做一步ETL，将ETL以后的结果再入库
原因2：Hive Sink有严格的要求，表必须为桶表，文件类型必须为orc

解决：如果要实现将数据直接放入Hive表？

用HDFS sink代替Hive sink

HDFS Sink功能：将Flume采集的数据写入HDFS

问题：Flume作为HDFS客户端，写入HDFS数据

Flume必须知道HDFS地址
Flume必须拥有HDFS的jar包

解决

方式一：Flume写地址的时候，指定HDFS的绝对地址

hdfs://node1:8020/nginx/log

手动将需要的jar包放入Flume的lib目录下

方式二：在Flume中配置Hadoop的环境变量，将core-site和hdfs-site放入Flume的配置文件目录

需求：将Hive的日志动态采集写入HDFS

cp hive-mem-log.properties hive-mem-hdfs.properties

# The configuration file needs to define the sources, 
# the channels and the sinks.
# Sources, channels and sinks are defined per a1, 
# in this case called 'a1'


#定义当前的agent的名称，以及对应source、channel、sink的名字
a1.sources = s1
a1.channels = c1
a1.sinks = k1

#定义s1:从哪读数据，读谁
a1.sources.s1.type = exec
a1.sources.s1.command = tail -f /export/server/hive-1.1.0-cdh5.14.0/logs/hiveserver2.log 

#定义c1:缓存在什么地方
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000


#定义k1:将数据发送给谁
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://node1:8020/flume/test1


#s1将数据给哪个channel
a1.sources.s1.channels = c1
#k1从哪个channel中取数据
a1.sinks.k1.channel = c1

启动：

flume-ng agent -c conf/ -f usercase/hive-mem-hdfs.properties -n a1 -Dflume.root.logger=INFO,console

指定文件大小

问题：Flume默认写入HDFS上会产生很多小文件，都在1KB左右，不利用HDFS存储
解决：指定文件大小

hdfs.rollInterval	30			每隔多长时间产生一个文件，单位为s
hdfs.rollSize		1024		每个文件多大产生一个文件，字节
hdfs.rollCount		10			多少个event生成一个文件
如果不想使用某种规则，需要关闭，设置为0

 cp hive-mem-hdfs.properties hive-mem-size.properties

hive-mem-size.properties

# The configuration file needs to define the sources, 
# the channels and the sinks.
# Sources, channels and sinks are defined per a1, 
# in this case called 'a1'


#定义当前的agent的名称，以及对应source、channel、sink的名字
a1.sources = s1
a1.channels = c1
a1.sinks = k1

#定义s1:从哪读数据，读谁
a1.sources.s1.type = exec
a1.sources.s1.command = tail -f /export/server/hive-1.1.0-cdh5.14.0/logs/hiveserver2.log 

#定义c1:缓存在什么地方
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000


#定义k1:将数据发送给谁
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://node1:8020/flume/test2 
#指定按照时间生成文件，一般关闭
a1.sinks.k1.hdfs.rollInterval = 0
#指定文件大小生成文件，一般120 ~ 125M对应的字节数
a1.sinks.k1.hdfs.rollSize = 10240
#指定event个数生成文件，一般关闭
a1.sinks.k1.hdfs.rollCount = 0

#s1将数据给哪个channel
a1.sources.s1.channels = c1
#k1从哪个channel中取数据
a1.sinks.k1.channel = c1

指定分区

 cp hive-mem-hdfs.properties hive-mem-part.properties

运行：

flume-ng agent -c conf/ -f usercase/hive-mem-part.properties -n a1 -Dflume.root.logger=INFO,console

其他参数

#指定生成的文件的前缀
a1.sinks.k1.hdfs.filePrefix = nginx
#指定生成的文件的后缀
a1.sinks.k1.hdfs.fileSuffix = .log
#指定写入HDFS的文件的类型：普通的文件
a1.sinks.k1.hdfs.fileType = DataStream

2.Flume架构和高级组件

Flume架构

1.多Sink
- 一个agent可以有多个source、channel、sink
- 多个sink架构中，为了每个sink都有一份完整数据，每个sink必须对应一个独立的channel

a1.sources = s1
a1.channels = c1 c2
a1.sinks = k1 k2

2.Collect架构
- 两层Flume架构：如果大量并发直接写入HDFS，导致HDFS的IO负载比较高
- 第一层
  - source：taildir source
  - sink：avro sink
- 第二层
  - source：avro source
  - sink：HDFS sink

高级组件

Flume Channel Selectors

功能：用于决定source怎么将数据给channel
规则：默认：source默认将数据给每个channel一份
- Replicating Channel Selector (default)
- 选择：根据event头部的key值不同，给不同的channel
  - Multiplexing Channel Selector

a1.sources = r1
a1.channels = c1 c2 c3 c4
a1.sources.r1.selector.type = multiplexing
a1.sources.r1.selector.header = state
a1.sources.r1.selector.mapping.CZ = c1
a1.sources.r1.selector.mapping.US = c2 c3
a1.sources.r1.selector.default = c4

Flume Interceptors：拦截器

功能：可以给event的头部添加KV，还可以对数据进行过滤
提供
- 1.Timestamp Interceptor：自动在每个event头部添加一个KV
  - key：timestamp
  - value：event产生的时间

a1.sources = r1
a1.channels = c1
a1.sources.r1.channels =  c1
a1.sources.r1.type = seq
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type = timestamp

2.Host Interceptor：自动在每个event头部添加一个KV
- key：host
- value：这个event所在的机器的名称
3.Static Interceptor：自动在每个event头部添加一个KV
- KV由用户自己指定
4.Regex Filtering Interceptor：正则过滤拦截器，判断数据是否符合正则表达式，不符合就直接过滤，不采集

Sink processor

-  功能：实现collect架构中的高可用和负载均衡
- 高可用failover：两个sink，一个工作，一个不工作

a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2
a1.sinkgroups.g1.processor.type = failover
a1.sinkgroups.g1.processor.priority.k1 = 5
a1.sinkgroups.g1.processor.priority.k2 = 10
a1.sinkgroups.g1.processor.maxpenalty = 10000

priority：权重越大，就先工作
负载均衡load_balance：两个sink，一起工作

a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2
a1.sinkgroups.g1.processor.type = load_balance
a1.sinkgroups.g1.processor.selector = random

分配策略：round_robin，random
第一层必须有两个sink，作为一个整体，称为sink group

八、Sqoop的功能和作用

功能

用于实现MySQL等RDBMS数据库与HDFS之间的数据导入与导出
导入与导出：相对HDFS而言
导入：将MySQL的数据导入到HDFS
导出：将HDFS的数据导出到MySQL

本质

底层就是MapReduce程序（大多数都是三大阶段的MapReduce）
将Sqoop的程序转换成了MapReduce程序，提交给YARN运行，实现分布式采集
导入：MySQL -->> HDFS
- Input：DBInputFormat：读MySQL
- Output：TextOutputFormat：写HDFS
导出：HDFS -->> MySQL
- Input：TextInputFormat：读HDFS
- Output：DBOutputFormat：写MySQL
  特点
必须依赖于Hadoop：MapReduce + YARN
MapReduce是离线计算框架，Sqoop离线数据采集的工具，只能适合于离线业务平台

应用

数据同步：定期将离线的数据进行采集同步到数据仓库中
- 全量：每次都采集所有数据
- 增量：每次只采集最新的数据，大部分都是增量处理
数据迁移：将历史数据【MySQL、Oracle】存储到HDFS中
- 全量：第一次一定是全量的

测试

sqoop list-databases --connect jdbc:mysql://node3:3306 --username root --password 123456

九、Sqoop导入：HDFS

准备数据：

MySQL创建数据库

create database sqoopTest;
use sqoopTest;

MySQL创建数据表

CREATE TABLE `tb_tohdfs` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(100) NOT NULL,
  `age` int(11) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

MySQL插入数据

insert into tb_tohdfs values(null,"laoda",18);
insert into tb_tohdfs values(null,"laoer",19);
insert into tb_tohdfs values(null,"laosan",20);
insert into tb_tohdfs values(null,"laosi",21);

导入语法：

#查看sqoop import帮助
sqoop import --help

指定数据源：MySQL
- url
- username
- password
- table
指定目标地：HDFS
- 指定写入的位置

测试导入

需求1：将MySQL中tb_tohdfs表的数据导入HDFS的/sqoop/import/test01目录中

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test01

需求2：将tb_tohdfs表的id和name导入HDFS的/sqoop/import/test01目录，并且用制表符分隔

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--columns id,name \
--delete-target-dir  \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1

-m：指定MapTask的个数
–fields-terminated-by：用于指定输出的分隔符
–columns：指定导入哪些列
–delete-target-dir :提前删除输出目录
需求3：将tb_tohdfs表中的id >2的数据导入HDFS的/sqoop/import/test01目录中

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--where 'id > 2' \
--delete-target-dir  \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1

–where ：用于指定行的过滤条件
需求4：将tb_tohdfs表中的id>2的数据中id和name两列导入/sqoop/import/test01目录中
方案1

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--columns id,name \
--where 'id > 2' \
--delete-target-dir  \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1

方案2

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
-e 'select id,name from tb_tohdfs where id>2 and $CONDITIONS' \
--delete-target-dir  \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1

-e,–query ：使用SQL语句读取数据.只要使用SQL语句，必须在where子句中加上$CONDITIONS

十、Sqoop导入：Hive

准备数据

use default;
create table fromsqoop(
id int,
name string,
age int
);

1.直接导入

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--hive-import \
--hive-database default \
--hive-table fromsqoop \
--fields-terminated-by '\001' \
-m 1

–hive-import \：表示导入Hive表
–hive-database default \：表示指定导入哪个Hive的数据库
–hive-table fromsqoop \：表示指定导入哪个Hive的表
–fields-terminated-by ‘\001’ \：指定Hive表的分隔符，一定要与Hive表的分隔符一致

原理
step1：将MySQL的数据通过MapReduce先导入HDFS
step2：将HDFS上导入的这个文件通过load命令加载到了Hive表中
2.hcatalog导入

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--hcatalog-database default \
--hcatalog-table fromsqoop \
--fields-terminated-by '\001' \
-m 1

原理

step1：先获取Hive表的元数据
step2：将Hive表的目录直接作为MapReduce输出

十一、Sqoop导入：增量导入

增量需求

第一天：产生数据

+----+--------+-----+
|  1 | laoda  |  18 |
|  2 | laoer  |  19 |
|  3 | laosan |  20	|
|  4 | laosi  |  21 |
+----+--------+-----+

第二天的0点：采集昨天的数据

sqoop import --connect jdbc:mysql://node3:3306/sqoopTest --username root --password 123456 --table tb_tohdfs --target-dir /sqoop/import/test02 -m 1

第二天：产生新的数据

+----+--------+-----+
|  5 | laowu  |  22 |
|  6 | laoliu |  23 |
|  7 | laoqi  |  24 |
|  8 | laoba  |  25 |
+----+--------+-----+

第三天：采集昨天的数据

sqoop import --connect jdbc:mysql://node3:3306/sqoopTest --username root --password 123456 --table tb_tohdfs --target-dir /sqoop/import/test02 -m 1

每次导入都是所有的数据，每次都是全量采集，会造成数据重复

Sqoop中的两种增量方式

设计：用于对某一列值进行判断，只要大于上一次的值就会被导入
参数

Incremental import arguments:
   --check-column         Source column to check for incremental
                                  change
   --incremental     Define an incremental import of type
                                  'append' or 'lastmodified'
   --last-value            Last imported value in the incremental
                                  check column

–check-column ：按照哪一列进行增量导入
–last-value：用于指定上一次的值
–incremental：增量的方式
- append
- lastmodified

1.append

要求：必须有一列自增的值，按照自增的int值进行判断
特点：只能导入新增的数据，无法导入更新的数据
测试
- 第一次采集

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test02 \
--fields-terminated-by '\t' \
--check-column id \
--incremental append \
--last-value 1 \
-m 1

插入新的数据

insert into tb_tohdfs values(null,"laowu",22);
insert into tb_tohdfs values(null,"laoliu",23);
insert into tb_tohdfs values(null,"laoqi",24);
insert into tb_tohdfs values(null,"laoba",25);

第二次采集

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test02 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 4 \
-m 1

2.lastmodifield

要求：必须包含动态时间变化这一列，按照数据变化的时间进行判断
特点：既导入新增的数据也导入更新的数据
测试
- MySQL中创建测试数据

CREATE TABLE `tb_lastmode` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `word` varchar(200) NOT NULL,
  `lastmode` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP  ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

insert into tb_lastmode values(null,'hadoop',null);
insert into tb_lastmode values(null,'spark',null);
insert into tb_lastmode values(null,'hbase',null);

第一次采集

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_lastmode \
--target-dir /sqoop/import/test03 \
--fields-terminated-by '\t' \
--incremental lastmodified \
--check-column lastmode \
--last-value '2021-05-12 21:55:30' \
-m 1

数据发生变化

insert into tb_lastmode values(null,'hive',null);
update tb_lastmode set word = 'sqoop' where id = 1;

第二次采集

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_lastmode \
--target-dir /sqoop/import/test03 \
--fields-terminated-by '\t' \
--merge-key id \
--incremental lastmodified \
--check-column lastmode \
--last-value '2021-05-12 22:01:47' \
-m 1

–merge-key ：按照id进行合并

特殊方式

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
-e 'select id,name from tb_tohdfs where id > 12 and $CONDITIONS' \
--delete-target-dir \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1

要求：必须每次将最新导入的数据放到一个目录单独存储，不能相同

十二、Sqoop导出：全量导出

准备数据

MySQL中创建测试表

use sqoopTest;
CREATE TABLE `tb_url` (
  `id` int(11) NOT NULL,
  `url` varchar(200) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

Hive中创建表，并加载数据

vim /export/data/lateral.txt
1	http://facebook.com/path/p1.php?query=1
2	http://www.baidu.com/news/index.jsp?uuid=frank
3	http://www.jd.com/index?source=baidu

use default;
create table tb_url(
id int,
url string
) row format delimited fields terminated by '\t';

load data local inpath '/export/data/lateral.txt' into table tb_url;

全量导出

sqoop export \
--connect  jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_url \
--export-dir /user/hive/warehouse/tb_url \
--input-fields-terminated-by '\t' \
-m 1

–export-dir：指定导出的HDFS目录
–input-fields-terminated-by ：用于指定导出的HDFS文件的分隔符是什么

十三、Sqoop导出：增量导出

增量导出场景

Hive中有一张结果表：存储每天分析的结果

--第一天：10号处理9号
id		daystr			UV 			PV			IP
1		2020-11-09		1000		10000		500

insert into result
select id,daystr,uv,pv ,ip from datatable where daystr=昨天的日期
--第二天：11号处理10号
id		daystr			UV 			PV			IP
1		2020-11-09		1000		10000		500
2		2020-11-10		2000		20000		1000

MySQL：存储每一天的结果

1		2020-11-09		1000		10000		500

增量导出方式

updateonly：只增量导出更新的数据
allowerinsert：既导出更新的数据，也导出新增的数据

1.updateonly

修改lateral.txt数据

1	http://www.itcast.com/path/p1.php?query=1
2	http://www.baidu.com/news/index.jsp?uuid=frank
3	http://www.jd.com/index?source=baidu
4	http://www.heima.com

重新加载覆盖

load data local inpath '/export/data/lateral.txt' overwrite into table tb_url;

增量导出

sqoop export \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_url \
--export-dir /user/hive/warehouse/tb_url \
--input-fields-terminated-by '\t' \
--update-key id \
--update-mode updateonly \
-m 1;

2.allowerinsert

修改lateral.txt

1	http://bigdata.itcast.com/path/p1.php?query=1
2	http://www.baidu.com/news/index.jsp?uuid=frank
3	http://www.jd.com/index?source=baidu
4	http://www.heima.com

覆盖表中数据

load data local inpath '/export/data/lateral.txt' overwrite into table tb_url;

增量导出

sqoop export \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_url \
--export-dir /user/hive/warehouse/tb_url \
--input-fields-terminated-by '\t' \
--update-key id \
--update-mode allowinsert \
-m 1

十四、Sqoop Job

增量导入的问题
- 增量导入每次都要手动修改上次的值执行，怎么解决？

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test04 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 4 \
-m 1

Sqoop Job的使用

insert into tb_tohdfs values(null,'laojiu',26);
insert into tb_tohdfs values(null,'laoshi',27);

创建job

sqoop job --create job01 \
-- import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test04 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 8 \
-m 1

创建job，不会运行程序，只是在元数据中记录信息
列举job

sqoop job --list

查看job的信息

sqoop job --show jobName

运行job

sqoop job --exec jobName

删除job

sqoop job --delete jobName

运行job01

sqoop job --exec job01

插入新数据

insert into tb_tohdfs values(null,'laoshiyi',28);
insert into tb_tohdfs values(null,'laoshier',29);

运行job01

sqoop job --exec job01

十五、Sqoop密码问题与脚本封装

如何解决手动输入密码和密码明文问题？
- 1：在sqoop的sqoop-site.xml中配置将密码存储在客户端中
- 2：将密码存储在文件中，通过文件的权限来管理密码

sqoop job --create job02 \
-- import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password-file file:///export/data/sqoop.passwd \
--table tb_tohdfs \
--target-dir /sqoop/import/test05 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 4 \
-m 1

–password-file
读取的是HDFS文件，这个文件中只能有一行密码(通过notepad++编辑)

#mysql密码
123456

Sqoop封装脚本

如何封装Sqoop的代码到文件中？
- step1：将代码封装到一个文件中

vim /export/data/test.sqoop

import
--connect
jdbc:mysql://node3:3306/sqoopTest
--username 
root
--password-file 
file:///export/data/sqoop.passwd
--table 
tb_tohdfs
--target-dir 
/sqoop/import/test05
--fields-terminated-by 
'\t' 
-m 
1

要求：一行只放一个参数
- step2：运行这个文件

sqoop --options-file /export/data/test.sqoop

你可能感兴趣的:(大数据,flume,sqoop)

大数据学习(37)- Flink运行时架构 viperrrrrrr 学习 flink 大数据
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦1）作业管理器（JobManager）JobManager是一个Flink集群中任务管理和调度的核心，是控制应用执行的主进程。也就是说，每个应用都应该被唯一的JobManager所控制执行。JobManger又包含3个不同的组件。（1）JobMasterJobM
DolphinScheduler × Jiron：打造高效智能的数据调度新生态 jiron开源平台开发 flink 大数据 hadoop hive sqoop spring cloud sentinel
JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloudDolphinScheduler×Jiron：打造高效智能的数据调度新生态DolphinScheduler是一个开源的分布式任务调度平台，专为大数据场景下的工作流调度和数据治理而设计。将DolphinSchedule
一种时序数据模式演化的跟踪与查询方法米朵儿技术屋智能科学与技术专栏分类学习数据挖掘
摘要在物联网与大数据应用蓬勃发展的背景下，各类感知设备产生海量的时序数据，设备管理软件版本的快速迭代导致时序数据的模式演化问题日益凸显.模式演化要求对数据模式进行版本管理，使数据进行模式变更时不产生信息损失，且支持对数据跨模式版本进行读写操作.结合流行的时序数据库管理系统，调研总结了各类数据库管理系统对模式演化的支持情况，对时序数据及其模式进行了形式化表述，对其模式演化的过程进行了分析，设计了一种
FPGA在高速数据采集系统中的应用！！！ FPGA资料库 fpga开发 fpga verilog 物联网 stm32
FPGA（现场可编程门阵列）在高速数据采集系统中的应用非常广泛，主要得益于其并行处理能力、可编程性和高速接口特性。以下是FPGA在高速数据采集系统中的详细应用，以及一些具体例子：1.应用背景高速数据采集系统通常用于需要高采样率和大数据量处理的场合，如雷达信号处理、医疗成像、高速通信等。FPGA因其独特的硬件架构，能够有效处理高速数据流，因此在这些系统中扮演着关键角色。2.应用内容2.1数据采集接口
Mysql数据库和Sql语句 Jessica小戴数据库 mysql sql
数据库管理：sql语句：数据库用来增删改查的语句（重要）备份：数据库的数据进行备份主从复制、读写分离、高可用（重要）Mysql数据库和Sql语句一、Mysql数据库1、数据库：组织、存储、管理数据的仓库2、数据库的管理系统（DBMS）：实现对数据有效组织、管理和存取的系统软件3、数据库软件：mysql、oracle（大数据系统一般使用、大企业使用）、sql-server、MariaDB也是mysq
洞见数据未来，StarRocks Summit Asia 2024 即将启幕！人工智能data
在AI时代，我们需要怎样的数据基础软件？数据量和数据类型的需求飞速上涨，我们不仅需要将历史上各种基础设施中的数据进行分析使用，还要关注性能、灵活性、性价比，以及确保单一可信数据源。这一切构成了当前大数据领域的核心难题。今年12月，StarRocksSummitAsia重磅启动！作为年度数据盛会，我们将从用户、平台方、业务领袖和技术极客等不同视角展开交流，携手共建未来的数据解决方案。本届峰会，我们将
国产海光CPU平台兼容性指南-基础软件分册-20231013（附各系统下载链接）技术瘾君子1573 服务器&存储服务器兼容列表海光 CPU 云计算大数据操作系统
目录声明一、操作系统二、虚拟化和云2.1虚拟化和云2.2虚拟机上的操作系统2.2.1VMwarevSphere上的虚拟机操作系统2.2.2KVM上的虚拟机操作系统2.2.3WindowsHyper-V上的虚拟机操作系统2.2.4VirtualBox上的虚拟机操作系统三、分布式存储四、数据库五、中间件六、大数据七、平台组件7.1云平台7.2大数据平台7.3人工智能平台7.4科学与工程计算平台八、其它
数据驱动销售预测的未来：ScriptEcho赋能高效决策前端
在瞬息万变的商业环境中，准确的销售预测是企业制定有效销售策略、实现业绩增长的基石。传统的销售预测方法往往依赖于人工分析和复杂的电子表格，效率低下，难以应对市场变化的快速冲击。然而，随着大数据的兴起和人工智能技术的飞速发展，数据驱动决策正成为现代企业提升竞争力的关键。本文将探讨销售预测面临的挑战与机遇，并重点介绍ScriptEcho如何通过AI赋能，提升销售预测的准确性和效率，助力企业实现数据驱动增
flume系列之：flume落cos 快乐骑行^_^ 日常分享专栏 flume系列
flume系列之：flume落cos一、参考文章二、安装cosjar包三、添加hadoop-cos的相关配置四、flume环境添加hadoop类路径五、使用cos路径六、启动/重启flume一、参考文章Kafka数据通过Flume存储到HDFS或COSflumetocos使用指南二、安装cosjar包将对应hadoop版本的hadoop-cos的jar包(hadoop-cos-{hadoop.ve
Flume 简介01 作用核心概念事务机制安装配置入门实战湖中屋 Flume flume
Flume1.业务系统为什么会产生用户行为日志，怎么产生的用户行文日志：每一次访问的行为（访问、搜索）产生的日志记录用户行为日志的目的：1.商家会精准的给你呈现符合你的个人界面2.商家会给你个人添加用户标签，更加精准的分析埋点等2.flume用来做什么的（采集传输数据的，分布式的，可靠的）ApacheFlume是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来
minio免费文件管理器（windows版本），若依RuoYi-Vue-Plus框架使用，有需要的可以下载，因为官网下载特别慢程序员WANG 工具 windows vue.js 容器
MinIO是一款开源的对象存储系统，它提供类似AmazonS3的云存储服务，适用于各种规模的企业。MinIO设计为高性能、安全且易于使用，适合存储大量的非结构化数据，如图片、文档、视频以及大数据分析中的日志文件等。在本案例中，我们关注的是Windows版本的MinIO，它被集成到了若依RuoYi-Vue-Plus框架中，以实现文件管理功能。若依RuoYi-Vue-Plus是一个基于Vue.js的现
分布式系统理论基础二-CAP 王知无(import_bigdata)
GitHub：https://github.com/wangzhiwubigdata/God-Of-BigData关注公众号,内推,面试,资源下载,关注更多大数据技术~大数据成神之路~预计更新500+篇文章，已经更新50+篇~引言CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论，“什么是CAP定理？”在Quora分布式系统分类下排名FAQ的No.1。CAP在程序员中也有较广的普及，它不仅
大数据湖仓一体架构未来思考王知无(import_bigdata) 架构
湖仓一体架构是最近1-2年时间开始频繁出现在数据开发领域的新名词。也是各大公司竞相投入的对象。网络上关于湖仓一体架构的实践文章很多，看得也很眼花缭乱。我们今天站在一个「接地气」的角度，来说一说湖仓一体架构中未来需要关注的核心框架有哪些。文章内容也没有经过仔细的斟酌，完全是一点不成熟的想法，而且站的角度不是高屋建瓴的而是从下往上的。一个基本判断是湖仓一体架构在形式上不止一种大家可以从网上看到很多关于
大数据是什么？用浅显的语言揭开神秘面纱 Echo_Wish 大数据大数据单例模式
大数据是什么？用浅显的语言揭开神秘面纱在我们生活的时代，“大数据”已经从一个技术术语，成为了街头巷尾时常听到的词汇。然而，究竟什么是大数据？它离我们有多远？我们该如何理解这个复杂又常用的概念？作为一名深耕大数据领域的创作者，我希望用通俗易懂的语言，结合生活实例和代码，为大家揭开大数据的神秘面纱。一、大数据的定义：比“大”更重要的是“复杂性”从广义上讲，大数据指的是无法通过传统手段高效处理的数据集合
在 Python 中使用 Ollama API 一路追寻大模型 Python Ollama LLM linux python
在Python中使用OllamaAPI在本文中，我们将简单介绍如何在Python中使用OllamaAPI。无论你是想进行简单的聊天对话、使用流式响应处理大数据、还是希望在本地进行模型的创建、复制、删除等操作，本文都可以为你提供指导。此外，我们还展示了如何使用自定义客户端和异步编程来优化你的应用程序性能，环境准备在开始使用Python与OllamaAPI交互之前，请确保您的开发环境满足以下条件：Py
AI与API的融合：构建智能互联技术世界的基石 IT数据V+I7809804594 人工智能数据分析 python 爬虫大数据
在当今科技飞速发展的时代，人工智能（AI）与应用程序接口（API）的融合正在开启智能应用的新纪元。AI以其强大的数据处理和分析能力，正在改变各行各业的工作方式，而API则作为连接技术与应用的桥梁，为AI技术的普及和应用提供了无限可能。本文将深入探讨AI与API的融合如何推动智能应用的创新和发展，以及其在各个领域的应用和前景。一、AI与API融合的背景随着大数据、云计算、物联网等技术的快速发展，人工
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
2025最新大数据毕业设计选题汇总：创新课题推荐 HaiLang_IT 毕业设计选题大数据毕业设计 python
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
PL/SQL语言的文件操作云端架构师包罗万象 golang 开发语言后端
PL/SQL语言的文件操作引言PL/SQL（ProceduralLanguage/SQL）是Oracle数据库提供的一种过程化编程语言，它结合了SQL的强大数据处理能力和过程性编程的灵活性。PL/SQL不仅可以用于数据库的操作和处理用户输入的数据，还可以进行丰富的文件操作。随着数据量的增加和信息处理需求的提高，掌握PL/SQL中的文件操作技术，对于数据库管理员和开发人员而言，显得尤为重要。本文将对
大数据学习（五）：如何使用 Livy提交spark批量任务--转载 zuoseve01 livy
Livy是一个开源的REST接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令，启动livy服务器。./bin/livy-server这里假设spark使用yarn模式，所以所有文件路径都默认位于HDFS中。如果是本地开发模式的话，直接使用本地文件即可（注意必须配置livy.conf文件，设置livy.
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
大数据学习（四）：Livy的安装配置及pyspark的会话执行猪笨是念来过倒大数据 pyspark
一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能：提交Scala、Python或是R代码片段到远端的Spark集群上执行；提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行；提交批处理应用在集群中运行。从Livy所提供的基本功能可以看到Livy涵盖了原生Spar
网络爬虫——分布式爬虫架构好看资源分享网络爬虫 Python 爬虫分布式架构
分布式爬虫在现代大数据采集中是不可或缺的一部分。随着互联网信息量的爆炸性增长，单机爬虫在性能、效率和稳定性上都面临巨大的挑战。分布式爬虫通过任务分发、多节点协作以及结果整合，成为解决大规模数据抓取任务的核心手段。本节将从Scrapy框架的基本使用、Scrapy-Redis的分布式实现、分布式爬虫的优化策略等多个方面展开，结合实际案例，帮助开发者掌握分布式爬虫的设计与实现。1.Scrapy框架的核心
Python-玩转数据-数据分析之分析思维人猿宇宙数据分析 python big data
一、说明当下时代的社会生产发展，人们都开始习惯于用数据来说明某个观点和反映事物的内在规律或享用自动化和人工智能带来的便利。但这些轻松快捷的方便背后，都是相关工作者的专业流程作为源源不断的支撑。二、大数据思维自从几年前大数据开始兴起，大数据思维已经逐渐被更动的人接受，随着其进一步发展，产生了巨大的生产效果。三、数据驱动的生产力作为一个数据工程师，仅仅知道跑数据是不够的，还需要通过数据发现生产环节出现
火星数据电竞数据，世界杯数据接口api，足球数据资料库 Tina0898 数据分析
电竞数据包含的内容有很多，比如说基础数据（实时比分，关键事件，赛后数据等等），统计数据（阵容分析，选手分析，地图分析等），还有资料库数据（赛事战队，赛程赛果，赛况榜单等等），众多的数据组合而成形成如今的电竞大数据。在当今电竞世界中，电子竞技的大数据可以用在多个方面，从自身来说：可以用来分析自己的强势点，可以分析对手的弱点，从而运用更好的策略来战胜对手。通过电竞大数据也可以更好地了解游戏，了解当下游
构建高效GPU算力平台：挑战、策略与未来展望 Mr' 郑 gpu算力
引言随着深度学习、高性能计算和大数据分析等领域的快速发展，GPU（图形处理器）因其强大的并行计算能力和浮点运算速度而成为首选的计算平台。然而，随着模型规模的增长和技术的进步，构建高效稳定的GPU算力平台面临着新的挑战。本文旨在探讨这些挑战、应对策略以及对未来发展的展望。当前挑战算力分配与资源优化在多用户共享GPU集群的环境下，合理分配计算资源并确保每个任务能够高效运行是一项挑战。这不仅涉及到硬件资
Databricks:打造数据国度的“金砖四国” weixin_33832340 大数据
Databricks，一个并不算熟悉的名字，是大数据国度的后起之星。成立不够一年，但却阵容强大，创始人都是开源圈子里面的重要级人物，值得关注。从公司名Databricks似乎就能看出一些深意——data(数据)+bricks（金砖四国）。不知道，在数据国度里Databricks是否具有“金砖四国”的发展前景呢？可以先从公司的创始背景谈起，打开Databricks官网，“We'reworkingto
一文详解大厂数据中台架构 isNotNullX 架构大数据性能优化
在大数据发展的黄金期，几乎所有的高科技企业都在思考一个问题：海量数据作为大多数企业发展不可避免的一个趋势之后，企业该怎么去应用这部分数据资产，会对其商业产生什么影响，如何使数据对企业产生正面的推动而不是成为企业的负担。作为国内的主要大数据玩家，阿里在2015年提出了“大中台、小前台”的战略，奠定了其内部发展数据中台的基础。2018年因为“腾讯数据中台论”，中台再度成为了人们谈论的焦点。至此，关于“
大数据公司 Databricks 详解 Bj陈默大数据
Databricks是一家在大数据和人工智能领域具有重要影响力的美国企业软件公司，以下是关于它的详细技术解析：1.起源与背景：Databricks成立于2013年，由来自加州大学伯克利分校AMP实验室的Spark大数据处理系统的多位创始人联合创立，包括AliGhodsi、AndyKonwinski、IonStoica、PatrickWendell、ReynoldXin、MateiZaharia、A
hive小文件合并机制_hive小文件的问题弊端以及合并做生活的创作者 hive小文件合并机制
小文件的弊端1、HDFS中每个文件的元数据信息，包括位置大小分块信息等，都保存在NN内存中，在小文件数较多的情况下，会造成占用大量内存空间，导致NN性能下降；2、在读取小文件多的目录时，MR会产生更多map数，造成GC频繁，浪费集群资源；3、现在大数据平台文件总数超过30亿，单个NS文件数超过4亿的时候，读写性能会急剧下降，影响到所有读写该NS的任务性能；4、如果队列限制最大map数是20000，
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&