光于前裕于后

基于HDP使用Flume实时采集MySQL中数据传到Kafka+HDFS或Hive

环境版本： HDP-2.5.3
注意：HDP中Kafka broker的端口是6667，不是9092
如果只sink到kafka请看这篇：基于HDP使用Flume采集MySQL中数据传到Kafka

前言

有两种方式可以将数据通过flume导入hive中，一是直接sink到hive中，二是sink到hdfs中，然后在hive中建个外部表。直接sink到hive中相对麻烦一些，需要加入需要的jar包，而且hive表需要分桶、开启事务、保存为ORC格式。其实搞清楚了也不麻烦，但是本文中agent.sources.r1.type使用org.keedio.flume.source.SQLSource，传入的字段全变成了加上双引号的字符串，处理起来比较麻烦。所以我最终选用了sink到hdfs中，可以通过OpenCSVSerde去掉双引号。现给出了两种方案，各取所需吧。如有别的方式去掉双引号，欢迎下方留言。

文章目录

前言
1.将所需jar包放入Flume安装目录lib下
2.sink到hdfs

2.1 编写mysql_kafka_hdfs.conf
2.2 建外部表 OpenCSVSerde

3.sink到hive

3.1 编写mysql_kafka_hive.conf
3.2 建hive表

4.启动Flume agent

4.1 命令行启动
4.2 ambari中启动
4.3 ambari中停止

5.测试kafka消费topic里的消息
6.查看hdfs目录和hive表

6.1 hdfs
6.2 hive

备注：报错及解决办法

1.将所需jar包放入Flume安装目录lib下

下载地址：Flume采集MySQL数据所需jar包
libfb303-0.9.3.jar 不要用libfb303，不适用于hive1.x
除此之外，还有hive-hcatalog-streaming.jar、hive-metastore.jar、hive-exec.jar、hive-cli.jar、hive-hcatalog-core.jar，这些在/usr/hdp/2.5.3.0-37/hive/lib或/usr/hdp/2.5.3.0-37/hive-hcatalog/share/hcatalog下都可以找到，放入/usr/hdp/2.5.3.0-37/flume/lib/下即可。

[root@hqc-test-hdp3 kafka]# cd /usr/hdp/2.5.3.0-37/flume/lib/

2.sink到hdfs

2.1 编写mysql_kafka_hdfs.conf

一个source可以绑定多个channel，
一个sink只能绑定一个channel。
我开始只用了一个channel，发现两边都会少数据。

agent.sources = r1
agent.channels = c1 c2
agent.sinks = k1 k2

#### define source begin

## define sqlSource
agent.sources.r1.channels = c1 c2
agent.sources.r1.type = org.keedio.flume.source.SQLSource
agent.sources.r1.hibernate.connection.driver_class = com.mysql.jdbc.Driver
agent.sources.r1.hibernate.connection.url = jdbc:mysql://xxx:3306/hqc
agent.sources.r1.hibernate.connection.user = xxx
agent.sources.r1.hibernate.connection.password = xxx
agent.sources.r1.hibernate.connection.autocommit = true
agent.sources.r1.hibernate.dialect = org.hibernate.dialect.MySQL5Dialect
agent.sources.r1.run.query.delay = 5000

agent.sources.r1.table = K401_online

## source状态写入路径（必须存在且可写入）
agent.sources.r1.status.file.path = /data/flume-log/
agent.sources.r1.status.file.name = sqlsource.status

#### define sink begin

# define sink-k1-kafka
agent.sinks.k1.channel = c1
agent.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.k1.topic = k401
agent.sinks.k1.brokerList = hqc-test-hdp1:6667,hqc-test-hdp2:6667,hqc-test-hdp3:6667
agent.sinks.k1.requiredAcks = 1
agent.sinks.k1.batchSize = 20
agent.sinks.k1.producer.type = async

# define sink-k2-hdfs 
agent.sinks.k2.channel = c2
agent.sinks.k2.type = hdfs
agent.sinks.k2.hdfs.path = hdfs://hqc-test-hdp1:8020/apps/hive/warehouse/hqc.db/k401_online
agent.sinks.k2.hdfs.writeFormat=Text
# 积攒多少个Event才flush到HDFS一次
agent.sinks.k2.hdfs.batchSize = 100
# 设置文件类型，可支持压缩
agent.sinks.k2.hdfs.fileType = DataStream
# 多久生成一个新的文件，单位秒（1小时存一次）
agent.sinks.k2.hdfs.rollInterval = 3600
# 设置每个文件的滚动大小，设置为128M，单位是kb
agent.sinks.k2.hdfs.rollSize = 134217728
# 文件的滚动与Event数量无关 
agent.sinks.k2.hdfs.rollCount = 0
# 最小冗余数
# agent.sinks.k2.hdfs.minBlockReplicas = 1

#### define channel begin

## define channel-c1-memory
agent.channels.c1.type = memory
agent.channels.c1.capacity = 134217728
agent.channels.c1.transactionCapacity = 100

## define channel-c2-memory
agent.channels.c2.type = memory
agent.channels.c2.capacity = 134217728
agent.channels.c2.transactionCapacity = 100

2.2 建外部表 OpenCSVSerde

location要与上文中的agent.sinks.k2.hdfs.path对应
直接将双引号去掉 “43.72” => 43.72
分隔符：DEFAULT_SEPARATOR ,
引号符：DEFAULT_QUOTE_CHARACTER "
转义符：DEFAULT_ESCAPE_CHARACTER \

create external table k401_online(...)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
    "separatorChar" = ",",
    "quoteChar" = "\"",
    "escapeChar" = "\\"
)
STORED AS TEXTFILE
location '/apps/hive/warehouse/hqc.db/k401_online';

3.sink到hive

3.1 编写mysql_kafka_hive.conf

agent.sources = r1
agent.channels = c1 c2
agent.sinks = k1 k2

#### define source begin

## define sqlSource
agent.sources.r1.channels = c1 c2
agent.sources.r1.type = org.keedio.flume.source.SQLSource
agent.sources.r1.hibernate.connection.driver_class = com.mysql.jdbc.Driver
agent.sources.r1.hibernate.connection.url = jdbc:mysql://xx:3306/hqc
agent.sources.r1.hibernate.connection.user = xx
agent.sources.r1.hibernate.connection.password = xx
agent.sources.r1.hibernate.connection.autocommit = true
agent.sources.r1.hibernate.dialect = org.hibernate.dialect.MySQL5Dialect
agent.sources.r1.run.query.delay = 5000

agent.sources.r1.table = K401_online

## source状态写入路径（必须存在且可写入）
agent.sources.r1.status.file.path = /data/flume-log/
agent.sources.r1.status.file.name = sqlsource.status

#### define sink begin

# define sink-k1-kafka
agent.sinks.k1.channel = c1
agent.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.k1.topic = k401
agent.sinks.k1.brokerList = hqc-test-hdp1:6667,hqc-test-hdp2:6667,hqc-test-hdp3:6667
agent.sinks.k1.requiredAcks = 1
agent.sinks.k1.batchSize = 20
agent.sinks.k1.producer.type = async

#define sink-k2-hive
agent.sinks.k2.channel = c2
agent.sinks.k2.type = hive
agent.sinks.k2.hive.metastore = thrift://hqc-test-hdp1:9083
agent.sinks.k2.hive.database = hqc
agent.sinks.k2.hive.table = k401_online
# hive表若没有设置分区，下面需注释
# agent.sinks.k2.hive.partition = %y-%m-%d
agent.sinks.k2.useLocalTimeStamp = false
agent.sinks.k2.serializer = DELIMITED
# 输入用双引号标注分隔符
agent.sinks.k2.serializer.delimiter = ","
# 输出用单引号标注分隔符
agent.sinks.k2.serializer.serdeSeparator = ','
# 字段名称与hive表字段对应，全为小写
agent.sinks.k2.serializer.fieldnames = ...

#### define channel begin

## define channel-c1-memory
agent.channels.c1.type = memory
agent.channels.c1.capacity = 134217728
agent.channels.c1.transactionCapacity = 100

## define channel-c2-memory
agent.channels.c2.type = memory
agent.channels.c2.capacity = 134217728
agent.channels.c2.transactionCapacity = 100

3.2 建hive表

create table k401_online(datatime string, ... 必须全是string类型)
# partitioned by (dt string) 可以不分区，flume配置文件中要与之对应
clustered by (datatime) into 2 buckets 
row format delimited fields terminated by ','
stored as orc tblproperties  ('transactional'='true');

还要开启事务，不然报错

hive> select * from k401_online limit 10;
FAILED: SemanticException [Error 10265]: This command is not allowed on an ACID table hqc.k401_online with a non-ACID transaction manager. Failed command: null
hive> set hive.support.concurrency=true;
hive> set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;
hive> select * from k401_online limit 10;
OK
Time taken: 0.411 seconds

4.启动Flume agent

4.1 命令行启动

使用hdfs用户命令行启动

[root@hqc-test-hdp3 ~]# su hdfs
[hdfs@hqc-test-hdp3 root]$ cd
[hdfs@hqc-test-hdp3 ~]$ ls
mysql_kafka_hive.conf
[hdfs@hqc-test-hdp3 ~]$ flume-ng agent --conf conf --conf-file ./mysql_kafka_hdfs.conf --name agent -Dflume.root.logger=INFO,console

4.2 ambari中启动

或修改agent.sinks.k2.hdfs.path配置目录的权限（只给flume用户赋予权限也可）

[hdfs@hqc-test-hdp3 flume-log]$ hdfs dfs -chmod 777 /apps/hive/warehouse/hqc.db/k401_online

然后登录ambari，在界面配置

保存后重启flume即可启动

4.3 ambari中停止

5.测试kafka消费topic里的消息

[root@hqc-test-hdp1 kafka]# bin/kafka-console-consumer.sh --zookeeper hqc-test-hdp1:2181,hqc-test-hdp2:2181,hqc-test-hdp3:2181 --topic k401
{metadata.broker.list=hqc-test-hdp2:6667,hqc-test-hdp1:6667,hqc-test-hdp3:6667, request.timeout.ms=30000, client.id=console-consumer-810, security.protocol=PLAINTEXT}
"59397","2019-11-05 14:28:34.0","43.13187026977539","82.41758728027344","75.96153259277344","68.13186645507812","69.0018310546875","67.71977996826172","9.779629707336426","36.624576568603516","48.009578704833984","9.934499740600586","19.273277282714844","31.403581619262695","14.164774894714355","13.624568939208984","33.859535217285156","13.033035278320312","30.72835922241211","68.95604705810547","31.4886417388916","12.381695747375488","21.886232376098633","53.754581451416016","70.0091552734375","79.71611785888672","62.17948913574219","45.100730895996094","78.15933990478516","52.884613037109375","65.33882904052734","50.732601165771484","30.14316177368164","0.06600084601562406","57.82966995239258","0.1385324753498427","10.330347061157227","11.46349048614502","69.23076629638672","0.23454403106687838","38.453250885009766","62.31684875488281","0.31968492282781524"
"59398","2019-11-05 14:28:40.0","43.13187026977539","82.41758728027344","76.00733184814453","68.26922607421875","69.18498229980469","67.67399597167969","10.515767097473145","35.46472930908203","47.79638671875","9.906632423400879","20.73094940185547","31.90235710144043","15.004719734191895","13.935589790344238","34.49615478515625","13.863764762878418","30.953277587890625","69.0018310546875","32.68650817871094","13.695724487304688","22.305086135864258","53.754581451416016","69.96337127685547","79.53296661376953","62.27106475830078","45.100730895996094","78.15933990478516","52.79304122924805","65.15567779541016","50.86996078491211","30.627979278564453","0.06930961997635299","58.333335876464844","0.14214391705876928","11.65231990814209","11.63076114654541","69.13919067382812","0.23414736284558613","38.44184875488281","62.408424377441406","0.32020119207452813"

6.查看hdfs目录和hive表

6.1 hdfs

每小时（3600秒）生成一个文件，flume中设置的。

（前三个是命令行启动，所属用户和组都是hdfs，后三个是ambari中启动，所属用户是flume，与ambari登录用户无关）
因为MySQL中每6秒插入一条数据，hdfs也是每6秒插入一次，一小时600条。
可以看到，FlumeData.xxx.tmp每6秒插入一条数据，一小时后就将FlumeData.xxx.tmp的后缀.tmp去掉，生成完整的文件。

[hdfs@hqc-test-hdp3 flume-log]$ hdfs dfs -cat /apps/hive/warehouse/hqc.db/k401_online/FlumeData.1572931143008 | wc -l
600
[hdfs@hqc-test-hdp3 flume-log]$ hdfs dfs -cat /apps/hive/warehouse/hqc.db/k401_online/FlumeData.1572934744154.tmp | wc -l
141
[hdfs@hqc-test-hdp3 flume-log]$ hdfs dfs -cat /apps/hive/warehouse/hqc.db/k401_online/FlumeData.1572934744154.tmp | wc -l
142

6.2 hive

hive> use hqc;
OK
Time taken: 0.025 seconds
hive> show tables;
OK
k401_online
view_eventdiftime
view_thing
Time taken: 0.026 seconds, Fetched: 3 row(s)
hive> select * from k401_online limit 1;
OK
59499 2019-11-06 10:36:34.0	42.857	82.234	75.412	67.811	68.91	66.667	10.818	38.453	50.965	9.313	21.151	33.681	15.618	14.456	36.052	13.142	29.591	68.956	31.872	13.217	22.577	53.571	69.872	79.396	62.546	44.643	78.022	52.427	65.201	50.275	31.400.073	57.967	0.138	11.935	13.213	67.903	0.243	39.59	61.264	0.327
Time taken: 0.059 seconds, Fetched: 1 row(s)
hive> select count(*) from k401_online;
Query ID = hdfs_20191105143847_ee94a2fa-7a9b-4942-882c-aaab92c6ac2f
Total jobs = 1
Launching Job 1 out of 1
Tez session was closed. Reopening...
Session re-established.


Status: Running (Executing on YARN cluster with App id application_1564035532438_0032)

--------------------------------------------------------------------------------
        VERTICES      STATUS  TOTAL  COMPLETED  RUNNING  PENDING  FAILED  KILLED
--------------------------------------------------------------------------------
Map 1 ..........   SUCCEEDED      1          1        0        0       0       0
Reducer 2 ......   SUCCEEDED      1          1        0        0       0       0
--------------------------------------------------------------------------------
VERTICES: 02/02  [==========================>>] 100%  ELAPSED TIME: 7.75 s     
--------------------------------------------------------------------------------
OK
1212

备注：报错及解决办法

1
19/11/04 15:55:03 ERROR hdfs.HDFSEventSink: process failed
org.apache.flume.ChannelException: Take list for MemoryTransaction, capacity 100 full, consider committing more frequently, increasing capacity, or increasing thread count
https://www.cnblogs.com/dongqingswt/p/5070776.html
调大 agent.channels.c1.capacity = 134217728
2
flume采集数据报错内存溢出：java.lang.OutOfMemoryError: GC overhead limit exceeded
进入flume bin目录下，修改flume-ng文件，改成10G
[root@hqc-test-hdp3 ~]# cd /usr/hdp/2.5.3.0-37/flume/
[root@hqc-test-hdp3 flume]# ls
bin conf docs lib tools
[root@hqc-test-hdp3 flume]# cd bin/
[root@hqc-test-hdp3 bin]# ls
flume-ng flume-ng.distro
[root@hqc-test-hdp3 bin]# vim flume-ng
[root@hqc-test-hdp3 bin]# vim flume-ng.distro
JAVA_OPTS="-Xmx10240m"
3
19/11/04 09:45:54 ERROR node.PollingPropertiesFileConfigurationProvider: Failed to start agent because dependencies were not found in classpath. Error follows.
java.lang.NoClassDefFoundError: org/apache/hive/hcatalog/streaming/RecordWriter
将hive-hcatalog-streaming.jar 拷贝到 FLUME_HOME/lib/ 下
[root@hqc-test-hdp3 hcatalog]# ls
hive-hcatalog-core-1.2.1000.2.5.3.0-37.jar hive-hcatalog-pig-adapter-1.2.1000.2.5.3.0-37.jar hive-hcatalog-server-extensions-1.2.1000.2.5.3.0-37.jar hive-hcatalog-streaming-1.2.1000.2.5.3.0-37.jar
hive-hcatalog-core.jar hive-hcatalog-pig-adapter.jar hive-hcatalog-server-extensions.jar hive-hcatalog-streaming.jar
[root@hqc-test-hdp3 hcatalog]# pwd
/usr/hdp/2.5.3.0-37/hive-hcatalog/share/hcatalog
[root@hqc-test-hdp3 hcatalog]# cp hive-hcatalog-streaming.jar /usr/hdp/2.5.3.0-37/flume/lib/
4
Caused by: java.lang.RuntimeException: java.util.concurrent.ExecutionException: java.lang.NoClassDefFoundError: org/apache/hadoop/hive/metastore/api/MetaException
[root@hqc-test-hdp3 lib]# cp hive-metastore.jar /usr/hdp/2.5.3.0-37/flume/lib/
[root@hqc-test-hdp3 lib]# pwd
/usr/hdp/2.5.3.0-37/hive/lib
5
Caused by: java.lang.NoClassDefFoundError: org/apache/hadoop/hive/ql/session/SessionState
[root@hqc-test-hdp3 lib]# cp hive-exec.jar /usr/hdp/2.5.3.0-37/flume/lib/
6
Caused by: java.lang.NoClassDefFoundError: org/apache/hadoop/hive/cli/CliSessionState
[root@hqc-test-hdp3 lib]# cp hive-cli.jar /usr/hdp/2.5.3.0-37/flume/lib/
7
Caused by: java.lang.ClassNotFoundException: org.apache.hive.hcatalog.common.HCatUtil
[root@hqc-test-hdp3 hcatalog]# cp hive-hcatalog-core.jar /usr/hdp/2.5.3.0-37/flume/lib/
[root@hqc-test-hdp3 hcatalog]# pwd
/usr/hdp/2.5.3.0-37/hive-hcatalog/share/hcatalog
8
Caused by: java.lang.ClassNotFoundException: com.facebook.fb303.FacebookServiceIface
下载libfb303-0.9.3.jar放在 FLUME_HOME/lib/ 下，不要用libfb303，下载地址：lib303-0.9.3.jar
9
Caused by: org.apache.flume.sink.hive.HiveWriter$ConnectFailure: Failed connecting to EndPoint {metaStoreUri=‘thrift://xxx:9083’, database=‘hqc’, table=‘k401_online’, partitionVals=[19-11-04] }
at org.apache.flume.sink.hive.HiveWriter.newConnection(HiveWriter.java:384)
at org.apache.flume.sink.hive.HiveWriter.(HiveWriter.java:92)
… 6 more
hive建表需分桶，存为orc，如果The hive table is partioned , bucketed and stored as ORC format.
那你应该往下看日志，真正的错误在后面
10
Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.hive.metastore.api.ThriftHiveMetastoreClient.sendBase(Ljava/lang/String;Lorg/apache/thrift/TBase;)V
下载libfb303-0.9.3.jar放在 $FLUME_HOME/lib/ 下，替换libfb303
下载地址：lib303-0.9.3.jar
https://stackoverflow.com/questions/17739020/hive-jdbc-thrifthiveclient-sendbase

MySQL-练习-数据汇总-CASE WHEN 赛丽曼 MySQL mysql 数据库
文章目录一.数据介绍二.数据汇总三.使用CASEWHEN和GROUPBY将数据分组1.使用CASEWHEN自定义分组练习15练习162.CASEWHEN中ELSE的使用练习17练习18练习193.在GROUPBY中使用CASEWHEN练习20练习214.CASEWHEN和COUNT练习22练习235.GROUPBY和CASEWHEN组合使用练习246.SUM中使用CASEWHEN练习257.SUM
mysql 创建外键约束冷风呀. mysql 数据库 sql
前言如果一张表中有一个非主键的字段指向了另一张表中的主键，就将该字段叫做外键。一张表中外键可以有多个，也就是不同字段指向了不同表中的主键。方式1-在创建表时设置外键约束[constraint]foreignkey字段名[，字段名2，…]references主键列1[，主键列2，…]createdatabasemydb3;//创建数据库usemydb3;//使用数据库--创建部门表createtab
mysql内外三种连接,MySQL内连接和外连接 LiuYanagi mysql内外三种连接
INNERJOIN(内连接,或等值连接)：获取两个表中字段匹配关系的记录。LEFTJOIN(左连接)：获取左表所有记录，即使右表没有对应匹配的记录。RIGHTJOIN(右连接)：与LEFTJOIN相反，用于获取右表所有记录，即使左表没有对应匹配的记录。MySQL内连接(innerjoinon)MySQL的内连接使用innerjoinon,它的效果跟使用where是一样的,如果联结的是两个表,那么需
3章mysql表连接查询_mysql学习笔记（六）--- 多表查询之外键、表连接、子查询、索引... kindle电子书单 3章mysql表连接查询
本章主要内容：一、外键二、表连接三、子查询四、索引一、外键：1、什么是外键2、外键语法3、外键的条件4、添加外键5、删除外键1、什么是外键：主键：是唯一标识一条记录，不能有重复的，不允许为空，用来保证数据完整性外键：是另一表的主键,外键可以有重复的,可以是空值，用来和其他表建立联系用的。所以说，如果谈到了外键，一定是至少涉及到两张表。例如下面这两张表：上面有两张表：部门表(dept)、员工表(em
MySQL学习笔记（8）--连接查询绿皮豚二号 MySQL mysql 数据库
·概念将多张表连在一起查询（会导致记录数行和字段数列发生改变）意义：在关系型数据库设计过程中，实体与实体之间是存在很多联系的。在关系型数据库表的设计过程中，遵循着关系来设计：一对一，一对多，多对多。通常在实际操作中，需要利用这层关系来保证数据的完整性。·交叉连接将两张表的数据与另外一张表彼此交叉（笛卡尔积）表1crossjoin表2--实例select*frommy_studentcrossjoi
数据库存储过程和QT数据库访问并获取返回值的几种方式沐雨潇竹 QT技术数据库 qt oracle
数据库存储过程和QT数据库访问并获取返回值的几种方式前言说明:在Qt中使用QSqlQuery执行存储过程时，如果存储过程有RETURN值，但执行成功后没有返回任何结果，这通常是因为存储过程的RETURN值并不会像SELECT查询那样作为数据集返回。存储过程中的RETURN语句只是返回一个整数值，而不是一个查询结果集，因此不会被QSqlQuery直接捕获到结果集中。在SQLServer或MySQL等
MySQL函数程序研 mysql 数据库
MySQL函数概述MySQL提供了大量的内置函数，这些函数可以分为以下几类：字符串函数：用于操作字符串，如连接、查找、替换等。数值函数：用于进行数学运算，如取整、求绝对值、随机数等。日期和时间函数：用于处理日期和时间，如获取当前日期、时间差、格式化日期等。聚合函数：用于对一组值进行计算并返回单个值，如求和、平均值、最大值等。条件函数：用于根据条件返回不同的值，如IF、CASE等。加密函数：用于加密
mysql之表的约束完整性程序研 mysql mysql
MySQL表的完整性约束详细介绍在数据库设计中，确保数据的准确性和一致性至关重要。MySQL通过完整性约束机制帮助实现这一目标，防止存储不正确或不一致的数据。本文将详细介绍MySQL中常见的完整性约束，包括NotNull约束、Unique约束、PrimaryKey约束、ForeignKey约束和Check约束，并通过具体的代码例子进行说明。1.NotNull约束NotNull约束确保列中不能存储N
Mysql之多表查询（几种连接方式）知识进脑的肖老千啊 sql mysql 数据库 sql
Mysql之多表查询（随手记录学习笔记）我们先建立两个表，并向表中插入数据（方便我们等会实验）：#建表createtabledepartment(idint,namevarchar(20));createtableemployee(idintprimarykeyauto_increment,namevarchar(20),sexenum('male','female')notnulldefault
洋酒销售系统的设计与实现 clover926 java毕设资料 java基础 redis
源码及论文下载：源码及论文下载：http://www.byamd.xyz/tag/java/摘要随着洋酒与中国市场的相互适应以及电子商务和网上商店的普及，洋酒类商品的网上展示与订购逐渐成为主流，如今洋酒不仅仅是贵族身份的象征，也渐渐进入了寻常百姓家。网上商店的技术实现同时也成为了一个比较常见的课题。本文就网上商店的实现做了一些研究。此设计主要采用JSP开发技术和mysql数据库技术来开发，根据实际
基于MRS-Hudi构建数据湖的典型应用场景介绍华为云技术精粹云计算华为云
一、传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案不支持事务，有可能会读到未写完成的数据，造成数据统计错误。为了规避该问题，通常控制读写任务顺序调用，在保证写
Prometheus + MySQL Exporter + Grafana 配置指南洒家不吃香菜 prometheus mysql grafana docker 数据分析
Prometheus+MySQLExporter+Grafana配置指南本指南介绍如何使用DockerCompose来部署Prometheus、MySQLExporter和Grafana，以实现对MySQL数据库的监控与可视化展示。1.创建MySQL用户并授予权限首先，登录MySQL数据库，使用root用户创建一个新的exporter用户，并赋予其必要的权限。该用户将用于MySQLExporter
MySQL中的外键约束及级联删除 DfsnVue mysql 数据库
外键约束是关系型数据库中的一项重要功能，它能够维护表之间的关联关系，并保证数据的完整性。MySQL是一种常用的关系型数据库管理系统，它也支持外键约束以及级联删除。外键约束是指在一个表中的一个或多个字段引用了另一个表中的字段，用于建立两个表之间的关联关系。当定义了外键约束后，MySQL将确保在进行数据操作时，被引用的表中的数据始终存在，并且不会被意外删除或修改。级联删除是外键约束的一种行为，它指的是
Mysql外键约束与关联表操作 likepandas 数据库 mysql
一、外键约束MySQL的外键约束是一种用于维护数据完整性和参照完整性的机制。它通过在一个表中定义一个或多个字段，引用另一个表的主键，确保数据之间的关系是有效的。外键约束可以防止插入无效的数据，并在数据表之间建立联系。以下是关于MySQL外键约束的详细信息：外键的作用确保数据完整性：外键约束确保引用的记录在主表中存在，防止孤立记录的产生。维护参照完整性：通过外键，数据库可以自动管理表之间的关系，确保
MySQL、HBase 和 Elasticsearch：特点与区别详解一休哥助手 mysql hbase elasticsearch
引言随着大数据和分布式计算的快速发展，数据库系统已从传统的关系型数据库（RDBMS）扩展到多种新型数据存储技术，包括NoSQL数据库和搜索引擎等。MySQL、HBase和Elasticsearch是其中三种非常常见的数据存储系统，它们在各自的领域都有着重要的应用。MySQL作为传统的关系型数据库，HBase则是一个分布式、可扩展的NoSQL数据库，而Elasticsearch则是一个分布式的搜索引
mysql8.0结构_MySQL8.0-目录结构,配置文件 weixin_39537977 mysql8.0结构
server-id=1表示是本机的序号为1,一般来讲就是master的意思skip-name-resolve禁止MySQL对外部连接进行DNS解析，使用这一选项可以消除MySQL进行DNS解析的时间。但需要注意，如果开启该选项，则所有远程主机连接授权都要使用IP地址方式，否则MySQL将无法正常处理连接请求skip-networkingback_log=600MySQL能有的连接数量。当主要MyS
MySQL 基本架构概览 happyJared
下图是MySQL的一个简要架构图，从下图可以清晰的看到SQL语句在MySQL内部是如何执行的。先简单介绍下图涉及的一些组件的基本作用，后面还会详细介绍到这些组件的作用。连接器：身份认证和权限相关(登录MySQL的时候)查询缓存:执行查询语句的时候，会先查询缓存（MySQL8.0版本后移除，因为这个功能不太实用）分析器:没有命中缓存的话，SQL语句就会经过分析器，分析器说白了，就是要先看你的SQL语
使用Oracle创建外部表与MySQL的集成 ZaxfSass oracle mysql 数据库
在Oracle数据库中，外部表是一种特殊的表，它允许你在数据库中访问和查询外部数据源的数据。在本文中，我们将探讨如何使用Oracle创建外部表与MySQL数据库进行集成。步骤1：创建数据库链接在Oracle中，需要创建一个数据库链接来连接到MySQL数据库。以下是创建数据库链接的示例代码：CREATEDATABASELINKmysql_linkCONNECTTOmysql_usernameIDEN
svm python 模型绘图_1SVM处理数据并绘图张炜大师傅 svm python 模型绘图
爬虫Python基础、数据分析扩展包Numpy、pandas、matplotlib，Python读取MySQL数据，Python爬虫及Scrapy框架，无监督机器学习算法聚类分析等，以及案例：互联网金融行业客户价值分析等。机器学习机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有
Mysql数据库索引阿乾之铭 MySQL Spring Data JPA 数据库 mysql
SpringDataJPA建立索引所使用的语法@Entity@Table(name="user",indexes={@Index(name="idx_user_username",columnList="username"),@Index(name="idx_user_email_status",columnList="email,status")},uniqueConstraints={@Uni
MySQL中的嵌套查询阿乾之铭 MySQL 数据库 sql mysql
1.嵌套查询的定义嵌套查询指在一个查询语句的某个部分嵌入一个子查询。嵌套查询的执行过程遵循“先子查询、后外层查询”的逻辑。首先，子查询执行并返回一个结果集，可能是一个值、一行或多行数据。接着，外层查询使用子查询的结果继续对数据进行筛选或处理。通过这种方式，嵌套查询可以处理更复杂的逻辑，如多层条件过滤、数据对比等。子查询：首先执行，返回符合条件的结果。外层查询：利用子查询返回的结果进行筛选或其他逻辑
阿里异构离线数据同步工具/平台DataX boonya #开源观察 #数据迁移 #Datax big data hbase 数据库
目录DataX商业版本FeaturesDataX详细介绍QuickStartSupportDataChannels阿里云DataWorks数据集成我要开发新的插件项目成员Licensehttps://github.com/alibaba/DataXDataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle
hvie SQL优化之where子句过滤模式三生暮雨渡瀟瀟 hive调优 hive
本篇文章来源于《Hive性能调优实现》。在HiveSQL里面经常用到的过滤方法就是使用where子句，例如：explainselect*fromstudent_tb_seqwheres_age=19ands_namelike'%红%'ands_scorein(100,50,22);where子句在执行计划中以filter操作表示，代码如下：STAGEPLANS:Stage:Stage-1MapRe
git 常用命令 git archive 张紫娃 GIT git
gitarchive是Git中用于创建一个包含指定提交或分支中所有文件的归档文件（如.tar或.zip）的命令。这个命令非常适合用于分发项目快照、备份代码库或导出特定版本的文件。gitarchive--format=zip--output=project.zipHEAD创建整个项目的.zip归档gitarchive--format=zip--output=project.zipHEAD-v-v查看
PHP简单项目案例（改进版）小邱同志~ PHP php web 程序设计 mysql 数据库
最近开学php，下午闲着没事干，想着做个小项目练练手，也就是用php写个网页，对数据库里的东西实现增删改查，下面给大家分享一下，由于本人的业务能力尚浅，大家有啥建议我很欢迎哦！简单效果：1.打开网页呈现数据库数据：2.删除功能，添加信息功能。3.信息修改功能（带数据进页面）下面便是源码：数据库文件：（数据库名：dataphp表名：student）/*SQLyog企业版-MySQLGUIv8.14M
SQL语言中的查询语句整理唐僧洗头爱飘柔9527 sql mysql 数据库
1、查询语句的介绍：本篇主要介绍sql语句里的查询语句，这其中包括了查询语句中的子内容，也就是拓展的内容，这些内容代入到查询语句中将会有更多的反应。2、查询语句：FROM命令：SELECT字段1,字段2,字段3FROM表文件名执行顺序：mysql共有7个查询命令，FROM命令永远是第一个执行的查询命令执行作用：FROM命令相当于一个读取流，分则将硬盘上表文件加载到内存中生成一个【临时表】供后续查询
【Springboot】——响应与分层解耦架构 Y小夜架构 spring boot 后端 java spring
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，设计模式、Python机器学习、Springboot等主页链接：Y小夜-CSDN博客目录响应响应数据✨@ResponseBody✨G
微信小程序交易平台/基于微信小程序的购物系统/基于微信小程序的电商平台/基于微信小程序的商品销售系统一枚小小程序员哈微信小程序小程序
摘要随着当今网络的发展，时代的进步，各行各业也在发生着变化，于是网络已经逐步进入人们的生活，给我们生活或者工作提供了新的方向新的可能。本毕业设计的内容是设计实现一个微信小程序交易平台。使用微信开发者是以java语言进行开发，MYSQL为数据库开发平台，Tomcat网络信息服务作为应用服务器。微信小程序交易平台的功能已基本实现，主要包括有商家、用户、商品分类、商品信息、商品咨询等功能。本微信小程序软
卓越效能，极简运维，体验云上的Serverless架构，领取转轮日历！数据库阿里云
技术解决方案【CloudUp挑战赛】」上线了！业务的持续稳定可服务，决定着企业对客户的服务质量，是企业发展的基础。应用部署的高可用架构和弹性能力对于业务的稳定与发展起着至关重要的作用，但企业同时需要考虑资源维护成本和费用成本。本方案采用云上的Serverless架构，整合了专有网络VPC、应用型负载均衡ALB、Serverless应用引擎以及PolarDBMySQL版Serverless数据库服务
Android Studio 找不到 uploadArchives 入口程思扬 Android 记录 android studio android ide
在4.2之前版本的AndroidStudio中想要module打包arr，上传Maven我们只需要在对应module的build.gradle文件顶部添加applyplugin:'maven'然后每一次修改记得要修改版本号，相同版本号提交失败，是不会覆盖的defaultConfig{......versionName"1.0.0"//版本号...</
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。