落叶飘雪2014

Hive之存储和压缩

Hive系列

第十章存储和压缩

10.1 首先看一下Hadoop中的压缩

10.1.1 基本概念

1、概念

压缩是一种通过特定的算法来减小计算机文件大小的机制。这种机制是一种很方便的发明，尤其是对网络用户，因为它可以减小文件的字节总数，使文件能够通过较慢的互联网连接实现更快传输，此外还可以减少文件的磁盘占用空间。

2、优缺点

压缩优点：减少磁盘IO、减少磁盘存储空间。
压缩缺点：增加CPU开销，也就是需要大量的计算能力去解压缩。

3、原则

（1）运算密集型任务（经常需要计算），少用压缩
（2）IO密集型任务（经常需要输入输出，也就是需要传输），多用压缩

10.1.2 Hadoop中的压缩编码

1、常见的压缩编码

压缩编码	Hadoop是否自带	算法	文件扩展名	是否支持切片	换压缩格式后，原程序是否需要修改
DEFLATE	是，直接使用	DEFLATE	.deflate	否	和文本处理一样，不需要修改
Gzip	是，直接使用	DEFLATE	.gz	否	和文本处理一样，不需要修改
bzip2	是，直接使用	bzip2	.bz2	是	和文本处理一样，不需要修改
LZO	否，需要安装	LZO	.lzo	是	需要建索引，还需要指定输入格式
Snappy	是，直接使用	Snappy	.snappy	否	和文本处理一样，不需要修改

2、部分性能对比

压缩算法	原文件大小	压缩之后文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

注：数据来源于网络。

再来一个Snappy的。链接： http://google.github.io/snappy/

Snappy is a compression/decompression library. It does not aim for maximum compression, or compatibility with any other compression library; instead, it aims for very high speeds and reasonable compression. For instance, compared to the fastest mode of zlib, Snappy is an order of magnitude faster for most inputs, but the resulting compressed files are anywhere from 20% to 100% bigger. On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.

10.1.3 多种压缩方式优缺点及适用场景

压缩方式选择时考虑的几个方面：解、压缩速度、压缩率、压缩文件是否可以支持切片。

1、Gzip压缩
优点：压缩率较高
缺点：不支持Split切片；解、压缩 速度一般

2、Bzip2压缩
优点：压缩率高，支持Split切片 
缺点：解、压缩速度慢

3、Lzo压缩
优点：解、压缩速度比较快，支持Split切片
缺点：压缩率一般，想支持切片需要额外创建索引

4、Snappy压缩
优点：解、压缩速度快  
缺点：不支持Split切片，压缩率一般

10.1.4 压缩的位置

1、Map前（输入端）
无须显示指定使用的解压缩编码方式。Hadoop自动检查文件扩展名，如果扩展名能够匹配，就会用适当的编解码方式对文件压缩和解压。
选择因素：
（1）数据量小于块大小，考虑压缩和解压缩速度比较快的Snappy/LZO
（2）数据量非常大，考虑支持切片的Bzip2/LZO

2、Map到Reduce中间
在两者中间，肯定要要传输数据，为了减少MapTask和ReduceTask之间的网络IO。
就可以考虑压缩和解压缩快的压缩编码，比如Snappy、LZO。

3、Reduce后（输出端）
这个时候选择要考虑具体需求：
（1）若数据永久保存，考虑压缩率较高的 Bzip2 /  Gzip。
（2）若作为下一个MapReduce输入，要考虑数据量大小和是否支持切片。

10.1.5 参数配置

1、Hadoop引入编码/解码器来支持多种压缩/解压缩算法

压缩格式	对应的编码/解码器
DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
gzip	org.apache.hadoop.io.compress.GzipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

2、Hadoop中启用压缩，可以通过如下参数进行配置

参数	默认值	阶段	参考建议
io.compression.codecs （在core-site.xml中配置）	无。需要在命令行输入hadoop checknative查看	输入压缩	Hadoop使用文件扩展名判断是否支持某种编解码器
mapreduce.map.output.compress（在mapred-site.xml中配置）	false	Mapper输出	这个参数设为true启用压缩
mapreduce.map.output.compress.codec（在mapred-site.xml中配置）	org.apache.hadoop.io.compress.DefaultCodec	Mapper输出	企业多使用LZO或Snappy编解码器在此阶段压缩数据
mapreduce.output.fileoutputformat.compress（在mapred-site.xml中配置）	false	Reducer输出	这个参数设为true启用压缩
mapreduce.output.fileoutputformat.compress.codec（在mapred-site.xml中配置）	org.apache.hadoop.io.compress.DefaultCodec	Reducer输出	使用标准工具或者编解码器，如gzip和bzip2

10.2 Hive中开启map输出阶段压缩

一、理论

在Hive中开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。

二、实践

1、开启 hive 中间传输数据压缩功能
hive (mydb)>set hive.exec.compress.intermediate=true;
2、开启 mapreduce 中 map 输出压缩功能
hive (mydb)>set mapreduce.map.output.compress=true;
3、设置 mapreduce 中 map 输出数据的压缩方式
hive (mydb)>set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;
4、执行查询语句
hive (mydb)> select count(ename) name from emp;

想查看过程的话记得开启历史服务器
http://hadoop10:8088/ 
先进去，然后点击History 跳转到历史服务器里面查看
自己配置完了查看，最好给历史服务器配置到某个固定的节点。

10.3 Hive中开启Reduce输出阶段压缩

一、理论

在 Hive 中，将输出写入到表中的时候，输出内容同样可以进行压缩。属性 hive.exec.compress.output 控制着这个功能。用户可能需要保持默认设置文件中的默认值false，这样默认的输出就是非压缩的纯文本文件了。用户可以通过在查询语句或执行脚本中设置这个值为 true，来开启输出结果压缩功能。

二、实践

1、开启 hive 最终输出数据压缩功能
hive (mydb)>set hive.exec.compress.output=true;
2、开启 mapreduce 最终输出数据压缩
hive (mydb)>set mapreduce.output.fileoutputformat.compress=true;
3、设置 mapreduce 最终数据输出压缩方式
hive (mydb)> set mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
4、设置 mapreduce 最终数据输出压缩为块压缩
hive (mydb)> set mapreduce.output.fileoutputformat.compress.type=BLOCK;
5、测试一下输出结果是否是压缩文件
hive (mydb)> insert overwrite local directory '/home/data/reduceyasuo' select * from emp distribute by deptno sort by empno desc;
6、去对应的地方查看结果
[root@hadoop10 data]# cd reduceyasuo/
[root@hadoop10 reduceyasuo]# ll
total 4
-rw-r--r--. 1 root root 446 Oct 11 11:58 000000_0.snappy
[root@hadoop10 reduceyasuo]# pwd
/home/data/reduceyasuo

10.4 Hive中常见的存储格式

首先 Hive 支持的存储数据的格式主要有：TEXTFILE 、SEQUENCEFILE 、PARQUET 、 ORC 。

10.4.1 行式存储和列式存储

1、逻辑物理对应图

注：图片来源于网络

上图左边为逻辑表，右边第一个为行式存储，第二个为列式存储。

2、行存储和列存储特点

1、行存储特点
当查询满足条件的一整行数据的时候，列存储需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。
2、列存储的特点
列存储每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。

3、Hive中的存储

TEXTFILE 和 SEQUENCEFILE 的存储格式都是基于行存储的
PARQUET 和 ORC 是基于列式存储的

10.4.2 Hive中的存储格式

10.4.2.1 TextFile格式

Hive中的默认格式，为行存储格式，数据不做压缩，磁盘占用大。

10.4.2.2 Parquet格式

仔细看下面的图，它是一个 Parquet 文件的内容，一个文件中可以存储多个行组，文件的首位都是该文件的 Magic Code，用于校验它是否是一个 Parquet 文件
Footer length 记录了文件元数据的大小，通过该值和文件长度可以计算出元数据的偏移量
文件的元数据中包括每一个行组的元数据信息和该文件存储数据的Schema 信息
除此之外，文件中每一个行组的元数据，每一页的开始都会存储该页的元数据

在 Parquet 中， 有三种类型的页：数据页、字典页和索引页。
	数据页用于存储当前行组中该列的值
	字典页存储该列值的编码字典，每一个列块中最多包含一个字典页
	索引页用来存储当前行组下该列的索引，目前 Parquet 中还不支持索引页。

Parquet 文件是以二进制方式存储的，自然而然是不可以直接读取的，文件中包括该文件的数据和元数据，所以 Parquet 格式文件是自解析的。
几个重要的概念：

1、行组(Row Group)
每一个行组包含一定的行数，在一个 HDFS 文件中至少存储一个行组
2、列块(Column Chunk)
在一个行组中每一列保存在一个列块中，行组中的所有列连续的存储在这个行组文件中。
一个列块中的值都是相同类型的，不同的列块可以使用不同的算法进行压缩。
3、页(Page)
每一个列块划分为多个页，一个页是最小的编码的单位，在同一个列块的不同页可能使用不同的编码方式。

其实在一般的情况下，在存储 Parquet 数据的时候会按照 Block 大小设置行组的大小，在一般情况下每一个 Mapper 任务处理数据的最小单位是一个 Block块，这样可以把每一个行组由一个 Mapper 任务来处理，从增大任务执行并行度。

10.4.2.2 ORC格式

官网链接：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

注：图片来源于网络

ORC 的全称是 Optimied Row Columnar
ORC文件格式是一种Hadoop生态圈中的列式存储格式，它的产生在2013年初，最初产生自Apache Hive，用于降低Hadoop 数据存储空间的和加速 Hive 查询速度。和Parquet 类似，它并不是一个单纯的列式存储格式，是首先根据行分割整个表，在每一行组内进行按列压缩存储。

一些概念的解释：

每个 Orc 文件由 1 个或多个 stripe 组成，每个 stripe 一般情况下为 HDFS 的块大小，每一个 stripe 中包含多条记录，这些记录按照列进行独立存储，和 Parquet中的 row group 的概念其实是类似的。
每个 Stripe 里有三部分组成，分别是 Index Data，Row Data，Stripe Footer

1、Index Data：一个轻量级的 index，默认是每隔 1W 行做一个索引。这里做的索引是记录某行的各字段在 Row Data 中的偏移量
2、Row Data：存的是真实的数据，先取部分行，然后对这些行按列进行存储。对每个列进行了编码，分成多个 Stream 来存储。
3、Stripe Footer：存的是各个 Stream 的类型，长度等等的信息。

10.5 案例测试对比各种存储格式和压缩

TextFile 、 Parquet 、 ORC 对比

1、TextFile格式

1、创建表
create table student_textfile(id int, name string, sex string, age int, department string) row format delimited fields terminated by "," stored as textfile;
2、造数据
以1122660行，大小为25.6m的数据进行测试，student_big.txt文件。
3、加载数据
load data local inpath '/home/data/student_big.txt' into table student_textfile;
4、查看大小
hive (mydb)> dfs -du -h /user/hive/warehouse/mydb.db/student_textfile/student_big.txt;
25.7 M  25.7 M  /user/hive/warehouse/mydb.db/student_textfile/student_big.txt
hive (mydb)>

2、Parquet格式

1、创建表
create table student_parquet(id int, name string, sex string, age int, department string) row format delimited fields terminated by "," stored as parquet;
2、造数据
以1122660行，大小为25.6m的数据进行测试，student_big.txt文件。
hive (myhive5)> load data local inpath '/home/data/student_big.txt' into table student_parquet;
上面的命令可以给数据导入到student_parquet表的对应的目录下面，但是这种方式只是直接给数据放过去了，没有产生压缩的效果。在hive中使用命令hive (myhive5)> select * from student_parquet;去查询会报错，因为类型不匹配。
3、加载数据
若是误导入可以，使用下面的命令清空
hive (mydb)> truncate table student_parquet;
使用下面的方式导入：
hive (mydb)> insert into table student_parquet select * from student_textfile;
4、查看大小
hive (mydb)> dfs -du -h /user/hive/warehouse/mydb.db/student_parquet;
2.2 M  2.2 M  /user/hive/warehouse/mydb.db/student_parquet/000000_0
hive (mydb)>

3、ORC格式

1、创建表
create table student_orc(id int, name string, sex string, age int, department string) row format delimited fields terminated by "," stored as orc tblproperties("orc.compress"="NONE");
注意： tblproperties("orc.compress"="NONE"); -- 设置 orc 存储不使用压缩来进行测试
2、造数据
以1122660行，大小为25.6m的数据进行测试，student_big.txt文件。
3、加载数据
hive (mydb)> load data local inpath '/home/data/student_big.txt' into table student_orc;
FAILED: SemanticException Unable to load data to destination table. Error: The file that you are trying to load does not match the file format of the destination table.
hive (mydb)> 
使用下面的方式导入：
hive (mydb)> insert into table student_orc select * from student_textfile;
4、查看大小
hive (mydb)> dfs -du -h /user/hive/warehouse/mydb.db/student_orc;
6.7 M  6.7 M  /user/hive/warehouse/mydb.db/student_orc/000000_0
hive (mydb)>

10.5测试结论：

Parquet > ORC > TextFile

注意，可能会由于样本的不同导致结果会出现ORC优于Parquet的情况，这都是正常的现象，但是都优于TextFile。

10.6 案例测试对比各种存储格式和压缩结合方式

再来一遍官网链接：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

The parameters are all placed in the TBLPROPERTIES (see Create Table). 
翻译过来：
所有关于 ORCFile 的参数都是在 HQL 语句的 TBLPROPERTIES 字段里面设置的。

1、ORC_ZLIB

1、创建表
create table student_orc_zlib(id int, name string, sex string, age int, department string) row format delimited fields terminated by "," stored as orc tblproperties("orc.compress"="ZLIB");
注意： tblproperties("orc.compress"="ZLIB"); -- 设置 orc 存储使用ZLIB压缩来进行测试
2、造数据
以1122660行，大小为25.6m的数据进行测试，student_big.txt文件。
3、加载数据
hive (mydb)> load data local inpath '/home/data/student_big.txt' into table student_orc_zlib;
FAILED: SemanticException Unable to load data to destination table. Error: The file that you are trying to load does not match the file format of the destination table.
hive (mydb)> 
使用下面的方式导入：
hive (mydb)> insert into table student_orc_zlib select * from student_textfile;
4、查看大小
hive (mydb)> dfs -du -h /user/hive/warehouse/mydb.db/student_orc_zlib;
59.5 K  59.5 K  /user/hive/warehouse/mydb.db/student_orc_zlib/000000_0
hive (mydb)>

2、ORC_SNAPPY

1、创建表
create table student_orc_snappy(id int, name string, sex string, age int, department string) row format delimited fields terminated by "," stored as orc tblproperties("orc.compress"="SNAPPY");
注意： tblproperties("orc.compress"="SNAPPY"); -- 设置 orc 存储使用SNAPPY压缩来进行测试
2、造数据
以1122660行，大小为25.6m的数据进行测试，student_big.txt文件。
3、加载数据
hive (mydb)> insert into table student_orc_snappy select * from student_textfile;
4、查看大小
hive (mydb)> dfs -du -h /user/hive/warehouse/mydb.db/student_orc_snappy;
343.5 K  343.5 K  /user/hive/warehouse/mydb.db/student_orc_snappy/000000_0
hive (mydb)>

3、Parquet_Snappy

在默认的情况下，Parquet就自带Snappy压缩。压缩之后的文件的名称示例：

part-00000-3c53817b-4608-4e27-a727-f398b94b4ed9-c000.snappy.parquet

操作示例：

1、创建表
create table student_parquet_snappy(id int, name string, sex string, age int, department string) row format delimited fields terminated by "," stored as parquet tblproperties("parquet.compress"="SNAPPY");
注意： tblproperties("orc.compress"="SNAPPY"); -- 设置 parquet 存储使用SNAPPY压缩来进行测试
2、造数据
以1122660行，大小为25.6m的数据进行测试，student_big.txt文件。
3、加载数据
hive (mydb)> insert into table student_parquet_snappy select * from student_textfile;
4、查看大小
hive (mydb)> dfs -du -h /user/hive/warehouse/mydb.db/student_parquet_snappy;
2.2 M  2.2 M  /user/hive/warehouse/mydb.db/student_parquet_snappy/000000_0
hive (mydb)>

10.6测试结论（在ORC开压缩的情况下）：

ORC > Parquet > TextFile

总结：

企业开发当中，hive 的数据存储格式一般选择：orc 或 parquet；压缩方式可以选择 snappy，lzo 等

声明：
文章中代码及相关语句为自己根据相应理解编写，文章中出现的相关图片为自己实践中的截图和相关技术对应的图片，若有相关异议，请联系删除。感谢。转载请注明出处，感谢。

By luoyepiaoxue2014

微博地址： http://weibo.com/luoyepiaoxue2014 点击打开链接

Hive SQL查询汇总分析大数据深度洞察 Hive hive sql hadoop 数据仓库数据库大数据
目录SQL查询汇总分析成绩查询查询编号为“02”的课程的总成绩查询参加考试的学生个数分组查询查询各科成绩最高和最低的分查询每门课程有多少学生参加了考试（有考试成绩）查询男生、女生人数分组结果的条件查询平均成绩大于60分的学生的学号和平均成绩查询至少选修四门课程的学生学号查询同姓（假设每个学生姓名的第一个字为姓）的学生名单并统计同姓人数大于2的姓查询每门课程的平均成绩，结果按平均成绩升序排序，平均成
RMAN-08137 rman delete archivelog force jnrjian 数据库 oracle
deleteforcearchiveloguntiltime'trunc(sysdate-4)'backedup1timestodevicetypedisk;SymptomsDatabaseAClonedtoDatabaseBonCloneserver.GoldenGateisConfiguredonSourcedatbaseA.DatabaseBwhichisclonedfromSourcedo
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
两分钟带你了解分账系统收费标准 cjwi774 分账那些事大数据小程序电子商务分账零售
随着大数据、人工智能、云计算等新兴技术愈发成熟，各行各业数字化、智能化改造升级既是大势所趋也是顺势而为。包括电商行业、共享行业、商业综合体、景区等许多业态都纷纷接入分账系统，助力自身业务进行转型升级。而分账系统的价格一直是企业主们考量的重要标准之一，今天小编就为大家介绍一下分账系统收费标准。其实分账系统没有一个固定的收费标准，因为不同的供应方、不同的功能等收费标准都是不同的。一般来说，目前市面上分
01-Flink安装部署及入门案例（仅供学习），音视频时代你还不会NDK开发小猪佩琪962 2024年程序员学习 flink 学习大数据
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵
Conda创建环境失败：000和404错误柚柚柚柚柚 conda
一、首先下载Anaconda1.打开网址Indexof/anaconda/archive/|清华大学开源软件镜像站|TsinghuaOpenSourceMirror，滑到最底部，下载Anaconda3-5.3.1-Linux-x86_64.sh。2.使用winscp拖动本地的Anaconda3-5.3.1-Linux-x86_64.sh到服务器的个人工作目录下。二、安装Anaconda软件，创建虚
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Apache Flink：实时流处理与批处理的统一框架小码快撩 flink 大数据
导语在大数据处理领域，流处理和批处理是两种主要的处理方式。然而，传统的系统通常将这两者视为独立的任务，需要不同的工具和框架来处理。ApacheFlink是一个开源的流处理框架，它打破了这种界限，提供了一个统一的平台来处理实时流数据和批处理数据。一、基本概念与架构ApacheFlink的基本概念与架构主要包括以下几个核心组成部分：基本概念1.流处理模型：无界流(UnboundedStreams):数
大数据平台（数据中台、数据中枢、数据湖、数据要素）建设方案数字化建设方案数字化转型数据治理主数据数据仓库大数据
大数据平台（数据中台、数据中枢、数据湖、数据要素）建设方案大数据平台（数据中台、数据中枢、数据湖、数据要素）建设方案项目背景和目标项目背景项目目标建设原则与策略数据中台架构设计整体架构设计思路数据采集层数据存储层数据计算层数据服务层数据中枢功能实现数据治理功能数据资产管理功能数据安全管控功能数据服务总线功能数据湖存储与计算方案数据湖存储架构设计数据湖计算框架选择数据湖应用场景分析数据湖安全与合规性
C#中两个问号的含义 weixin_30363981 测试
stringstrParam=Request.Params["param"]??"";取??左边的值,如果??左边的值为null则取右边的值转载于:https://www.cnblogs.com/shadowtale/archive/2012/10/19/2731152.html
如何下载各个版本的tomcat-比如tomcat9 耳边轻语999 tomcat java
1，找到tomcat官网https://tomcat.apache.org/ApacheTomcat®-Welcome!找到tomcat9，或者archives1.1，找到对应版本1.2，找到小版本1.3，找到bin2，Indexof/dist/tomcat/tomcat-9/v9.0.39/bin2.1，下载对应的解压版本或者安装版本
大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
数据中台建设方案-基于大数据平台(下) FRDATA1550333 大数据数据库架构数据库开发数据库
数据中台建设方案-基于大数据平台(下)1数据中台建设方案1.1总体建设方案1.2大数据集成平台1.3大数据计算平台1.3.1数据计算层建设计算层技术含量最高，最为活跃，发展也最为迅速。计算层主要实现各类数据的加工、处理和计算，为上层应用提供良好和充分的数据支持。大数据基础平台技术能力的高低，主要依赖于该层组件的发展。本建设方案满足甲方对于数据计算层建设的基本要求：利用了MapReduce、Spar
Python在金融大数据分析中的AI应用实战田野猫咪 python 金融数据分析
随着人工智能时代的到来，Python作为一种功能强大的编程语言，在金融领域的大数据分析中扮演着日益重要的角色。本文将探讨Python在金融领域的应用，重点介绍其在大数据分析方面的实际应用案例，涉及股票市场分析、投资组合优化、风险管理等方面，并提供相关的代码示例。引言随着金融市场数据规模的不断增长，金融机构和投资者们越来越依赖于大数据分析和人工智能技术来做出更准确、更智能的决策。Python作为一种
使用python实现微信小程序自动签到光头哥不光头 python
学校：重庆财经职业学院学院：应用技术学院专业班级：大数据技术与应用05班名字：吴雨璇指导老师：张彤老师一：使用python实现微信小程序自动签到意义1.首先对于咱们的APP有很大的作用,那就是当用户点击签到以后,平台就有那么多用户在使用,签到的人越多,产品的活跃度就越高。2.还有一点就是大家应该能够想到,那就是用户点击签到是在首页,有些点开就需要进行签到,点击较多,对于产品销售是非常重要的。3.微
CSP-J 算法基础选择排序人才程序员 CSP-J 算法排序算法数据结构比赛 noi 青少年编程竞赛
文章目录前言选择排序选择排序的过程最终结果编程实现选择排序总结前言选择排序（SelectionSort）是一种简单直观的排序算法，其工作原理是每次从未排序的部分中选出最小（或最大）的元素，将其与当前的第一个元素交换位置，然后缩小未排序部分的范围。每一轮都会找到剩余部分中的最小元素，逐步构建一个有序的数组。选择排序的时间复杂度为O(n²)，不适合大数据集，但由于其实现简单，通常被用于教学和理解基本排
Percona-toolkit工具详解小一_d28d
1.pt工具安装[root@master~]#yuminstall-ypercona-toolkit-3.1.0-2.el7.x86_64.rpm2.常用工具使用介绍2.1pt-archiver归档表#重要参数--limit100每次取100行数据用pt-archive处理--txn-size100设置100行为一个事务提交一次，--where'id>/root/db/checksum.logpt
大数据平台--调度系统小瓶盖的猪猪侠
调度系统是数据仓库的重要组成部分，也是每个银行或公司一个基础软件或服务，需要在全行或全公司层面进行规划，在全行层面统一调度工具和规范，由于数据类系统调度作业较多，交易类系统批量优先级高，调度系统的整体架构如下：调度中心对调度批次和作业进行创建、管理、监控，它负责所有批量作业的调度和编排；在整个作业过程中，作业之间关系分为触发，依赖和互斥。1、触发触发关系表示一个作业完毕后，生成另一个作业的控制文件
hutool获取大数据量的excel内容及sheet名称问题 liu_qixiang excel
读取大数据量的excel时代码如下privatestaticRowHandlercreateRowHandler(){returnnewRowHandler(){@Overridepublicvoidhandle(inti,longl,Listlist){System.out.println(i+""+l+""+list);}};}publicstaticvoidmain(String[]args
Ubuntu更换apt-get的下载源愤愤的有痣青年
将以下内容替换/etc/apt/sources.list中的内容deb-srchttp://archive.ubuntu.com/ubuntuxenialmainrestricted#Addedbysoftware-propertiesdebhttp://mirrors.aliyun.com/ubuntu/xenialmainrestricteddeb-srchttp://mirrors.aliy
惊喜！万博智云亮相2024数博会和第三届828 B2B企业节万博智云OneProCloud 新闻资讯公司新闻华为云 HyperBDR云容灾数博会
摘要万博智云作为2024828B2B企业节铂金合作伙伴，在2024中国国际大数据产业博览会的828B2B企业节开幕式上亮相，并参加了本次828企业节的一系列活动，包括在华为展台现场开展的“‘云上大咖团’直面数博会现场”的直播上发表了主题分享。8月28日，由国家数据局主办、贵州省人民政府承办的2024中国国际大数据产业博览会（简称“2024数博会”）在贵州省贵阳市开幕。本届数博会以“数智共生：开创数
020 现代数据中心的路由与交换架构 Network_Engineer RS 网络网络安全计算机网络网络协议网络安全
引言现代数据中心的设计必须兼顾高性能、高可用性和灵活性，以满足云计算、大数据、人工智能等应用的需求。在这样的背景下，数据中心的路由与交换架构设计显得尤为重要。Spine-Leaf架构、BGP路由优化以及高密度虚拟化环境中的交换技术，成为了现代数据中心的关键组成部分。本篇博文将探讨这些技术的实际应用，并提供华为设备的配置示例。1.Spine-Leaf架构的设计与实施Spine-Leaf架构是一种扁平
apt 下载指定架构的包及离线安装的方法错误重复学习记录 linux
#设置系统架构sudodpkg--add-architectureamd64#安装apt-rdependssudoaptinstallapt-rdepends#创建单独的目录mkdir-p/home/apt/postgresql-client-common#仅下载安装包sudoapt-getinstall--download-onlysudomv/var/cache/apt/archives/*/
游戏运营环节的一些关键转化率 turtle081025 数据分析游戏网络游戏运营
转载于http://www.gamedatas.com/archives/134转化率这个指标在各行各业的数据分析中运用的非常之广泛，例如：电商中就会存在，点击到订单生成的一系列转化率，传统的销售行业也会在做广告的时候考虑该广告能够转化多少订单，而在游戏行业，转化率同样是一个不容忽视的指标。一般来说，游戏运营的过程中主要会关注到这些转化率：1.下载-安装（激活）转化率；2.安装（激活）-注册转化率
Python API操作RocketMQ 京城小筑 #Python编程 python
背景：开发背景:公司相关报表需求需要将订单业务数据同步至RocketMQ中，由于需要保证开发的一致性(多个部门协同开发)，所以采用读取Hive离线数据的方式通过PythonAPI写入RocketMQ中，便于其他开发同事调用~开发环境:本地调试系统MacPython3.7.5rocketmq0.4.4(Python模块)rocketmq-client-python2.0.0(Python模块)服务器
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
spring boot jar 启动报错 Zip64 archives are not supported 赵丙双 java spring boot jar zip zip64 loader
springbootjar启动报错Zip64archivesarenotsupported原因、解决方案问题为什么springboot不支持zip64zip、zip64功能上的区别zip的文件格式spring-boot-loader是如何判断是否是zip64的？参考springboot版本是2.1.8.RELEASE，引入以下phoenix依赖之后启动报错。org.apache.phoenixph
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
开源项目的认识理解禁默话题探讨开源程序人生
目录开源项目有哪些机遇与挑战？1.开源项目的发展趋势2.开源的经验分享（向大佬请教与上网查询）3.开源项目的挑战开源项目有哪些机遇与挑战？1.开源项目的发展趋势1.持续增长与普及-开源项目将继续增长，特别是在云计算、大数据、人工智能等领域。-开源软件在企业中的应用将更加普及，成为企业IT战略的一部分。2.企业的参与-企业将继续增加对开源项目的投资，通过赞助、捐赠或直接参与开发来推动开源项目的发展。
未完待续大数据工程学院19计本1班
分院:大数据工程学院班级:19计本1班姓名:李思雪不知不觉，我们送走了活力四射的春天，迎来了烈日炎炎夏天。对于夏天的的印象，不仅有火红的太阳，湛蓝的天空，茂盛的枝叶……还有的是那让人不得不说的毕业季。不是毕业季的主角，作为毕业季看客，我们却也能感受到离别到来是的不舍。我们对学长学姐的祝福是前程似锦，原来是分别的意思。都知道天下无不散的宴席，但那四年的同窗之情，记忆里点点滴滴，不是一时就能放下，毕竟
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep