_WeiA

Hadoop离线_Hive的基本操作

文章目录

- 1 创建数据库与创建数据库表
- - - 1.1 创建数据库的相关操作
    - 1.2 创建数据库表的相关操作
    - 1.3 四种常见的表模型
    - 1.4 加载数据方式推荐
- 2 Hive查询语法
- - - 2.1 格式
    - 2.2 常用
    - 2.3 常用函数
    - 2.4 LIMIT
    - 2.5 LIKE和RLIKE
    - 2.6 GROUP BY
    - 2.7 HAVING
    - 2.8 JOIN多表连接
    - 2.9 ORDER BY（全局排序）
    - 2.10 SORT BY（局部排序）
    - 2.11 DISTRIBUTE BY（分区排序）
    - 2.12 CLUSTER BY
- 3 Hive Shell参数
- - - 3.1 Hive命令行
    - 3.2 Hive参数配置方式
- 4 Hive函数
- - - 4.1 内联函数
    - 4.2 自定义函数
    - 4.3 UDF开发实例
- 5 开启Map输出阶段和Reduce输出阶段压缩
- 6 Hive的数据存储格式
- - - 6.1 支持的存储格式
    - 6.2 列式存储和行式存储

1 创建数据库与创建数据库表

1.1 创建数据库的相关操作

创建数据库：CREATE TABLE IF NOT EXISTS myhive;
创建数据库并指定hdfs存储位置:CREATE TABLE myhive LOCATION '/myhive';
修改数据库属性：ALTER DATABASE myhive SET DBPROPERITIES ('createtime'='20191201');
查看数据库基本信息:DESC DATABASE myhive2;
查看数据库更多详细信息:DESC DATABASE EXTENDED myhive2;
删除数据库：DROP DATABASE myhive2;
强制删除数据库：DROP DATABASE myhive2 CASCADE;

1.2 创建数据库表的相关操作

基本格式：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]

字段参考：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types

1.3 四种常见的表模型

管理表(内部表)：
又称为内部表，作出删除表的操作时，HDFS上对应的数据也会被同步删除

创建管理表： CREATE TABLE IF NOT EXISTS stu(id INT,name STRING);

创建完成后，表的数据会存放在HDFS的/user/hive/warehouse/你选择的数据库中
由hive-site.xml配置文件中的一个属性指定
hive.metastore.warehouse.dir
/user/hive/warehouse

如果在创建的表时指定分隔符和存放位置需要用到关键字。hive当中的默认分隔符：\001（键盘打不出来，因为是asc码值，非打印字符，这么做是为了避免分隔符的冲突）

创建指定分隔符的管理表：CREATE TABLE IF NOT EXISIS stu2( id INT,name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LOCATION '/user/stu2';
复制表结构和表中的数据：CREATE TABLE stu3 AS SELECT * FROM stu2;
只复制表的结构，不复制表的数据：CREATE TABLE stu4 LIKE stu2;
查询表的类型：DESC FORMATTED stu2;

外部表：
外部表是指定其他的HDFS路径的数据加载到表当中来，所以hive表会认为自己不完全独占这份数据，所以删除hive表的时候，数据仍然存放在HDFS当中，不会删掉

创建外部表：添加关键字EXTERNAL

CREATE EXTERNAL TABLE student(
s_id STRING,
s_name STRING,
s_birth STRING,
s_sex STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

从本地文件向表中导入数据：

LOAD DATA LOCAL INPATH '/export/servers/hivedatas/student.csv' INTO TABLE student;

从本地文件向表中导入并覆盖原有数据：

LOAD DATA LOCAL INPATH '/export/servers/hivedatas/student.csv' OVERWRITE INTO TABLE student;

从HDFS文件系统向表中加载数据：

LOAD DATA INPATH '/hivedatas/teacher.csv' INTO TABLE teacher;

如果删掉student外部表，HDFS的数据仍然存在，并且重新创建表之后，表中就直接存在数据了,

分区表：
一般没有一种独立的表模型，只有内部分区表，或者外部分区表。核心思想是分治。比如三个月的数据表，可以分区到每个月、每周甚至每天一个区，这样需要确切某一天的数据时，找起来会很方便

创建分区表:
内部分区表：

CREATE TABLE score(
s_id STRING,c_id STRING,s_score INT)
PARTITIONED BY (MONTH STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

外部分区表：

CREATE EXTERNAL TABLE score4(
s_id STRING,c_id STRING,s_score INT)
PARTITIONED BY (month='201806')
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

创建一个表带多个分区:

CREATE TABLE score2(
s_id STRING,c_id STRING,s_score INT)
PARTITIONED BY (YEAR STRING,MONTH STRING,DAY STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

向分区表中导入数据：LOAD DATA LOCAL INPATH '/export/servers/hivedatas/score.csv' INTO TABLE score PARTITION (MONTH='201806');
向一个多分区表中导入数据：LOAD DATA LOCAL INPATH '/export/servers/hivedatas/score.csv' INTO TABLE score2 PARTITION (YEAR='2018',MONTH='06',DAY='01');
查看分区：SHOW PARTITIONS score;
添加一个分区或者多个分区：
ALTER TABLE score ADD PARTITION(month='201805');
ALTER TABLE score ADD PARTITION(month='201804') PARTITION(month='201803');
删除分区：ALTER TABLE score DROP PARTITION(month='201806');

分桶表：
一般也是与内部表或者外部表搭配使用，就是将数据按照字段进行划分，可以将数据按照字段划分到多个文件当中去

创建分桶表

CREATE TABLE course(
c_id STRING,c_name STRING,t_id STRING)
CLUSTERED BY (c_id) INTO 3 BUCKETS
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

给分桶表添加数据：INSERT OVERWRITE TBALE course SELECT * FROM course_common CLUSTER BY (c_id);
修改表的名字：ALTER TABLE score4 RENAME score5;
增加或修改表内列信息：
ALTER TABLE score5 ADD columns(mycol STRING,mysco STRING);
ALTER TABLE score CHANGE column mysco mysconew INT;

1.4 加载数据方式推荐

直接向分区表中插入数据：INSERT INTO TABLE score3 PARTITION(month='201807') VALUES('001','002','003');（不推荐用该方法）
通过查询插入数据：
(1) LOAD DATA LOCAL INPATH '/export/servers/hivedatas/score.csv' OVERWRITE INTO TABLE score PARTITION(month='201806');
(2)INSERT OVERWRITE TABLE score PARTITION(month='201806') SELECT s_id,c_id,s_score FROM score;（关键字overwrite必须要有）
多插入模式：

FROM score
INSERT OVERWRITE TABLE score_first PARTITION(month='201806') 
SELECT s_id,c_id,s_score
INSERT OVERWRITE TABLE score_second PARTITION(month='201806') 
SELECT s_id,c_id,s_score

2 Hive查询语法

2.1 格式

SELECT [ALL | DISTINCT] select_expr, select_expr, ... 
FROM table_reference
[WHERE where_condition] 
[GROUP BY col_list [HAVING condition]] 
[CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list]] 
[LIMIT number]

2.2 常用

全表查询：SELECT * FROM socre;
指定列查询：SELECT s_id,c_id FROM score;
指定别名查询：SELECT s_id AS studentID,c_id FROM score;

2.3 常用函数

SELECT COUNT(1) FROM score; 总行数
SELECT MAX(s_score) FROM score;求指定字段最大值
SELECT MIN(s_score) FROM score;求指定字段最小值
SELECT SUM(s_score) FROM score; 求指定字段总和
SELECT AVG(s_score) FROM score;求指定字段平均值

2.4 LIMIT

SELECT * FROM score LIMIT 3 返回指定行数的数据

2.5 LIKE和RLIKE

SELECT * FROM score WHERE s_score LIKE '8%';查找以8开头的指定字段
SELECT * FROM score WHERE s_score LIKE '_9%;'查找第二个数值是9的指定字段
SELECT * FROM score WHERE s_score RLIKE '[9]';查找成绩中含有9的指定字段

2.6 GROUP BY

SELECT s_id,AVG(s_score) FROM score GROUP BY s_id; 按照s_id进行分组，并求出每个学生的平均分数==（GROUP BY的字段必须是SELECT后面的字段，SELECT后面的字段不能比GROUP BY后面的字段多）==

2.7 HAVING

HAVING和WHERE的区别：

WHERE是首次筛选，是在产生结果之前进行筛选
HAVING是二次筛选，是在产生结果后对结果再次筛选
WHERE后面不能写分组函数，HAVING可以
HAVING只和GROUP BY一起用

SELECT s_id,AVG(s_score) AS avgScore FROM score
GROUP BY s_id
HAVING avgScore>85;

2.8 JOIN多表连接

(Hive只支持等值连接，不支持非等值连接)
==INNER JOIN（内连接）：==只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。

SELECT * FROM teacher AS t
INNER JOIN course AS c
ON t.t_id=c.t_id;

LEFT JOIN（左外连接）： JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。

SELECT * FROM teacher AS t
LEFT JOIN course AS c
ON t.t_id=c.t_id;

RIGHT JOIN（右外连接）： JOIN操作符右边表中符合WHERE子句的所有记录将会被返回。

SELECT * FROM teacher AS t
RIGHT JOIN course AS c
ON t.t_id=c.t_id;

FULL JOIN（满外连接）：将会返回所有表中符合WHERE语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话，那么就使用NULL值替代。

SELECT * FROM teacher AS t
FULL JOIN course AS c
ON t.t_id=c.t_id;

多表连接：连接 n个表，至少需要n-1个连接条件。

SELECT * FROM teacher AS t
LEFT JOIN course AS c
ON t.t_id=c.t_id
LEFT JOIN score AS s
ON s.c_id=c.c_id
LEFT JOIN student AS stu
ON s.s_id=stu.s_id;

2.9 ORDER BY（全局排序）

SELECT * FROM student AS stu
LEFT JOIN score AS s
ON stu.s_id=s.s_id
ORDER BY s.s_score DESC|ASC;

多个列

SELECT s_id,AVG(s_score) AS avgScore
FROM score
GROUP BY s_id
ORDER BY s_id,avgScore;

只启动一个reduce

2.10 SORT BY（局部排序）

每个MapReduce内部进行排序，对全局结果集来说不是排序。
set mapreduce.job.reduces=3 设置reduce个数

按照降序查看成绩 :SELECT * FROM score SORT BY s_score;
按照降序的成绩结果导入到文件中:INSERT OVERWRITE LOCAL DIRECTORY '/export/servers/hivedatas/sort' SELECT * FROM score SORT BY s_score;

2.11 DISTRIBUTE BY（分区排序）

类似MR中partition，进行分区，结合sort by使用，并且要将DISTRIBUTE BY的语句写在SORT BY之前。（对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果）
先按照学生id进行分区，再按照学生成绩进行排序
set mapreduce.job.reduces=7 先设置reduce的个数为7个
通过DISTRIBUTE BY 进行分区，在通过SORT BY排序

INSERT OVERWRITE LOCAL DIRECTORY '/export/servers/hivedatas/sort'
SELECT * FROM score
DISTRIBUTE BY s_id
SORT BY s_score;

2.12 CLUSTER BY

当DISTRIBUTE BY和SORT BY字段相同时，可以使用CLUSTER BY方式。
CLUSTER BY除了具有DISTRIBUTE BY的功能外还兼具SORT BY的功能。但是排序只能是倒序排序，不能指定排序规则为ASC或者DESC。

SELECT * 
FROM score 
CLUSTER BY s_id; 
相当于 
SELECT * 
FROM score 
DISTRIBUTE BY s_id 
SORT BY s_id;

3 Hive Shell参数

3.1 Hive命令行

格式：hive [-hiveconf x=y] * [<-i filename>]* [<-f filename>|<-e query-string>] [-S]

参数	功能
-i	从文件初始化HQL
-e	从命令行执行指定的HQL
-f	执行HQL脚本
-v	输出执行的HQL语句到控制台
-hiveconf	设置hive运行时候的参数配置

3.2 Hive参数配置方式

Hive参数参考：https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties
对于一般参数，有三种设定方式：
配置文件：
用户自定义配置会覆盖默认配置（用户自定义配置文件：$HIVE_CONF_DIR/hive-site.xml/默认配置文件：$HIVE_CONF_DIR/hive-default.xml）。另外，Hive也会读入Hadoop的配置，因为Hive是作为Hadoop的客户端启动的，Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启动的所有Hive进程都有效。
命令行参数：
启动Hive（客户端或Server方式）时，可以在命令行添加-hiveconf param=value来设定参数。例如bin/hive -hiveconf hive.root.logger=INFO,console。命令行参数只对本次启动的Session（对于Server方式启动，则是所有请求的Sessions）有效。
参数声明：
可以在HQL中使用SET关键字设定参数，例如：set mapred.reduce.tasks=100;。这一设定的作用域也是session级的。

优先级：参数声明 > 命令行参数 > 配置文件参数（hive）

4 Hive函数

4.1 内联函数

参考文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
SHOW FUNCTIONS; 查看系统自带的函数
DESC FUNCTION UPPER显示自带函数的用法
DESC FUNCTION EXTENDED UPPER 显示更为详细的自带函数的用法

4.2 自定义函数

官方文档: https://cwiki.apache.org/confluence/display/Hive/HivePlugins
当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数.
自定义函数可以分为三种：
UDF(User Defined Function)：一进一出类型的，比如大小写转换
UDAF(User Defined Aggregation Function)：聚集函数，多进一出，比如求最值和总数等；
UDTF(User Defined Table-Generating Function)：一进多出，比如lateral view explore()

4.3 UDF开发实例

创建maven java工程，导入jar包

<repositories>
    <repository>
        <id>cloudera</id>
 <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>2.6.0-cdh5.14.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-exec</artifactId>
        <version>1.1.0-cdh5.14.0</version>
    </dependency>
</dependencies>
<build>
<plugins>
    <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-compiler-plugin</artifactId>
        <version>3.0</version>
        <configuration>
            <source>1.8</source>
            <target>1.8</target>
            <encoding>UTF-8</encoding>
        </configuration>
    </plugin>
     <plugin>
         <groupId>org.apache.maven.plugins</groupId>
         <artifactId>maven-shade-plugin</artifactId>
         <version>2.2</version>
         <executions>
             <execution>
                 <phase>package</phase>
                 <goals>
                     <goal>shade</goal>
                 </goals>
                 <configuration>
                     <filters>
                         <filter>
                             <artifact>*:*</artifact>
                             <excludes>
                                 <exclude>META-INF/*.SF
                                 META-INF/*.DSA
                                 META-INF/*/RSA</exclude>
                             </excludes>
                         </filter>
                     </filters>
                 </configuration>
             </execution>
         </executions>
     </plugin>
</plugins>
</build>

开发java类继承UDF，并重载evaluate方法

package cn.itcast.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public class ItcastUDF extends UDF {
     
    public Text evaluate(final Text s) {
     
        if (null == s) {
     
            return null;
        }
        return new Text(s.toString().toUpperCase());
    }
}

将项目打包，并上传到hive的lib目录下
添加jar包
重命名jar包:mv original-day06_hive-1.0-SNAPSHOT.jar udf.jar
把jar包添加到hive客户端:add jar /export/servers/hive-1.1.0-cdh5.14.0/lib/udf.jar;
关联自定义函数
create temporary function touppercase AS 'cn.itcast.udf.ItcastUDF';
使用自定义函数
SELECT touppercase('abc');

5 开启Map输出阶段和Reduce输出阶段压缩

开启map输出阶段压缩可以减少job中MapTask和ReduceTask间数据传输量。

开启hive中间传输数据压缩功能:set hive.exec.compress.intermediate=true;
开启mapreduce中map输出压缩功能:set mapreduce.map.output.compress=true;
设置mapreduce中map输出数据的压缩方式:set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;
开启hive最终输出数据压缩功能:set hive.exec.compress.output=true;
开启mapreduce最终输出数据压缩:set mapreduce.output.fileoutputformat.compress=true;
设置mapreduce最终数据输出压缩方式:set mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
设置mapreduce最终数据输出压缩为块压缩:set mapreduce.output.fileoutputformat.compress.type=BLOCK;

6 Hive的数据存储格式

6.1 支持的存储格式

Hive支持的存储数的格式主要有：TEXTFILE（行式存储）、SEQUENCEFILE(行式存储)、ORC（列式存储）、PARQUET（列式存储）。

6.2 列式存储和行式存储

列式存储的特点： 因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。
行式存储的特点： 查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。

一般拿到原始数据都是TextFile格式，需要经过分析后，通过INSERT OVERWRITE TABLE tbl_name SELECT * FROM tbl_name2;将分析出的结果导入到另一张临时表中就可以使用Parquet或者orc这些列式存储格式了。

注意: 存储格式和压缩方式没有关系，但是实际工作当中存储格式一般都会和压缩方式一起使用
orc存储格式本身自带一个叫zlib的压缩方式，就算orc去除掉zlib压缩，它因为列式存储的优势，还是可以将原有的数据变小。
虽然用zlib压缩的文件大小更小，但是压缩和解压都计较耗时，实际工作中一般都是将orc的存储格式和snappy的压缩方式一起用。

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
鲲鹏 ARM 架构麒麟 Lylin v10 安装 Nginx (离线) 焚木灵 arm开发架构 nginx 服务器
最近做一个银行的项目，银行的服务器是鲲鹏ARM架构的服务器，并且是麒麟v10的系统，这里记录一下在无法访问外网安装Nginx的方法。其他文章：鲲鹏ARM架构麒麟Lylinv10安装Mysql8.3(离线)-CSDN博客鲲鹏ARM架构麒麟Lylinv10安装Node和NVM(离线)-CSDN博客鲲鹏ARM架构麒麟Lylinv10安装Pm2(离线)-CSDN博客鲲鹏ARM架构麒麟Lylinv10安装P
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
talib的python库安装 jesonwz python 开发语言
talib的python库安装反正用清华源装不上发现talib的指标好多，想着用用，结果在python里装不上，清华源里提示找不到。也难怪，这个库上网查了一下，最新一次更新是在2013年，太老了。废话不说，上我的解决办法。解决方法步骤（靠谱的）思路：既然在线装不上，就用离线的1.下载对应python版本的talib的whl版本安装文件，链接在这：https://blog.csdn.net/FL16
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
OmicsTools除b站教学视频外已整理的零代码生信全流程分析文档邢博士谈科教医学科研生信分析 r语言数据可视化数据挖掘数据分析生信医学生信分析
OmicsTools软件介绍和下载安装配置软件简介我开发了一款本地电脑无限使用的零代码生信数据分析作软图神器电脑软件OmicsTools，欢迎大家使用OmicsTools进行生物医学科研数据分析和作图，该软件件能让大家在不需要任何编程和代码编写的基础上，分析次数没有限制，可以无限使用，让您在自己电脑上快速进行大量的生信分析和加速大家的科研。OmicsTools生信分析电脑软件可以做医学生物生信各个
【数据分析】利用Python+AI+工作流实现自动化数据分析-全流程讲解 z千鑫 AI领域 FLASK基础 Python基础人工智能数据分析 python AI编程 AI工作流 ai 自动化
文章目录一、为什么要用AI进行自动化分析？二、AI自动化分析场景三、编写Python脚本示例1、用flask实现让AI分析数据内容使用说明：示例2、用定时任务的方式，定时处理AI数据代码说明四、把AI分析的数据，放到AI工作流中做展示五、openAI的key结尾在信息爆炸的时代，如何快速获取有价值的洞察力成为了各行各业的迫切需求。传统的内容分析方法往往又耗时又费力，并且难以满足快速变化的市场需求。
Mall4j商城实战 - 部署 canal 数据库增量日志解析 yueerba126 Mall4j商城实战数据库 spring cloud 微服务架构
Canal简介Canal是基于MySQL数据库增量日志解析的工具，主要用于增量数据的订阅和消费。Canal主要用途基于MySQL数据库增量日志解析详细功能：实时解析MySQL的二进制日志（Binlog）。捕获数据库中的所有增量变更，如插入、更新和删除操作。使用场景：适用于实时监控数据库变化的应用，比如数据复制、数据备份或实时数据分析等。提供增量数据订阅和消费服务
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Rust: duckdb和polars读csv文件比较 songroom rust 开发语言后端
duckdb在数据分析上，有非常多不错的特质。1、快；2、客户体验好，特别是可以同时批量读csv（在一个目录下的csv等文件）。polars的性能比pandas有非常多的超越。但背后的一些基于arrow的技术栈有很多相同之类。今天想比较一下两者在csv数据读写的情况。一、文件准备csv样本内容，是N行9列的csv标准格式，有字符串，有浮点数，有整型。具体如下：本次准备了两个csv文件，一个大约是2
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓