小猫不会去楼兰捉虫

大数据技术之Hive

1.Hive入门

1.1 什么是Hive

1.2 Hive的数据存储

1.3 Hive的系统架构

1.4 Metastore

1.5 数据库与数据仓库的区别

2.Hive安装部署

2.1 下载

2.2 安装MySQL

2.3 安装hive

3.Hive基础使用

3.1 Hive操作之命令行方式

3.2 Hive操作之JDBC方式

3.3 查询后信息显示配置

3.4 Hive的日志配置

4.Hive核心实战

4.1 数据库操作

4.2 表的操作

4.2.1 创建表

4.2.2 加载数据

4.2.3 查看表信息

4.2.4 表增加字段及注释、删除表

4.2.5 修改表名

4.2.6 指定列和行的分隔符

4.3 数据类型

4.3.1 基本数据类型

4.3.2 复合数据类型

4.4 表类型：内部表、外部表

4.5 内部分区表

4.5.1 分区表：

4.5.2 创建分区表

4.5.3 加载数据到指定分区

4.5.4 添加分区

4.5.5 查看所有的分区信息

4.5.6 删除分区

4.5.7 针对已有的分区如何上传数据

4.5.8 多个分区字段的使用

4.5.9 查询数据

4.6 外部分区表（最常用）

4.7 总结

4.8 表类型：桶表 + 视图

4.8.1 桶表

4.8.2 视图

4.8 数据处理综合案例

5.Hive高级函数实战

5.1 分组排序取topN

5.1.1 需求每个科目的前三名，数据如下所示：

5.1.2 row_number()、rank() 、dense_rank()的区别

5.2 行转列(多行转成1列)

5.3 列转行（把一列数据转成多行）

5.4 排序函数

5.5 分组和去重函数

1.Hive入门

Hive：由Facebook开源用于解决海量结构化日志的数据统计。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。只能用来分析Hadoop中的结构化数据

本质是：将HQL转化成MapReduce程序

1）Hive处理的数据存储在HDFS

2）Hive分析数据底层的实现是MapReduce

3）执行程序运行在Yarn上

1.1 什么是Hive

Hive是建立在Hadoop上的数据仓库基础架构，它提供一系列的工具，可以进行数据提取、转化、加载（ETL）
Hive定义了简单的类SQL查询语言，成为HQL,它允许熟悉SQL的用户直接查询Hadoop中的数据
Hive包含SQL解析引擎，它会将SQL语句转译成MR Job，然后再hadoop中执行

1.2 Hive的数据存储

Hive的数据存储基础Hadoop的HDFS
Hive没有专门的数据存储格式，默认可以直接加载本地文件TextFile，还支持SequenceFile, RCFile等。

1.3 Hive的系统架构

1. Hive2.x 开始官方不建议使用MapReduce引擎了，建议使用Tez或Spark引擎

2. 大数据计算引擎：

1）MapReduce

2）Tez（没有被广泛使用，通常和Hive一起使用）

3）Spark

4）Flink （在实时计算领域优于SPARK, 也支持在yarn上执行）

3. select * from table 不会产生MapReduce任务

1.4 Metastore

MetaStore是Hive元数据的集中存放地
元数据包括表的名字，表的列和分区及其属性，表的数据所在的目录等。
metastore默认使用内嵌的Derby数据库作为存储引擎，推荐使用MySQL数据库作为外置存储引擎

1.5 数据库与数据仓库的区别

Hive不支持修改和删除，侧重查询分析

数据库：传统的关系型数据库主要应用在基本的事务处理，例如银行交易；支持增删改查
数据仓库：主要做一些复杂的分析操作，侧重决策支持，相对数据库而言，数据仓库分析的数据规模要大的多；只支持查询。

数据库与数据仓库的本质区别是OLTP和OLAP的区别

2.Hive安装部署

2.1 下载

版本选择及下载参考：https://hive.apache.org/downloads.html

2.2 安装MySQL

略

2.3 安装hive

将安装包解压到指定目录并重命名为hive-2.3.9

在conf目录下复制hive-env.sh

cp hive-env.sh.template hive-env.sh

配置hive-env.sh，添加HADOOP_HOME

export HADOOP_HOME=/opt/module/hadoop-2.7.2

在conf目录下 touch hive-site.xml，添加如下内容




        
          javax.jdo.option.ConnectionURL
          jdbc:mysql://linux01:3306/metastore?serverTimezone=Asia/Shanghai
          JDBC connect string for a JDBC metastore
        

        
          javax.jdo.option.ConnectionDriverName
          com.mysql.jdbc.Driver
          Driver class name for a JDBC metastore
        

        
          javax.jdo.option.ConnectionUserName
          root
          username to use against metastore database
        

        
          javax.jdo.option.ConnectionPassword
          123456
          password to use against metastore database

!!需要手动创建hive元数据库metastore，注意此库必须是latin1，否则会出现奇怪问题！所以推荐手动创建！并且创建库之前不能有任意的hive操作，否则自动创建出来的库表将使用mysql默认的字符集，仍然报错！
!!另一种方法是修改mysql的配置文件，让mysql默认编码集就是latin1，这样hive自动创建的元数据库就是latin1的了，但是这已修改将会影响整个mysql数据库，如果mysql中有其他库，这种方式并不好。

配置hadoop 的core-site.xml ，添加如下配置


	hadoop.proxyuser.root.hosts
	*


	hadoop.proxyuser.root.groups
	*

重启hadoop集群
初始化metastore

当 MySQL 部署好，Hive 配置修改好之后，启动 metastore 并不会自动初始化 metastore 库，需要手动执行初始化操作。Hive 自带了 schematool 用于初始化 metastore，命令如下：

bin/schematool -dbType mysql -initSchema

3.Hive基础使用

3.1 Hive操作之命令行方式

直接使用hive

# 进入hive

bin/hive

# 选择数据库

hive> use default;

# 创建表
hive> create table t1 (id int, name string);

# 插入数据

hive> insert table t1 (id, name) values(1, "sanqian");

# 查看数据

hive> select * from t1;

使用beeline

优点：每列都是对齐的，方便查看

# 启动hiveserver2服务

 bin/hiveserver2

# 启动beeline

bin/beeline

# 连接hiveserver2

beeline> !connect jdbc:hive2://linux01:10000

需要输入mysql的用户名和密码，如下图所示

0: jdbc:hive2://linux01:10000> show databases;
+----------------+
| database_name  |
+----------------+
| default        |
+----------------+
1 row selected (1.593 seconds)
0: jdbc:hive2://linux01:10000> use default;
No rows affected (0.138 seconds)
0: jdbc:hive2://linux01:10000> show tables;
+-----------+
| tab_name  |
+-----------+
| t1        |
+-----------+
1 row selected (0.146 seconds)
0: jdbc:hive2://linux01:10000> select * from t1;
+--------+----------+
| t1.id  | t1.name  |
+--------+----------+
| 1      | sanqian  |
+--------+----------+
1 row selected (1.922 seconds)
0: jdbc:hive2://linux01:10000>

3.2 Hive操作之JDBC方式

引入依赖

 
        
            org.apache.hive
            hive-jdbc
            2.3.9

代码

package com.sanqian.hive;

import java.sql.*;

/**
 * JDBC操作Hive
 * 注意： 需要先启动hiveserver2服务
 */
public class HiveJdbcDemo {
    public static void main(String[] args) throws SQLException {
        // 指定hiveserver2的url链接
        String jdbcUrl = "jdbc:hive2://192.168.21.101:10000";
        // 获取连接，这里的user是指linux中的用户名，password随便指定即可
        Connection conn = DriverManager.getConnection(jdbcUrl, "root", "any");
        //获取Statement
        Statement stmt = conn.createStatement();
        //查询sql
        String sql = "select * from t1";
        //执行sql
        ResultSet res = stmt.executeQuery(sql);
        //循环读取结果
        while(res.next()){
            System.out.println(res.getInt("id") + "\t" + res.getString("name"));
        }


    }
}

运行结果：

3.3 查询后信息显示配置

Hive命令行下执行命令（仅当前会话有效）

hive> set hive.cli.print.current.db=true
    > ;
hive (default)> set hive.cli.print.header=true;
hive (default)> select * from t1;
OK
t1.id   t1.name
1       sanqian
Time taken: 6.35 seconds, Fetched: 1 row(s)
hive (default)>

Hive脚本~/.hiverc中配置set命令 (当前用户有效)

set hive.cli.print.current.db=true;
set hive.cli.print.header=true;

在hive-site中配置对本机启动的所有hive进程都有效


	hive.cli.print.header
	true



	hive.cli.print.current.db
	true

查看hive历史操作命令

tail -10 ~/.hivehistory

3.4 Hive的日志配置

Hive的log默认存放在/tmp/root/hive.log目录下（当前用户名下）

修改hive的log存放日志到/opt/module/hive-2.3.9/logs

hive运行时日志

mv hive-log4j2.properties.template hive-log4j2.properties

hive任务执行日志

 mv hive-exec-log4j2.properties.template hive-exec-log4j2.properties

4.Hive核心实战

4.1 数据库操作

# 查看数据库列表
show databases;
# 创建数据库
create database mydb1;
# 选择数据库
use default;
# 删除数据库
drop database mydb1;

创建一个数据库会增加/user/hive/warehouse增加一个目录

会在metastore数据的dbs表中增加一行记录

4.2 表的操作

4.2.1 创建表

create table t2(
  id int comment 'ID',
  stu_name string comment 'name',
  stu_birthday date comment 'birthday',
  online boolean comment 'is online'
)row format delimited fields terminated by '\t';

注意：写HQL语句时不能时使用table加空格，可以使用space

会在TBLS表中增加一条记录

行默认分隔符：\n (使用默认就行)

列默认分隔符：^A (可以使用ctrl + V ctrl + A 敲出)

4.2.2 加载数据

数据

1	zhangsan	2022-10-02	true
2	lisi	2022-10-01	false
3	wangwu	2022-10-03	NULL

加载到表中

load data local inpath '/opt/lwx1087471/hive_data/t2.txt' into table t2;

4.2.3 查看表信息

# 查看有哪些表

show tables;

# 查看表信息

desc t2;

# 查看创建表的信息

show create table t2;

hive (default)> show tables;
OK
tab_name
t1
t2
t3
Time taken: 0.018 seconds, Fetched: 3 row(s)
hive (default)> desc t2;
OK
col_name        data_type       comment
id                      int                     ID
stu_name                string                  name
stu_birthday            date                    birthday
online                  boolean                 is online
Time taken: 0.034 seconds, Fetched: 4 row(s)
hive (default)> show create table t2;
OK
createtab_stmt
CREATE TABLE `t2`(
  `id` int COMMENT 'ID',
  `stu_name` string COMMENT 'name',
  `stu_birthday` date COMMENT 'birthday',
  `online` boolean COMMENT 'is online')
ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'field.delim'='\t',
  'serialization.format'='\t')
STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://linux01:9000/user/hive/warehouse/t2'
TBLPROPERTIES (
  'transient_lastDdlTime'='1664829544')
Time taken: 0.093 seconds, Fetched: 18 row(s)
hive (default)>

4.2.4 表增加字段及注释、删除表

#增加字段

alter table t2_bak add columns(address string);

# 删除表

drop table t2_bak

# 清空表

runcate table 表名

清空管理表，只清空数据

不能清空外部表

4.2.5 修改表名

hive (default)> alter table t2 rename to t2_bak;

相应的HDFS的目录也会变化

4.2.6 指定列和行的分隔符

create table t4(
  id int comment 'ID',
  stu_name string comment 'name',
  stu_birthday date comment 'birthday',
  online boolean comment 'is online'
)row format delimited fields terminated by '\t' lines terminated by '\n';

通常情况下不需要手动指定行分隔符使用默认\n就行

4.3 数据类型

4.3.1 基本数据类型

4.3.2 复合数据类型

Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似，而STRUCT与C语言中的Struct类似，它封装了一个命名字段集合，复杂数据类型允许任意层次的嵌套。

综合实战：

1）ARRAY字段存储用户的兴趣爱好

2）使用MAP字段存储学生的考试成绩

3）使用STRUCT字段存储员工地址信息

创建表

create table student(
  id int comment 'ID',
  name string comment 'name',
  favors array comment 'favors',
  scores map comment 'scores',
  address struct
)row format delimited 
fields terminated by '\t'
collection items terminated by ','
map keys terminated by ':'
lines terminated by '\n';

加载数据

1	zhangsan	english,sing,swing	chinese:80,math:90,english:100	beijing,shanghai
2	lisi	games,coding	chinese:79,math:85,english:95	guangzhou,shenzhen


load data local inpath '/opt/xxx/hive_data/student.txt' into table student;

查询array类型某个元素使用下表

hive (default)> select favors[0] from student;
OK
_c0
english
games

查询map类型某个元素使用key

hive (default)> select scores['chinese'] from student;
OK
_c0
80
79

查询struct类型某个元素使用.

hive (default)> select address.home_addr from student;
OK
home_addr
beijing
guangzhou

4.4 表类型：内部表、外部表

内部表：

hive中默认的表类型，表数据默认存储在warehouse目录中
在加载数据的过程中，实际数据会被移动到warehouse目录中
删除表时，表的中数据和元数据将会被同时删除

外部表：

建表语句中包含external的表叫外部表
外部表在加载数据的时候，实际数据并不会启动到warehouse目录中，只是与外部数据建立一个链接(映射关系)
当删除一个外部表时，只是删除元数据，不删除表中的数据，仅删除表和数据之间的链接。
创建外部表时如果不指定location，默认数据存储在warehouse目录下
外部表一般使用外部HDFS路径

内部表和外部表可以相互转化：

# 内部表转外部表
alter table tblName set tblproperties('external'='true') 
# 外部表转内部表
alter table tblName set tblproperties('external'='false')

4.5 内部分区表

4.5.1 分区表：

分区表可以理解为分类，通过分区把不同类型数据放到不同目录里。
分区的标准就是指定分区字段，分区字段可以有一个或多个
分区表的意义在于优化查询，查询时尽量利用这个分区字段，如果不是分区字段，就会扫描全表，最典型的一个场景就是把天作为分区字段，查询的时候指定天。

4.5.2 创建分区表

create table partition_1(
  id int comment 'ID',
  name string comment 'name'
)partitioned by (dt string)
row format delimited 
fields terminated by '\t';

查看表信息

4.5.3 加载数据到指定分区

数据：原始数据不需要带分区字段

1       zhangsan
2       lisi

加载数据到分区表

load data local inpath '/opt/xxx/partition_1.txt' into table partition_1 partition(dt='20221004');

4.5.4 添加分区

 alter table partition_1 add partition(dt='20221005');

4.5.5 查看所有的分区信息

hive (default)> show partitions partition_1;
OK
partition
dt=20221004
dt=20221005

4.5.6 删除分区

alter table partition_1 drop partition(dt='20221005');

4.5.7 针对已有的分区如何上传数据

（1）使用load 加载数据

（2）使用put 传到对应的HDFS分区目录下

4.5.8 多个分区字段的使用

创建表

create table partition_2(
  id int comment 'ID',
  name string comment 'name'
)partitioned by (year int, school string)
row format delimited 
fields terminated by '\t';

准备数据

1 zhangsan
2 lisi
3 wangwu
加载数据到分区

load data local inpath '/opt/xxx/partition_2.txt' into table partition_2 partition(year=2022, school='xk');
load data local inpath '/opt/xxx/partition_2.txt' into table partition_2 partition(year=2022, school='english');
load data local inpath '/opt/xxx/partition_2.txt' into table partition_2 partition(year=2021, school='xk');
load data local inpath '/opt/xxx/partition_2.txt' into table partition_2 partition(year=2021, school='english');

查看数据

4.5.9 查询数据

select * from partition_2 where year=2022 and school='xk';

4.6 外部分区表（最常用）

外部分区表=外部表 + 分区（工作中最常用）
删除分区时，分区数据不会被删除
load data ...partition 和 alter table .... add partition

创建表：会在/data/ex_par创建一个目录

create external table ex_par(
  id int comment 'ID',
  name string comment 'name'
)partitioned by (dt string)
row format delimited 
fields terminated by '\t'
location '/data/ex_par';

加载数据

load data local inpath '/opt/lwx1087471/partition_2.txt' into table ex_par partition(dt='20221004');

删除分区

alter table ex_par drop partition(dt='20221004');

绑定已有的数据到指定分区

alter table ex_par add partition(dt='20221005') location '/data/ex_par/dt=20221004';

4.7 总结

第二种方式工作中更常用(95%)

方式1： load data .... partition

方式2：创建目录，上传数据，绑定已有的数据到指定分区。

4.8 表类型：桶表 + 视图

4.8.1 桶表

桶表时对数据进行哈希取值，然后放到不同的文件中存储
物理上，每个桶就是表里（或分区）里的一个文件
设置几个桶就会产生几个reduce任务.
桶表的作用：1.抽样 2.提高某些查询效率

使用场景：当按照某字段就行分区时，会出现数据倾斜的情况，这时可以使用桶表。从源头解决数据倾斜问题。

# 创建桶表

create table bucket_tb(
  id int comment 'ID'
)clustered by (id) into 4 buckets;

# 加载数据到临时表
load data local inpath '/opt/lwx1087471/ids.txt' into table b_source;

# 开启分桶功能
set hive.enforce.bucketing=true

# 插入数据
insert into table bucket_tb select id from b_source where id is not null;

会产生四个文件

采样

hive (default)> select * from bucket_tb tablesample(bucket 1 out of 4 on id);
OK
bucket_tb.id
16
12
8
4
Time taken: 0.276 seconds, Fetched: 4 row(s)

提高查询效率

普通表join会产生笛卡尔积，使用桶表join会避免笛卡尔积

4.8.2 视图

使用视图可以降低查询的复杂度

视图时一个逻辑表（虚拟表），删除视图不会给其他表造成任务影响

4.8 数据处理综合案例

5.Hive高级函数实战

函数的基本操作

1）查看所有内置函数：show functions;

2）查看指定函数的信息：desc function FUNC;

3）查看指定函数的扩展信息：desc function extended FUNC;

hive支持的函数要比mysql多

5.1 分组排序取topN

窗口函数

格式：函数 over( partition by 字段 ,order by 字段 window_clause )

row_number（）：增加行号函数

over（）：函数工作的数据窗口

5.1.1 需求每个科目的前三名，数据如下所示：

创建表

create external table student_score(
  id int, 
  name string, 
  sub string,
  score int
)row format delimited 
fields terminated by '\t'
location '/data/student_score';

上传数据

hadoop fs -put score.txt /data/student_score/

写HQL

select * from 
(select *, row_number() over(partition by sub order by score desc) as num from student_score
) as s where s.num<=3;

运行结果

5.1.2 row_number()、rank() 、dense_rank()的区别

区别：

1）row_number() ：增加行号，从1，...n 不重复

2）rank() ：排序允许并列，一旦有并列跳号，总数不会变

3）dense_rank() ：排序允许并列，一旦有并列不跳号，总数会减少

row_number()

rank()

dense_rank()

5.2 行转列(多行转成1列)

三个函数：

CONCAT_WS() : 接收一个Array字符串数组(或字符串)使用指定分隔符完成字符串的拼接，返回一个字符串
COLLECT_LIST() : 接收基本数据类型，返回一个Array类型字段
COLLECT_SET() ：接收基本数据类型，去重后返回一个Array类型字段

一般和group by 一起使用

创建表

create external table student_favors(
  name string, 
  favor string
)row format delimited 
fields terminated by '\t'
location '/data/student_favors';

准备数据

zs	swing
zs	footbal
zs	sing
zs	codeing
zs	swing

上传数据

hadoop fs -put student_favors.txt /data/student_favors/

COLLECT_LIST() ：不去重

select name,COLLECT_LIST(favor) as favors from student_favors group by name;

COLLECT_SET() ：不去重

select name,COLLECT_SET(favor) as favors from student_favors group by name;

CONCAT_WS : 使用指定分隔符拼接

select name,CONCAT_WS(',',COLLECT_SET(favor)) as favors from student_favors group by name;

5.3 列转行（把一列数据转成多行）

三个函数

split：使用指定分隔符分割字符串
explode : 接收Array或Map类型参数，每个元素成1行，对于Map类型key是一列value是一列。
lateral view ：通常和explode一起使用，相当于把explode返回的数据作为一张虚表，然后原表join上这张虚表。

案例

创建表

create external table student_favors_2(
  name string, 
  favors_list string
)row format delimited 
fields terminated by '\t'
location '/data/student_favors_2';

准备数据

zs	swing,footbal,sing
ls	codeing,swing

上传数据

hadoop fs -put student_favors_2.txt /data/student_favors_2/

使用explode

select explode(split(favors_list, ',')) from student_favors_2;

使用lateral view

select name,favor from student_favors_2 lateral view
explode(split(favors_list, ',')) t1 as favor;

5.4 排序函数

排序

order by ：全局排序，生成reduce任务只有一个
sort by ：保证每个reduce有序，不能保证全局有序（除非只有一个reduce）
distribute by ：只分区，常和sort by一起使用，distribute by必须写在sort by之前
cluster by：作用相当于 distribute by + sort by, 不支持降序

案例：

sort by

select id from bucket_tb order by id;

sort by

设置reduce个数：set mapreduce.job.reduces=2

cluster by

select id from bucket_tb distribute by id sort by id;

cluster by

select id from bucket_tb cluster by id;

5.5 分组和去重函数

group by 和distict的区别

需求：统计t1表中去重后name的数据量

方式一：使用distinct 

select count(distinct name) from t1;

方式二： 使用group by

selec count(*) from (select name from group by name) temp

使用方式一会把所有的数据shuffle到一个reduce中去做统计，性能不高。使用group by性能更高。

你可能感兴趣的:(Hive,hive,大数据,hadoop)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

大数据技术之Hive

1.Hive入门

1.1 什么是Hive

1.2 Hive的数据存储

1.3 Hive的系统架构

1.4 Metastore

1.5 数据库与数据仓库的区别

2.Hive安装部署

2.1 下载

2.2 安装MySQL

2.3 安装hive

3.Hive基础使用

3.1 Hive操作之命令行方式

3.2 Hive操作之JDBC方式

3.3 查询后信息显示配置

3.4 Hive的日志配置

4.Hive核心实战

4.1 数据库操作

4.2 表的操作

4.2.1 创建表

4.2.2 加载数据

4.2.3 查看表信息

4.2.4 表增加字段及注释、删除表

4.2.5 修改表名

4.2.6 指定列和行的分隔符

4.3 数据类型

4.3.1 基本数据类型

4.3.2 复合数据类型

4.4 表类型：内部表、外部表

4.5 内部分区表

4.5.1 分区表：

4.5.2 创建分区表

4.5.3 加载数据到指定分区

4.5.4 添加分区

4.5.5 查看所有的分区信息

4.5.6 删除分区

4.5.7 针对已有的分区如何上传数据

4.5.8 多个分区字段的使用

4.5.9 查询数据

4.6 外部分区表（最常用）

4.7 总结

4.8 表类型：桶表 + 视图

4.8.1 桶表

4.8.2 视图

4.8 数据处理综合案例

5.Hive高级函数实战

5.1 分组排序取topN

5.1.1 需求每个科目的前三名， 数据如下所示：

5.1.2 row_number()、rank() 、dense_rank()的区别

5.2 行转列(多行转成1列)

5.3 列转行（把一列数据转成多行）

5.4 排序函数

5.5 分组和去重函数

你可能感兴趣的:(Hive,hive,大数据,hadoop)

5.1.1 需求每个科目的前三名，数据如下所示：