新征程，再出发

hive数据库操作,hive函数，FineBI可视化操作

1、数据库操作

1.1、创建数据库

create database if not exists myhive;

use  myhive;

1.2、查看数据库详细信息

desc  database  myhive;

数据库本质上就是在HDFS之上的文件夹。

默认数据库的存放路径是HDFS的：/user/hive/warehouse内

1.3、创建数据库并指定hdfs存储位置

使用location关键字，可以指定数据库在HDFS的存储路径。

create database myhive2 location '/myhive2';

1.4、删除数据库

删除一个空数据库，如果数据库下面有数据表，那么就会报错

drop  database  myhive;

强制删除数据库，包含数据库下面的表一起删除

drop  database  myhive2  cascade;

2、数据库表操作

2.1、表分类

Hive中可以创建的表有好几种类型，分别是：

内部表
外部表
分区表
分桶表

2.2、内部表

内部表（CREATE TABLE table_name …）

未被external关键字修饰的即是内部表，即普通表。内部表又称管理表,内部表数据存储的位置由hive.metastore.warehouse.dir参数决定（默认：/user/hive/warehouse），删除内部表会直接删除元数据（metadata）及存储数据，因此内部表不适合和其他工具共享数据。

2.2.1、创建内部表

内部表的创建语法就是标准的：CREATE TABLE table_name…

创建一个基础的表

create database if not exists myhive;

use myhive;

create table if not exists stu(id int,name string);

insert into stu values (1,"zhangsan"), (2, "wangwu");

select * from stu;

查看表的数据存储
在HDFS上，查看表的数据存储文件

hdfs dfs -ls /user/hive/warehouse/myhive.db/stu

hdfs dfs -cat /user/hive/warehouse/myhive.db/stu/*

2.2.2、数据分隔符

可以看到，数据在HDFS上也是以明文文件存在的。

奇怪的是，列ID和列NAME，好像没有分隔符，而是挤在一起的。

这是因为，默认的数据分隔符是：”\001”是一种特殊字符，是ASCII值，键盘是打不出来
在某些文本编辑器中是显示为SOH的。

2.2.3、自行指定分隔符

在创建表的时候可以自己决定：

create table if not exists stu2(id int ,name string) row format delimited fields terminated by '\t';

row format delimited fields terminated by ‘\t’：表示以\t分隔

2.2.4、其它创建内部表的形式

除了标准的CREATE TABLE table_name的形式创建内部表外
我们还可以通过：

CREATE TABLE table_name as，基于查询结果建表

create table stu3 as select * from stu2;

CREATE TABLE table_name like，基于已存在的表结构建表

create table stu4 like stu2;

也可以使用DESC FORMATTED table_name，查看表类型和详情

DESC FORMATTED stu2;

2.2.5、删除内部表

我们是内部表删除后，数据本身也不会保留，让我们试一试吧。
DROP TABLE table_name，删除表

drop table stu2;

可以看到，stu2文件夹已经不存在了，数据被删除了。

2.3、外部表

外部表（CREATE EXTERNAL TABLE table_name …LOCATION…）

被external关键字修饰的即是外部表，即关联表。

外部表是指表数据可以在任何位置，通过LOCATION关键字指定。数据存储的不同也代表了这个表在理念是并不是Hive内部管理的，而是可以随意临时链接到外部数据上的。

所以，在删除外部表的时候，仅仅是删除元数据（表的信息），不会删除数据本身。

内部表和外部表

2.3.1、外部表的创建

外部表，创建表被EXTERNAL关键字修饰，从概念是被认为并非Hive拥有的表，只是临时关联数据去使用。

创建外部表也很简单，基于外部表的特性，可以总结出：外部表和数据是相互独立的，即：

可以先有表，然后把数据移动到表指定的LOCATION中
也可以先有数据，然后创建表通过LOCATION指向数据

在Linux上创建新文件，test_external.txt，并填入如下内容：

先创建外部表，然后移动数据
2. 演示先创建外部表，然后移动数据到LOCATION目录
首先检查：hadoop fs -ls /tmp，确认不存在/tmp/test_ext1目录

hadoop fs -ls /tmp

创建外部表：create external table test_ext1(id int, name string) row format delimited fields terminated by ‘\t’ location ‘/tmp/test_ext1’;

create external table test_ext1(id int, name string) row format delimited fields terminated by '\t' location '/tmp/test_ext1';

可以看到，目录/tmp/test_ext1被创建

select * from test_ext1，空结果，无数据

上传数据： hadoop fs -put test_external.txt /tmp/test_ext1/
select * from test_ext1，即可看到数据结果

hadoop fs -put test_external.txt /tmp/test_ext1/

select * from test_ext1

演示先存在数据，后创建外部表

hadoop fs -mkdir /tmp/test_ext2

hadoop fs -put test_external.txt /tmp/test_ext2/

create external table test_ext2(id int, name string) row format delimited fields terminated by '\t' location '/tmp/test_ext2';

select * from test_ext2;

2.3.2、删除外部表

drop table test_ext1;
drop table test_ext2;

可以发现，在Hive中通过show table，表不存在了
但是在HDFS中，数据文件依旧保留

2.3.3、内外部表转换

ive可以很简单的通过SQL语句转换内外部表。
查看表类型：desc formatted stu;

desc formatted stu;

内部表

内部表转外部表

alter table stu set tblproperties('EXTERNAL'='TRUE');

外部表转内部表

alter table stu set tblproperties('EXTERNAL'='FALSE');

要注意：(‘EXTERNAL’=‘FALSE’) 或 (‘EXTERNAL’=‘TRUE’)为固定写法，区分大小写！！！

2.4、数据加载和导出

2.4.1、数据加载 - LOAD语法

我们使用 LOAD 语法，从外部将数据加载到Hive内，语法如下：

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename;

建表

CREATE TABLE myhive.test_load(
  dt string comment '时间（时分秒）', 
  user_id string comment '用户ID', 
  word string comment '搜索词',
  url string comment '用户访问网址'
) comment '搜索引擎日志表' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

还没有数据
数据加载
从本地加载

load data local inpath '/home/hadoop/search_log.txt' into table myhive.test_load;

数据加载从HDFS上传
注意，基于HDFS进行load加载数据，源数据文件会消失（本质是被移动到表所在的目录中）

load data inpath '/tmp/search_log.txt' overwrite into table myhive.test_load;

加上overwrite 关键字。相同的数据不会追加。

2.4.2、数据加载 - INSERT SELECT 语法

除了load加载外部数据外，我们也可以通过SQL语句，从其它表中加载数据。

语法

将SELECT查询语句的结果插入到其它表中，被SELECT查询的表可以是内部表或外部表。

insert into myhive.test_load2 select * from myhive.test_load;

2.4.3、两种语法的选择

数据在本地
推荐 load data local加载。
数据在HDFS
如果不保留原始文件：推荐使用LOAD方式直接加载。
如果保留原始文件：推荐使用外部表先关联数据，然后通过INSERT SELECT 外部表的形式加载数据。
数据已经在表中
只可以INSERT SELECT。

2.4.4、hive表数据导出 - insert overwrite 方式

将hive表中的数据导出到其他任意目录，例如linux本地磁盘，例如hdfs，例如mysql等等

语法：insert overwrite [local] directory ‘path’ select_statement1 FROM from_statement;

将查询的结果导出到本地 - 使用默认列分隔符

insert overwrite local directory '/home/hadoop/export1' select * from test_load ;

将查询的结果导出到本地 - 指定列分隔符

insert overwrite local directory '/home/hadoop/export2' row format delimited fields terminated by '\t' select * from test_load;

将查询的结果导出到HDFS上(不带local关键字)

insert overwrite directory '/tmp/export' row format delimited fields terminated by '\t' select * from test_load;

2.4.5、hive表数据导出 - hive shell

基本语法：（hive -f/-e 执行语句或者脚本 > file）

bin/hive -e "select * from myhive.test_load;" > /home/hadoop/export3/export4.txt

bin/hive -f export.sql > /home/hadoop/export4/export4.txt

2.5、分区表

什么是分区表？

可以选择字段作为表分区。
分区其实就是HDFS上的不同文件夹。
分区表可以极大的提高特定场景下Hive的操作性能。

在大数据中，最常用的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个小的文件就会很容易了

同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天，或者每小时进行切分成一个个的小的文件，这样去操作小的文件就会容易得多了。

同时Hive也支持多个字段作为分区，多分区带有层级关系，如图

2.5.1、分区表的使用

基本语法：

create table tablename(...) partitioned by (分区列 列类型, ......) 
row format delimited fields terminated by '';

创建一个分区表

-- 创建一个分区表，按照月分区
create table myhive.score(
    name string,
    course string,
    score int
) partitioned by (month string)
row format delimited fields terminated by '\t';

加载数据到分区

load data local inpath '/home/hadoop/score.txt' into table myhive.score partition(month='202309');

9月分区
10月分区

2.5.2、查hdfs存储的数据

hdfs dfs -ls /user/hive/warehouse/myhive.db/score

hdfs dfs -cat /user/hive/warehouse/myhive.db/score/month=202309/score.txt

2.5.3、多分区表

根据年月日分区

create table myhive.score2(
                             name string,
                             course string,
                             score int
) partitioned by (year string,month string,day string)
    row format delimited fields terminated by '\t';

-- 加载数据到分区表中
load data local inpath '/home/hadoop/score.txt'
    into table myhive.score2 partition(year='2023',month='09',day='01');

load data local inpath '/home/hadoop/score.txt'
    into table myhive.score2 partition(year='2023',month='09',day='02');

select * from myhive.score2;

2.6、分桶表

分桶和分区一样，也是一种通过改变表的存储模式，从而完成对表优化的一种调优方式。
但和分区不同，分区是将表拆分到不同的子文件夹中进行存储，而分桶是将表拆分到固定数量的不同文件中进行存储。

2.5.1、分桶表创建

开启分桶的自动优化（自动匹配reduce task数量和桶数量一致）

set hive.enforce.bucketing=true;

创建分桶表

create table course (c_id string,c_name string,t_id string) clustered by(c_id) into 3 buckets row format delimited fields terminated by '\t';

2.5.2、分桶表数据加载

桶表的数据加载，由于桶表的数据加载通过load data无法执行，只能通过insert select.
所以，比较好的方式是

创建一个临时表（外部表或内部表均可），通过load data加载数据进入表

-- 创建一个普通表
create table course_temp(
   c_id string,
   c_name string,
   t_id string
) row format delimited fields terminated by '\t';

-- 向普通表加载数据
load data local inpath '/home/hadoop/course.txt' into table course_temp;

select * from course_temp;

然后通过insert select 从临时表向桶表插入数据

-- 临时表向course表加载数据
insert overwrite table course select * from course_temp cluster by(c_id);

2.5.3、为什么不可以用load data，必须用insert select插入数据

如果没有分桶设置，插入（加载）数据只是简单的将数据放入到：

表的数据存储文件夹中（没有分区）
表指定分区的文件夹中（带有分区）

一旦有了分桶设置，比如分桶数量为3，那么，表内文件或分区内数据文件的数量就限定为3
当数据插入的时候，需要一分为3，进入三个桶文件内。

问题就在于：如何将数据分成三份，划分的规则是什么？

数据的三份划分基于分桶列的值进行hash取模来决定
由于load data不会触发MapReduce，也就是没有计算过程（无法执行Hash算法），只是简单的移动数据而已，所以无法用于分桶表数据插入。

2.5.4、Hash取模

Hash算法是一种数据加密算法，其主要特征：

同样的值被Hash加密后的结果是一致的
比如字符串“hadoop”被Hash后的结果是12345（仅作为示意），那么无论计算多少次，字符串“hadoop”的结果都会是12345。

比如字符串“bigdata”被Hash后的结果是56789（仅作为示意），那么无论计算多少次，字符串“bigdata”的结果都会是56789。

基于如上特征，在辅以有3个分桶文件的基础上，将Hash的结果基于3取模（除以3 取余数）
那么，可以得到如下结果：

无论什么数据，得到的取模结果均是：0、1、2 其中一个
同样的数据得到的结果一致，如hadoop hash取模结果是1，无论计算多少次，字符串hadoop的取模结果都是1。

所以，必须使用insert select的语法，因为会触发MapReduce，进行hash取模计算。

2.5.5、ash取模确定数据归属哪个分桶文件

基于Hash取模，数据中的每一个分桶列的值，都被hash取模得到0、1、2其中一个数
基于结果，存入对应序号的桶文件中。

2.5.6、分桶表的性能提升

如果说分区表的性能提升是：在指定分区列的前提下，减少被操作的数据量，从而提升性能。

分桶表的性能提升就是：基于分桶列的特定操作，如：过滤、JOIN、分组，均可带来性能提升。

2.7、修改表

2.7.1、表重命名

alter  table  old_table_name  rename  to  new_table_name;

如：alter table score4 rename to score5;

2.7.2、修改表属性值

ALTER TABLE table_name SET TBLPROPERTIES table_properties;
table_properties:
: (property_name = property_value, property_name = property_value, … )

如：ALTER TABLE table_name SET TBLPROPERTIES("EXTERNAL"="TRUE");  修改内外部表属性

如：ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comment); 修改表注释

2.7.3、添加分区

ALTER TABLE tablename  ADD PARTITION (month='201101');

新分区是空的没数据，需要手动添加或上传数据文件

2.7.4、修改分区值

ALTER TABLE tablename PARTITION (month='202005') RENAME TO PARTITION (month='201105');

2.7.5、删除分区

ALTER TABLE tablename DROP PARTITION (month='201105');

2.7.6、添加列

ALTER TABLE table_name ADD COLUMNS (v1 int, v2 string);

2.7.7、修改列名

ALTER TABLE test_change CHANGE v1 v1new INT;

2.7.8、删除表

DROP TABLE tablename;

2.7.9、清空表

TRUNCATE TABLE tablename;

只可以清空内部表

2.8、复杂类型操作

Hive支持的数据类型很多，除了基本的：int、string、varchar、timestamp等
还有一些复杂的数据类型：

array
数组类型
map
映射类型
struct
结构类型

2.8.1、array类型

如下数据文件，有2个列，locations列包含多个城市:

说明:name与locations之间制表符分隔，locations中元素之间逗号分隔

可以使用array数组类型，存储locations的数据

建表语句：

create table myhive.test_array(name string, work_locations array<string>)
row format delimited fields terminated by '\t'
COLLECTION ITEMS TERMINATED BY ',';

row format delimited fields terminated by ‘\t’ 表示列分隔符是\t
COLLECTION ITEMS TERMINATED BY ‘,’ 表示集合（array）元素的分隔符是逗号

导入数据

load data local inpath '/home/hadoop/data_for_array_type.txt' overwrite into table myhive.test_array;

常用array类型查询：

-- 查询所有数据
select * from myhive.test_array;
-- 查询loction数组中第一个元素
select name, work_locations[0] location from myhive.test_array;
-- 查询location数组中元素的个数
select name, size(work_locations) location from myhive.test_array;
-- 查询location数组中包含tianjin的信息
select * from myhive.test_array where array_contains(work_locations,'tianjin');

2.8.2、Map类型

map类型其实就是简单的指代：Key-Value型数据格式。有如下数据文件，其中members字段是key-value型数据

字段与字段分隔符: “,”；需要map字段之间的分隔符：“#”；map内部k-v分隔符：“:”

建表语句：

create table myhive.test_map(
id int, name string, members map<string,string>, age int
)
row format delimited
fields terminated by ','
COLLECTION ITEMS TERMINATED BY '#' 
MAP KEYS TERMINATED BY ':';

MAP KEYS TERMINATED BY ‘:’ 表示key-value之间用:分隔

导入数据

load data local inpath '/home/hadoop/data_for_map_type.txt' overwrite into table myhive.test_map;

常用查询

# 查询全部
select * from myhive.test_map;
# 查询father、mother这两个map的key
select id, name, members['father'] father, members['mother'] mother, age from myhive.test_map;
# 查询全部map的key，使用map_keys函数，结果是array类型
select id, name, map_keys(members) as relation from myhive.test_map;
# 查询全部map的value，使用map_values函数，结果是array类型
select id, name, map_values(members) as relation from myhive.test_map;
# 查询map类型的KV对数量
select id,name,size(members) num from myhive.test_map;
# 查询map的key中有brother的数据
select * from myhive.test_map where array_contains(map_keys(members), 'brother');

2.8.3、Struct类型

struct类型是一个复合类型，可以在一个列中存入多个子列，每个子列允许设置类型和名称

有如下数据文件，说明：字段之间#分割，struct之间冒号分割

建表语句：

create table myhive.test_struct(
id string, info struct<name:string, age:int>
)
row format delimited
fields terminated by '#'
COLLECTION ITEMS TERMINATED BY ':';

导入数据

load data local inpath '/home/hadoop/data_for_struct_type.txt' into table myhive.test_struct;

常用查询

select * from myhive.test_struct;
-- 直接使用列名.子列名 即可从struct中取出子列查询
select id, info.name from myhive.test_struct;

2.9、基本查询

2.9.1、基本语法

查询语句的基本语法

SELECT [ALL | DISTINCT]select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BYcol_list]
[HAVING where_condition]
[ORDER BYcol_list]
[CLUSTER BYcol_list
  | [DISTRIBUTE BY col_list] [SORT BY col_list]
]
[LIMIT number]

整体上和普通SQL差不多，部分有区别，如：CLUSTER BY、DISTRIBUTE BY、SORT BY等

2.9.2、基本查询

准备数据：订单表

CREATE DATABASE it;
USE it;
CREATE TABLE it.orders (
    orderId bigint COMMENT '订单id',
    orderNo string COMMENT '订单编号',
    shopId bigint COMMENT '门店id',
    userId bigint COMMENT '用户id',
    orderStatus tinyint COMMENT '订单状态 -3:用户拒收 -2:未付款的订单 -1：用户取消 0:待发货 1:配送中 2:用户确认收货',
    goodsMoney double COMMENT '商品金额',
    deliverMoney double COMMENT '运费',
    totalMoney double COMMENT '订单金额（包括运费）',
    realTotalMoney double COMMENT '实际订单金额（折扣后金额）',
    payType tinyint COMMENT '支付方式,0:未知;1:支付宝，2：微信;3、现金；4、其他',
    isPay tinyint COMMENT '是否支付 0:未支付 1:已支付',
    userName string COMMENT '收件人姓名',
    userAddress string COMMENT '收件人地址',
    userPhone string COMMENT '收件人电话',
    createTime timestamp COMMENT '下单时间',
    payTime timestamp COMMENT '支付时间',
    totalPayFee int COMMENT '总支付金额'
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

数据加载

LOAD DATA LOCAL INPATH '/home/hadoop/itheima_orders.txt' INTO TABLE it.orders;

准备数据：用户表

CREATE TABLE it.users (
    userId int,
    loginName string,
    loginSecret int,
    loginPwd string,
    userSex tinyint,
    userName string,
    trueName string,
    brithday date,
    userPhoto string,
    userQQ string,
    userPhone string,
    userScore int,
    userTotalScore int,
    userFrom tinyint,
    userMoney double,
    lockMoney double,
    createTime timestamp,
    payPwd string,
    rechargeMoney double
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

数据加载

LOAD DATA LOCAL INPATH '/home/hadoop/itheima_users.txt' INTO TABLE it.users;

查询所有

SELECT * FROM itheima.orders;

查询单列

SELECT orderid, totalmoney, username, useraddress, paytime FROM itheima.orders;

查询数据量

SELECT COUNT(*) FROM itheima.orders;

过滤广东省订单

SELECT * FROM itheima.orders WHERE useraddress LIKE '%广东%';

找出广东省单笔营业额最大的订单

SELECT * FROM itheima.orders WHERE useraddress like '%广东%' ORDER BY totalmoney DESC LIMIT 1;

2.9.3、分组、聚合

统计未支付、已支付各自的人数

SELECT ispay, COUNT(*) AS cnt FROM itheima.orders GROUP BY ispay;

在已付款订单中，统计每个用户最高的一笔消费金额

SELECT userid, MAX(totalmoney) AS max_money FROM itheima.orders WHERE ispay = 1 GROUP BY userid;

统计每个用户的平均订单消费额

SELECT userid, AVG(totalmoney) FROM itheima.orders GROUP BY userid;

统计每个用户的平均订单消费额，过滤大于10000的数据

SELECT userid, AVG(totalmoney) AS avg_money FROM itheima.orders GROUP BY userid HAVING avg_money > 10000;

2.9.4、JOIN

JOIN订单表和用户表，找出用户名

SELECT o.orderid, o.userid, u.username, o.totalmoney, o.useraddress, o.paytime FROM itheima.orders o JOIN itheima.users u ON o.userid = u.userid;

左外关联，订单表和用户表，找出用户名

SELECT o.orderid, o.userid, u.username, o.totalmoney, o.useraddress, o.paytime FROM itheima.orders o LEFT JOIN itheima.users u ON o.userid = u.userid;

2.10、RLIKE 正则匹配

正则表达式是一种规则集合，通过特定的规则字符描述，来判断字符串是否符合规则。

RLIKE
Hive中提供RLIKE关键字，可以供用户使用正则和数据进行匹配。

我们以上面中使用的订单表为例，来简单使用一下RLIKE正则匹配。

查找广东省的数据

SELECT * FROM itheima.orders WHERE useraddress RLIKE '.*广东.*';

查找用户地址是：xx省 xx市 xx区的数据

SELECT * FROM itheima.orders WHERE useraddress RLIKE '..省 ..市 ..区';

查找用户姓为张、王、邓

SELECT * FROM itheima.orders WHERE username RLIKE '[张王邓]\\S+';

查找手机号符合：188*0 规则

SELECT * FROM itheima.orders WHERE userphone  RLIKEE '188\\S{4}0\\S{3}';

2.11、UNION联合

UNION 用于将多个 SELECT 语句的结果组合成单个结果集。

每个 select 语句返回的列的数量和名称必须相同。否则，将引发架构错误。

基础语法：

SELECT ...
    UNION [ALL]
SELECT ...

准备数据进行测试

创建表

CREATE TABLE it.course(
c_id string, 
c_name string, 
t_id string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

加载数据

LOAD DATA LOCAL INPATH '/home/hadoop/course.txt' INTO TABLE it.course;

联合两个查询结果集

SELECT * FROM course WHERE t_id = '周杰轮'
    UNION 
SELECT * FROM course WHERE t_id = '王力鸿'

2.11.1、UNION联合 - 去重

UNION默认有去重功能：

直接联合两个同样的查询结果

SELECT * FROM course
UNION 
SELECT * FROM course

如果不需要去重效果

SELECT * FROM course
    UNION ALL 
SELECT * FROM course

2.11.2、其他写法

UNION写在FROM中

SELECT t_id, COUNT(*) FROM 
(
	SELECT t_id FROM itheima.course WHERE t_id = '周杰轮'
		UNION ALL
	SELECT t_id FROM itheima.course WHERE t_id = '王力鸿'
) AS u GROUP BY t_id;

用于INSERT SELECT中

CREATE TABLE it.course2 LIKE it.course;
INSERT OVERWRITE TABLE it.course2
    SELECT * FROM it.course
	UNION ALL
    SELECT * FROM it.course;

2.12、Sampling采样

2.12.1、为什么需要抽样表数据

对表进行随机抽样是非常有必要的。

大数据体系下，在真正的企业环境中，很容易出现很大的表，比如体积达到TB级别。
对这种表一个简单的SELECT * 都会非常的慢，哪怕LIMIT 10想要看10条数据，也会走MapReduce流程，这个时间等待是不合适的。

Hive提供的快速抽样的语法，可以快速从大表中随机抽取一些数据供用户查看。

2.12.2、TABLESAMPLE函数

进行随机抽样，本质上就是用TABLESAMPLE函数

语法1，基于随机分桶抽样：

SELECT ... FROM tbl TABLESAMPLE(BUCKET x OUT OF y ON(colname | rand()))

y表示将表数据随机划分成y份（y个桶）
x表示从y里面随机抽取x份数据作为取样
colname表示随机的依据基于某个列的值
rand()表示随机的依据基于整行

示例：

SELECT username, orderId, totalmoney FROM itheima.orders TABLESAMPLE(BUCKET 1 OUT OF 10 ON username);
SELECT * FROM itheima.orders TABLESAMPLE(BUCKET 1 OUT OF 10 ON rand());

注意：

使用colname作为随机依据，则其它条件不变下，每次抽样结果一致。
使用rand()作为随机依据，每次抽样结果都不同。

语法2，基于数据块抽样

SELECT ... FROM tbl TABLESAMPLE(num ROWS | num PERCENT | num(K|M|G));

num ROWS 表示抽样num条数据。
num PERCENT 表示抽样num百分百比例的数据。
num(K|M|G) 表示抽取num大小的数据，单位可以是K、M、G表示KB、MB、GB。

注意：

使用这种语法抽样，条件不变的话，每一次抽样的结果都一致。
即无法做到随机，只是按照数据顺序从前向后取。

2.13、Virtual Columns 虚拟列

2.13.1、Virtual Columns虚拟列

虚拟列是Hive内置的可以在查询语句中使用的特殊标记，可以查询数据本身的详细参数。

Hive目前可用3个虚拟列：

INPUT__FILE__NAME，显示数据行所在的具体文件
BLOCK__OFFSET__INSIDE__FILE，显示数据行所在文件的偏移量
ROW__OFFSET__INSIDE__BLOCK，显示数据所在HDFS块的偏移量
- 此虚拟列需要设置：SET hive.exec.rowoffset=true 才可使用

示例：

SELECT *, INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE, ROW__OFFSET__INSIDE__BLOCK FROM it.course;

2.13.2、虚拟列的作用

使用虚拟列，可以让我们更精准的查看到具体每一条数据在存储上的详细参数细节。

虚拟列不仅仅可以用于SELECT，在WHERE、GROUP BY等均可使用。
如：

SELECT *, BLOCK__OFFSET__INSIDE__FILE FROM course WHERE BLOCK__OFFSET__INSIDE__FILE > 50;

SELECT INPUT__FILE__NAME, COUNT(*) FROM it.orders GROUP BY INPUT__FILE__NAME;

除此以外，在某些错误排查场景上，虚拟列可以提供相关帮助。

3、函数

官方文档(https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-MathematicalFunctions)

3.1、分类标准

Hive的函数分为两大类：内置函数（Built-in Functions）、用户定义函数UDF（User-Defined Functions）：

3.2、查看函数列表

Hive内建了不少函数

使用show functions查看当下可用的所有函数；

通过describe function extended funcname来查看函数的使用方式。

3.3、Mathematical Functions 数学函数

----Mathematical Functions 数学函数-------------
--取整函数: round  返回double类型的整数值部分 （遵循四舍五入）
select round(3.1415926);

--指定精度取整函数: round(double a, int d) 返回指定精度d的double类型
select round(3.1415926,4);

--取随机数函数: rand 每次执行都不一样 返回一个0到1范围内的随机数
select rand();

--指定种子取随机数函数: rand(int seed) 得到一个稳定的随机数序列
select rand(3);

--求数字的绝对值
select abs(-3);

--得到pi值（小数点后15位精度）
select pi();

3.4、Collection Functions集合函数

3.5、Type Conversion Functions类型转换函数

3.6、Date Functions日期函数

3.7、Conditional Functions条件函数

3.8、String Functions字符串函数

3.9、Data Masking Functions数据脱敏函数

3.10、Misc. Functions其它函数

4、案例

4.1、需求分析

4.1.1、背景介绍：

聊天平台每天都会有大量的用户在线，会出现大量的聊天数据，通过对聊天数据的统计分析，可以更好的对用户构建精准的用户画像，为用户提供更好的服务以及实现高ROI的平台运营推广，给公司的发展决策提供精确的数据支撑。

我们将基于一个社交平台App的用户数据，完成相关指标的统计分析并结合BI工具对指标进行可视化展现。

4.1.2、目标：

基于Hadoop和Hive实现聊天数据统计分析，构建聊天数据分析报表。

4.1.3、需求：

统计今日总消息量
统计今日每小时消息量、发送和接收用户数
统计今日各地区发送消息数据量
统计今日发送消息和接收消息的用户数
统计今日发送消息最多的Top10用户
统计今日接收消息最多的Top10用户
统计发送人的手机型号分布情况
统计发送人的设备操作系统分布情况

4.1.4、数据内容：

数据大小：30万条数据
列分隔符：Hive默认分隔符’\001’
数据字典及样例数据

4.1.5、建库建表

–如果数据库已存在就删除

drop database if exists db_msg cascade ;

–创建数据库

create database db_msg ;

–切换数据库

use db_msg ;

–列举数据库

show databases ;

--如果表已存在就删除
drop table if exists db_msg.tb_msg_source ;

--建表
create table db_msg.tb_msg_source(
	msg_time string comment "消息发送时间",
	sender_name string comment "发送人昵称",
	sender_account string comment "发送人账号",
	sender_sex string comment "发送人性别",
	sender_ip string comment "发送人ip地址",
	sender_os string comment "发送人操作系统",
	sender_phonetype string comment "发送人手机型号",
	sender_network string comment "发送人网络类型",
	sender_gps string comment "发送人的GPS定位",
	receiver_name string comment "接收人昵称",
	receiver_ip string comment "接收人IP",
	receiver_account string comment "接收人账号",
	receiver_os string comment "接收人操作系统",
	receiver_phonetype string comment "接收人手机型号",
	receiver_network string comment "接收人网络类型",
	receiver_gps string comment "接收人的GPS定位",
	receiver_sex string comment "接收人性别",
	msg_type string comment "消息类型",
	distance string comment "双方距离",
	message string comment "消息内容"
);

4.1.6、加载数据

上传文件到Linux系统
load数据到表

load data local inpath '/home/hadoop/chat_data-30W.csv' overwrite into table tb_msg_source;

验证结果

select 
    msg_time, sender_name, sender_ip, sender_phonetype, receiver_name, receiver_network 
from tb_msg_source limit 10;

4.2、ETL数据清洗

4.2.1、数据清洗

数据问题

问题1：当前数据中，有一些数据的字段为空，不是合法数据

select   msg_time,   sender_name,   sender_gps from
db_msg.tb_msg_source where length(sender_gps) = 0 limit 10;

问题2：需求中，需要统计每天、每个小时的消息量，但是数据中没有天和小时字段，只有整体时间字段，不好处理

select msg_time from db_msg.tb_msg_source limit 10;

问题3：需求中，需要对经度和维度构建地区的可视化地图，但是数据中GPS经纬度为一个字段，不好处理

select sender_gps from db_msg.tb_msg_source limit 10;

4.2.2、需求

需求1：对字段为空的不合法数据进行过滤
where过滤
需求2：通过时间字段构建天和小时字段
date hour函数
需求3：从GPS的经纬度中提取经度和维度
split函数
需求4：将ETL以后的结果保存到一张新的Hive表中

create table db_msg.tb_msg_etl(
	msg_time string comment "消息发送时间",
	sender_name string comment "发送人昵称",
	sender_account string comment "发送人账号",
	sender_sex string comment "发送人性别",
	sender_ip string comment "发送人ip地址",
	sender_os string comment "发送人操作系统",
	sender_phonetype string comment "发送人手机型号",
	sender_network string comment "发送人网络类型",
	sender_gps string comment "发送人的GPS定位",
	receiver_name string comment "接收人昵称",
	receiver_ip string comment "接收人IP",
	receiver_account string comment "接收人账号",
	receiver_os string comment "接收人操作系统",
	receiver_phonetype string comment "接收人手机型号",
	receiver_network string comment "接收人网络类型",
	receiver_gps string comment "接收人的GPS定位",
	receiver_sex string comment "接收人性别",
	msg_type string comment "消息类型",
	distance string comment "双方距离",
	message string comment "消息内容",
	msg_day string comment "消息日",
	msg_hour string comment "消息小时",
	sender_lng double comment "经度",
	sender_lat double comment "纬度"
);

4.2.3、ETL数据清洗

实现

INSERT OVERWRITE TABLE db_msg.tb_msg_etl
SELECT
    *,
    day(msg_time) as msg_day,
    HOUR(msg_time) as msg_hour,
    split(sender_gps, ',')[0] AS sender_lng,
    split(sender_gps, ',')[1] AS sender_lat
FROM tb_msg_source WHERE LENGTH(sender_gps) > 0;

查看结果

select    msg_time, msy_day, msg_hour, sender_gps, sender_lng, sender_latfrom db_msg.tb_msg_etllimit 10;

4.2.4、扩展概念：ETL

其实我们刚刚完成了从表tb_msg_source 查询数据进行数据过滤和转换，并将结果写入到：tb_msg_etl表中的操作。

这种操作，本质上是一种简单的ETL行为。

ETL：

E，Extract，抽取
T，Transform，转换
L，Load，加载
从A抽取数据(E)，进行数据转换过滤(T)，将结果加载到B(L)，就是ETL啦。

ETL在大数据系统中是非常常见的。

4.3、指标计算

指标1：统计今日消息总量

--保存结果表
CREATE TABLE IF NOT EXISTS tb_rs_total_msg_cnt 
COMMENT "每日消息总量" AS 
SELECT 
    msg_day, 
    COUNT(*) AS total_msg_cnt 
FROM db_msg.tb_msg_etl 
GROUP BY msg_day;

指标2：统计每小时消息量、发送和接收用户数

--保存结果表
CREATE TABLE IF NOT EXISTS tb_rs_hour_msg_cnt 
COMMENT "每小时消息量趋势" AS  
SELECT  
    msg_hour, 
    COUNT(*) AS total_msg_cnt, 
    COUNT(DISTINCT sender_account) AS sender_usr_cnt, 
    COUNT(DISTINCT receiver_account) AS receiver_usr_cnt
FROM db_msg.tb_msg_etl GROUP BY msg_hour;

指标3：统计今日各地区发送消息总量

CREATE TABLE IF NOT EXISTS tb_rs_loc_cnt
COMMENT '今日各地区发送消息总量' AS 
SELECT 
    msg_day,  
    sender_lng, 
    sender_lat, 
    COUNT(*) AS total_msg_cnt 
FROM db_msg.tb_msg_etl
GROUP BY msg_day, sender_lng, sender_lat;

指标4：统计今日发送和接收用户人数

--保存结果表
CREATE TABLE IF NOT EXISTS tb_rs_usr_cnt
COMMENT "今日发送消息人数、接受消息人数" AS
SELECT 
msg_day, 
COUNT(DISTINCT sender_account) AS sender_usr_cnt, 
COUNT(DISTINCT receiver_account) AS receiver_usr_cnt
FROM db_msg.tb_msg_etl
GROUP BY msg_day;

指标5：统计发送消息条数最多的Top10用户

--保存结果表
CREATE TABLE IF NOT EXISTS db_msg.tb_rs_s_user_top10
COMMENT "发送消息条数最多的Top10用户" AS
SELECT 
    sender_name AS username, 
    COUNT(*) AS sender_msg_cnt 
FROM db_msg.tb_msg_etl 
GROUP BY sender_name 
ORDER BY sender_msg_cnt DESC 
LIMIT 10;

指标6：统计接收消息条数最多的Top10用户

CREATE TABLE IF NOT EXISTS db_msg.tb_rs_r_user_top10
COMMENT "接收消息条数最多的Top10用户" AS
SELECT 
receiver_name AS username, 
COUNT(*) AS receiver_msg_cnt 
FROM db_msg.tb_msg_etl 
GROUP BY receiver_name 
ORDER BY receiver_msg_cnt DESC 
LIMIT 10;

指标7：统计发送人的手机型号分布情况

CREATE TABLE IF NOT EXISTS db_msg.tb_rs_sender_phone
COMMENT "发送人的手机型号分布" AS
SELECT 
    sender_phonetype, 
    COUNT(sender_account) AS cnt 
FROM db_msg.tb_msg_etl 
GROUP BY sender_phonetype;

指标8：统计发送人的手机操作系统分布

--保存结果表
CREATE TABLE IF NOT EXISTS db_msg.tb_rs_sender_os
COMMENT "发送人的OS分布" AS
SELECT
    sender_os, 
    COUNT(sender_account) AS cnt 
FROM db_msg.tb_msg_etl 
GROUP BY sender_os;

4.4、fineBI安装与配置

4.4.1、BI概述

BI：Business Intelligence，商业智能。

指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

简单来说，就是借助BI工具，可以完成复杂的数据分析、数据统计等需求，为公司决策带来巨大的价值。

所以，一般提到BI，我们指代的就是工具软件。常见的BI软件很多，比如：

FineBI
SuperSet
PowerBI
TableAu

4.4.2、FineBI的介绍

FineBI的介绍：https://www.finebi.com/

FineBI 是帆软软件有限公司推出的一款商业智能（Business Intelligence）产品。FineBI 是定位于自助大数据分析的 BI 工具，能够帮助企业的业务人员和数据分析师，开展以问题导向的探索式分析。

FineBI的特点

通过多人协作来实现最终的可视化构建
不需要通过复杂代码来实现开发，通过可视化操作实现开发
适合于各种数据可视化的应用场景
支持各种常见的分析图表和各种数据源
支持处理大数据

4.4.3、FineBI的安装

下载：https://www.finebi.com/
注册拿到激活码
安装软件，运行激活
运行后会打开一个网页，设置用户名密码
自己使用，选择内置数据库即可
fineBI首页

4.4.4、fineBI配置hive数据库

fineBI引入hive驱动
安装隔离插件

4.4.5、连接数据库

4.5、FineBI可视化展现

4.5.1、同步数据

4.5.2、显示–今日发送消息人数、接受消息人数

添加仪表板
去掉标题
切换样式
接受消息人数

4.5.3、发送用户总数

4.5.4、发送消息最多的top10（折线雷达图）

4.5.5、发送用户操作系统占比（饼图）

4.5.6、各地区人数分布（地图）

4.5.7、接受消息最多的top10（柱状图）

4.5.8、发送人的手机型号分布（文本）

4.5.8、每小时消息趋势（多区折线图）

结束！！
hy:43

									一个胜利者不会放弃，而一个放弃者永远不会胜利。

你可能感兴趣的:(大数据,hive,数据库,finebi)

Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
第5章：数据访问层 liangxh2010 微服务后端架构
5.1SpringDataJPA使用文字讲解SpringDataJPA是SpringData项目的一部分，旨在极大地简化JPA（JavaPersistenceAPI）的使用。它通过提供基于Repository接口的编程模型，让我们无需编写任何实现代码就能完成大多数数据访问操作。核心概念：Entity：一个使用@Entity注解的普通Java对象（POJO），它映射到数据库中的一张表。Reposit
大学专业科普 | 计算智能、信息学与大数据鸭鸭鸭进京赶烤大数据
一、专业背景随着信息技术的飞速发展，数据的产生速度呈爆炸式增长，传统数据处理技术已经无法满足如此庞大的数据量和复杂的数据类型，大数据专业应运而生，旨在培养能够应对大数据挑战的专业人才。二、主要课程内容数学基础课程高等数学、概率论与数理统计、线性代数是大数据分析的核心数学基础，为数据处理、算法优化和模型构建提供必要的理论支持。计算机基础课程数据结构与算法、计算机网络、操作系统是大数据技术的重要支撑，
Reids 子柒s redis 数据库
标题目录Redis概述Redis数据库特点Redis应用场景Redis安装RockyLinux操作系统Windows操作系统Mac操作系统Redis服务启动失败解决方案配置文件详解常见数据类型全局命令String类型字符串数值应用场景列表List基本命令应用场景Hash散列特性基本命令应用场景Set类型基本命令应用场景SortedSet类型有序集合示例基本命令应用场景数据持久化RDB数据持久化SA
浅谈全球化部署(二)
接上文，讲到多机房中的方案，本文继续说明多机房中数据同步的几中方式。上图为，全球化部署环境下，多机房部署，使用到相关技术：1.智能DNS：负责就近机房解析；2.API网关：负责关键数据读写分离；3.数据同步：负责底层数据库的同步；4.其它：如消息中心等；多机房的数据同步数据同步的方式存在如下几种：一写多读如上图所示。1.主机房，实现完整的读写；2.副机房，通过网关将写转到主机房，读在本机房完成；
docker容器中连接宿主机mysql数据库
最近要在docker中使用mysql数据库，首先考虑在ubuntu的镜像中安装mysql，这样的脚本和数据库都在容器中，直接访问localhost：3306，脚本很简单，如下：importpymysql#建立数据库连接db=pymysql.connect(port=3306,host="localhost",user="root",password="password",database="my_
MySql 运维性能优化
内存相关配置innodb_buffer_pool_size：这是InnoDB存储引擎最重要的参数，用于缓存数据和索引。建议设置为服务器可用内存的50%-70%（对于专用数据库服务器）。innodb_buffer_pool_size=8G#根据服务器内存调整innodb_log_buffer_size：用于缓存InnoDB日志。对于写入频繁的系统，可适当调大（默认16M）：innodb_log_bu
【python】向AWS Dynamodb中插入数据
一、背景AWSDynamodb数据库在架构中起到的作用是配置数据库，s3上buckect_a-->bucket_b-->bucket_c对应着层与层之间的关系，总所周知，Dynamobd是非关系型数据库，数据插入的格式是键值对形式的二、代码importboto3importjsonimportpandasaspdAWS_ACCESS_KEY_ID=''AWS_SECRET_ACCESS_KEY='
MySQL(150)如何进行数据库自动化运维？辞暮尔尔-烟火年年 MySQL 数据库运维 mysql
数据库自动化运维（DBAAutomation）是确保数据库高效、安全运行的关键步骤。自动化运维可以涵盖备份、恢复、监控、性能优化、数据迁移等多个方面。以下是一个详细的指南，展示如何使用Java进行数据库自动化运维，包括代码示例。一、环境准备确保安装有Java开发环境（JDK）、Maven（或Gradle）以及一个数据库（例如MySQL）。我们将使用JDBC来进行数据库操作，以及QuartzSche
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全苏柒 web安全计算机网络网络安全运维转业程序员编程
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）从零基础到精通，收藏这篇就够了！～小羊没烦恼～黑客技术黑客网络安全 web安全安全学习运维网络
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全k叔 web安全计算机网络网络安全编程计算机转业信息安全
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
2025年软考中级科目考试安排，综合建议胡杨学长. 软考项目经理项目管理含金量软考职场 pmp 软考中级 2025年考试安排
2024年软考中级-系统集成项目管理工程师（简称“集成”）改成了1年考1次。2024年上半年软考中级开考资格有：软件设计师（简称“软设”）、网络工程师（简称“网工”）、软件评测师（简称“评测”）、电子商务设计师（简称“电商”）、嵌入式系统设计师（简称“嵌入式”）、数据库系统工程师（简称“数据库”）、信息系统管理工程师（简称“信管”）。2024年下半年软考中级开考资格有：软件设计师、网络工程师、信息
Python开发中，SQLAlchemy 的同步操作和异步操作封装，以及常规CRUD的处理。老少女王烦烦 python oracle 数据库开发语言
在我们使用Python来和数据库打交道中，SQLAlchemy是一个非常不错的ORM工具，通过它我们可以很好的实现多种数据库的统一模型接入，而且它提供了非常多的特性，通过结合不同的数据库驱动，我们可以实现同步或者异步的处理封装。1、SQLAlchemy介绍SQLAlchemy是一个功能强大且灵活的PythonSQL工具包和对象关系映射（ORM）库。它被广泛用于在Python项目中处理关系型数据库的
新一代会员分销返利小程序，聚合cps系统独立部署，对接20多个CPA/CPS资源 +V：ywxs5787 小程序开发 cps分销软件开发小程序 uniapp 微信小程序
技术栈前端：vue3+uniapp后端：PHP数据库：MySQL一、系统介绍PHP部分代码'value1','param2'=>'value2',//添加其他参数];//发送HTTPPOST请求$ch=curl_init();curl_setopt($ch,CURLOPT_URL,$url);curl_setopt($ch,CURLOPT_POST,true);curl_setopt($ch,CU
淘宝商城四面（附架构面试专题）及B2C商城架构项目实战分享！风平浪静如码
一面主要问题如下（主要注重基础，问得很深很广，压力面试）：首先自我介绍数据结构算法的基本问题，如排序算法，二叉树遍历，后序遍历非递归，图的最短路径问题对一个数组进行绝对值排序的算法java中hashmap的底层实现java中垃圾回收机制GC原理等介绍自己的项目，数据库中用到的数据结构数据模型，死锁的概念（问的应该是数据库的死锁），如何避免死锁?乐观锁和悲观锁?一致性hash算法项目中业务对象的关联
软考热门科目全套学习资料启航挨踢软考资料整理笔记
软考热门科目学习资料免费分享，包括：系统集成项目工程师、数据库系统工程师、软件设计师、信息系统项目管理师、系统架构师等科目的教材、视频教程、历年真题，需要的小伙伴自取。资料来自互联网整理，如有侵权，请联系删除！通过百度网盘分享的文件：（软考中级）信息系统管理工程师链接:https://pan.baidu.com/s/1mCdZSIJHIDcd8g1TY3rAag?pwd=ywxd提取码:ywxd通
2024最新外卖CPS分销微信小程序源码【前端+后台+数据库+分销功能】云深不知处㊣源码专区微信小程序小程序外卖CPS分销微信小程序源码 CPS分销微信小程序源码
内容目录一、详细介绍二、效果展示三、源代码下载地址一、详细介绍外卖侠CPS全套源码是一款为外卖平台提供分销功能的微信小程序。用户可以通过你的链接去领取外卖红包，然后去下单点外卖，既能省钱，又能获得佣金。该小程序带有商城、影票、吃喝玩乐等多个模块，适合不同用户的需求。外卖CPS的势头猛得一塌糊涂，被称为23年最大的红利之一，也被称为2023最佳小白可实操项目。外卖公司的广告预算持续增加，因为比传统广
【PostgreSQL】【第1章】入门&安装 cherry5230 数据库专栏 postgresql 数据库
1-PostgreSQL入门&安装1.今日安排核心内容：PostgreSQL简介与适用场景PostgreSQLvsMySQL核心差异Linux环境安装（非Docker）远程连接与日志配置基本操作：用户、数据库、权限管理2.PostgreSQL介绍2.1核心特性开源协议：基于BSD/MIT协议，支持二次封装商业化。版本选择：稳定版：12.x新特性版：14.x社区活跃：版本迭代快（约3个月一次），Bu
FastAPI 中，数据库模型（通常使用 SQLAlchemy 定义）和接口模型（使用 Pydantic 定义的 schemas）的差异
在FastAPI中，数据库模型（通常使用SQLAlchemy定义）和接口模型（使用Pydantic定义的schemas）虽然都用于表示数据结构，但它们有明确的职责区分。以下是它们的核心区别和协作方式：1.数据库模型(Models)位置：通常在models.py中定义技术：使用SQLAlchemyORM目的：直接映射数据库表结构，处理数据库操作特点：fromsqlalchemyimportColum
新一轮黑产打击：上亿简历大数据公司被警方一锅端大数据的时代
近日，中国的简历大数据公司、曾获李开复旗下创新工场投资的“巧达科技”被警方一锅端，所有员工都被带走。随后，有部分员工被陆续放出。据悉，该公司被查可能缘起在没有获得授权下抓取用户简历。该公司此前曾获得天使轮、A轮和B轮融资，资方包括李开复的创新工场、中信产业基金等。有迹象显示，监管部门正在掀起对大数据灰产和黑产的新一轮打击。传公司被警方一锅端，网站已无法打开。3月23日，有网友在工商信息查询网站“天
《亿级流量系统架构设计与实战》通用高并发架构设计读场景 Momentary_SixthSense 系统架构 mysql redis 架构
高并发架构设计的要点场景分类读多写少、写多读少，读多写多高并发读场景方案1：数据库读/写分离数据库承受的高并发请求压力，主要来自读请求。我们可以把数据库按照读/写请求分成专门负责处理写请求的数据库（写库）和专门负责处理读请求的数据库（读库），让所有的写请求都落到写库，写库将写请求处理后的最新数据同步到读库，所有的读请求都从读库中读取数据。这就是数据库读/写分离的思路。数据库读/写分离使大量的读请求
贵州微商行业协会，今日成立我是磊少
图片发自App文/磊少2018年6.19是全国所有微商引以为傲的一天，因为这一天，微商立法了。且被纳入电子商务经营者范围。而我想说的是，今天（2018.8月28）是所有贵州微商最扬眉吐气的一天。因为今天，贵州省微商行业协会成立了。伴随着移动互联网的蓬勃发展，大数据的日新月异，尤其是贵州贵阳作为全球大数据研究中心，吸引了众多国际顶尖的互联网技术与核心人才，更是为贵州互联网的发展插上了理想的翅膀，飞翔
rust实现的快捷补全到剪贴板的实用工具余很多之很多 yu的工具 rust 开发语言后端
最近在兼职项目中老是遇到这样的场景：在云服务器之间通过scp命令传输文件，密码太长记不住(客户服务器不方便ssh-copy-id)在服务器上使用mysql命令登录修改数据，数据库密码太长记不住（客户设置的密码，直接改掉哈？）自己电脑使用geminicli需要代理，代理命令太长记不住（简单的放入脚本中不能生效）之前的做法都是记录到本地记事本，然后打开记事本找到对应的密码再复制到剪贴板，但是这样太麻烦
【python+SQLAlchemy】 ryanling河 python 数据库 sql
需要先安装pymysql模块，以便能够在SQLAlchemy中使用MySQL数据库。使用以下命令进行安装：pipinstallSQLAlchemypipinstallpymysql目前SQLAlchemy版本是2.0.0以上了以下是基本写法以便快速学习fromsqlalchemyimportcreate_engine,Column,Integer,Stringfromsqlalchemy.ormi
python sqlalchemy连接oracle_Python SQLalchemy 基础操作之数据库增删改查 weixin_39970994 python
ORM全称ObjectRelationalMapping,即对象关系映射。简单的说，ORM将数据库中的表与面向对象语言中的类建立了一种对应关系。这样，我们要操作数据库，数据库中的表或者表中的一条记录就可以直接通过操作类或者类实例来完成。SQLAlchemy是Python社区最知名的ORM工具之一，为高效和高性能的数据库访问设计，实现了完整的企业级持久模型。SQLAlchemy优点：简洁易读：将数据
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
Uniapp微信小程序开发：后端服务器搭建指南（语言选择+部署方案）
目录前言：Uniapp+微信小程序的架构模式️后端服务器的作用后端语言选择（Node.js/Java/Python/PHP/Go）☁️服务器部署方案（云服务器vsServerless）实战：如何连接Uniapp与后端API安全优化：HTTPS、JWT、接口鉴权数据库选择（MySQL、MongoDB、云数据库）总结&最佳实践1.前言：Uniapp+微信小程序的架构模式Uniapp是一个基于Vue.j
Java知识体系个人总结普通人zzz~ Java知识体系个人总结分布式微服务全家桶 java
Java知识体系个人总结Java进阶知识项目问题记录系统设计并发编程前端数据库关系型数据库非关系型数据库应用框架SpringMyBatis/IBatisNetty微服务与分布式1.分布式微服务2.Netflix-Ribbon3.Netflix-OpenFeign4.Netflix-Eureka5.Alibaba-Dubbo6.Alibaba-Nacos7.Alibaba-Sentinel8.Ali
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它