LKL1026

【Python大数据笔记_day08_hive查询】

hive查询

语法结构:

SELECT [ALL | DISTINCT] 字段名, 字段名, ...
FROM 表名 [inner | left outer | right outer | full outer | left semi JOIN 表名 ON 关联条件 ]
[WHERE 非聚合条件]
[GROUP BY 分组字段名]
[HAVING 聚合条件]
[ORDER BY 排序字段名 asc | desc]
[CLUSTER  BY 字段名 | [DISTRIBUTE BY 字段名 SORT BY 字段名]]
[LIMIT x,y]

类sql基本查询

基础查询格式: select distinct 字段名 from 表名;      
                注意: *代表所有字段  distinct去重  as给表或者字段起别名
条件查询格式: select distinct 字段名 from 表名 where 条件;
                比较运算符: > < >= <= != <>
                逻辑运算符: and or not
                模糊查询: %代表任意0个或者多个字符   _代表任意1个字符
                空判断: 为空is null   不为空is not null
                范围查询: x到y的连续范围:between x and y    x或者y或者z类的非连续范围: in(x,y,z)
排序查询格式:  select distinct 字段名 from 表名 [where 条件] order by 排序字段名 asc|desc ;
                asc : 升序 默认升序
                desc: 降序
聚合查询格式: select 聚合函数(字段名) from 表名;
                聚合函数: 又叫分组函数或者统计函数
                聚合函数: count()  sum()  avg()  max()  min()
分组查询格式:  select 分组字段名,聚合函数(字段名) from 表名 [where 非聚合条件] group by 分组字段名 [having 聚合条件];
                注意: 当分组查询的时候,select后的字段名要么在groupby后出现过,要么放在聚合函数内,否则报错
                where和having区别? 
                区别1: 书写顺序不同,where在group by关键字前,having在group by关键字后
                区别2: 执行顺序不同,where在分组之前过滤数据,having在分组之后过滤数据
                区别3: 筛选数据不同,where只能在分组之前过滤非聚合数据,having在分组之后主要过滤聚合数据
                区别4: 操作对象不同,where底层操作伪表,having底层操作运算区
分页查询格式: select 字段名 from 表名 [ order by 排序字段名 asc|desc] limit x,y;
                x: 起始索引 默认从0开始,如果x为0可以省略    计算格式: x=(页数-1)*y
                y: 本次查询记录数

数据准备:

-- 创建订单表
CREATE TABLE orders (
    orderId bigint COMMENT '订单id',
    orderNo string COMMENT '订单编号',
    shopId bigint COMMENT '门店id',
    userId bigint COMMENT '用户id',
    orderStatus tinyint COMMENT '订单状态 -3:用户拒收 -2:未付款的订单 -1：用户取消 0:待发货 1:配送中 2:用户确认收货',
    goodsMoney double COMMENT '商品金额',
    deliverMoney double COMMENT '运费',
    totalMoney double COMMENT '订单金额（包括运费）',
    realTotalMoney double COMMENT '实际订单金额（折扣后金额）',
    payType tinyint COMMENT '支付方式,0:未知;1:支付宝，2：微信;3、现金；4、其他',
    isPay tinyint COMMENT '是否支付 0:未支付 1:已支付',
    userName string COMMENT '收件人姓名',
    userAddress string COMMENT '收件人地址',
    userPhone string COMMENT '收件人电话',
    createTime timestamp COMMENT '下单时间',
    payTime timestamp COMMENT '支付时间',
    totalPayFee int COMMENT '总支付金额'
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
-- 加载数据(因为是普通内部表可以直接上传文件到hfds表路径下)

数仓分层思想:

-- 数仓分层: 本质就是分库分表
-- 构建源数据层
create database xls_ods;
-- 构建数数据仓库
create database xls_dw;
-- 构建数据应用层
create database xls_da;

-- 转换应用场景
-- 注意: 在大数据分析中转换完后为了以后方便使用一般存储起来
create table xls_dw.dw_orders as
select
    orderid,
    orderno,
    shopid,
    userid,
    orderstatus,
    goodsmoney,
    delivermoney,
    totalmoney,
    realtotalmoney,
    case
        when payType=0 then '未知'
        when payType=1 then '支付宝'
        when payType=2 then '微信'
        when payType=3 then '现金'
        when payType=4 then '其他'
    end as payType,
    payType,
    username,
    useraddress,
    userphone,
    createtime,
    paytime,
    totalpayfee
from orders;

-- 修改字段类型
alter table dw_orders change orderstatus orderstatus string;
alter table dw_orders change ispay ispay string;
-- 修改后重新修改了,需要覆盖数据
insert overwrite table xls_dw.dw_orders
select
    orderid,
    orderno,
    shopid,
    userid,
    case
        when orderstatus=-3 then '用户拒收'
        when orderstatus=-2 then '未付款的订单'
        when orderstatus=-1 then '用户取消'
        when orderstatus=0 then '待发货'
        when orderstatus=1 then '配送中'
        when orderstatus=2 then '用户确认收货'
    end
    as orderstatus,
    goodsmoney,
    delivermoney,
    totalmoney,
    realtotalmoney,
    case
        when payType=0 then '未知'
        when payType=1 then '支付宝'
        when payType=2 then '微信'
        when payType=3 then '现金'
        when payType=4 then '其他'
    end as payType,

    case
        when isPay=0 then '未支付'
        when isPay=1 then '已支付'
    end as isPay,
    username,
    useraddress,
    userphone,
    createtime,
    paytime,
    totalpayfee
from orders;

课堂练习:

-- 基础查询格式: select distinct 字段名 from 表名;
--              注意: *代表所有字段  distinct去重  as给表或者字段起别名且可以省略
-- 指定字段查询
select userName,userPhone from orders where userName='邓力夫';
-- 指定字段并且取别名查询
select distinct userName name,userPhone phone from orders where userName='邓力夫';
-- 当然也可以给表起别名(目前单表即使起了也没有多大意义)
select o.userName ,o.userPhone  from orders as o ;
-- 查询支付类型要求去重
select distinct payType from orders;


-- 2.演示where条件查询
-- 查询广东省订单
drop table if exists da_gd_orders;
create table da_gd_orders as
select * from orders where userAddress like '广东省%';


-- 3.演示聚合查询
-- 查询广东省数据量
select count(*) from orders where userAddress like '广东省%';

-- 4.演示分组查询
-- 注意: select后的字段要么在groupby后出现要么在聚合函数内出现,否则报错
-- 统计已支付和未支付各自多少人
select isPay,count(*) cnt from orders group by isPay;

-- 5.演示条件查询,聚合查询,分组查询综合练习
-- 在已支付订单中,统计每个用户最高的一笔消费金额
select userId, username, max(realTotalMoney)
from orders
where isPay = 1
group by userId, username;
-- 统计每个用户的平均消费金额
select userId, username, avg(realTotalMoney)
from orders
where isPay = 1
group by userId, username;
-- 统计每个用户的平均消费金额并且筛选大于10000的
select userId, username, avg(realTotalMoney) as avg_money
from orders
where isPay = 1
group by userId, username
having avg_money > 10000;
-- 统计每个用户的平均消费金额并且筛选大于10000的,平均值要求保留2位小数
select userId, username,round(avg(realTotalMoney),2)
from orders
where isPay = 1
group by userId, username
having round(avg(realTotalMoney),2) > 10000;

-- 6.演示排序查询
-- asc默认升序  desc 降序
-- 查询广东省订单,要求按照总价降序排序
select * from orders where userAddress like '广东省%' order by realTotalMoney desc;

-- 7.演示分页查询
-- limit x,y  注意: x和y都是整数,x是从0开始起始索引,y是查询的条数
-- 查询广东省订单总价最高的前5个订单
select * from orders where userAddress like '广东省%' order by realTotalMoney desc limit 5;

类sql多表查询

交叉连接格式: select 字段名 from 左表 cross join 右表;
        注意: 交叉连接产生的结果叫笛卡尔积,此种方式慎用!!!

内连接格式: select 字段名 from 左表 inner join 右表 on 左右表关联条件;
        特点: 相当于只取两个表的交集

左外连接格式:  select 字段名 from 左表 left outer join 右表 on 左右表关联条件;
        特点: 以左表为主,左表数据全部保留,右表只保留和左表有交集的部分

右外连接格式:  select 字段名 from 左表 right outer join 右表 on 左右表关联条件;
        特点: 以右表为主,右表数据全部保留,左表只保留和右表有交集的部分

自连接: 本质是一个特殊的内外连接,最大特点就是左右表是同一个表
        应用场景: 比较局限,场景1: 存储省市县三级数据的区域表   场景2: 存储上下级信息的员工表

子查询: 本质是一个select语句作为另外一个select语句的一部分(表或者条件)
        注意: 子查询作为表使用的话必须取别名

数据准备:

-- 创建用户表
CREATE TABLE users (
    userId int,
    loginName string,
    loginSecret int,
    loginPwd string,
    userSex tinyint,
    userName string,
    trueName string,
    brithday date,
    userPhoto string,
    userQQ string,
    userPhone string,
    userScore int,
    userTotalScore int,
    userFrom tinyint,
    userMoney double,
    lockMoney double,
    createTime timestamp,
    payPwd string,
    rechargeMoney double
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
-- 加载数据
load data inpath '/source/itheima_users.txt' into table users;
-- 验证数据
select * from users limit 1;

练习:

-- 交叉连接格式: select 字段名 from 左表 cross join 右表;
--          注意: 交叉连接产生的结果叫笛卡尔积,此种方式慎用!!!
select * from users cross join orders;
-- 内连接格式: select 字段名 from 左表 inner join 右表 on 左右表关联条件;
--          特点: 相当于只取两个表的交集
select * from users u inner join orders o on u.userId=o.userId ;
-- 左外连接格式:  select 字段名 from 左表 left outer join 右表 on 左右表关联条件;
--          特点: 以左表为主,左表数据全部保留,右表只保留和左表有交集的部分
select * from users u left outer join orders o on u.userId=o.userId ;
-- 右外连接格式:  select 字段名 from 左表 right outer join 右表 on 左右表关联条件;
--          特点: 以右表为主,右表数据全部保留,左表只保留和右表有交集的部分
select * from users u right outer join orders o on u.userId=o.userId ;

-- 自连接: 本质是一个特殊的内外连接,最大特点就是左右表是同一个表
--          应用场景: 比较局限,场景1: 存储省市县三级数据的区域表   场景2: 存储上下级信息的员工表
-- 可以运行下基础班的areas.sql脚本,做以下练习
-- 方式1: 建议
select xian.title
from
    (select * from areas  where title = '北京市' and pid is not null) city
join
    areas xian
on city.id = xian.pid;
-- 方式2:
select xian.title
from
    areas city
join
    areas xian
on city.id = xian.pid
where city.title = '北京市' and city.pid is not null;
-- 子查询: 本质是一个select语句作为另外一个select语句的一部分(表或者条件)
--          注意: 子查询作为表使用的话必须取别名
;
select title
from areas
where pid = (select id from areas where title = '北京市' and pid is not null);

hive其他join操作

在Hive中除了支持cross join（交叉连接，也叫做笛卡尔积）,inner join（内连接）、left outer join（左外连接）、right outer join（右外连接）还支持full outer join（全外连接）、left semi join（左半开连接）

全外连接: 左表 full [outer] join 右表 on 条件

左半开连接: 左表 left semi join 右表 on 条件

-- hive不同于mysql的join操作
-- 全外连接(左表 full outer join 右表 on 条件) 大白话就是左外和右外结果合并同时去重
select * from users u full outer join orders o on u.userId = o.userId;

-- 左半开连接(左表 left semi join 右表 on 条件) 大白话就是内连接的一半
select * from users u left semi join orders o on u.userId = o.userId;

hive其他排序操作

set mapreduce.job.reduces:  查看当前设置的reduce数量 默认结果是-1,代表自动匹配reduce数量和桶数量一致
set mapreduce.job.reduces = 数量 : -- 修改reduces数量

cluster by 字段名:  分桶且正序排序   弊端: 分和排序是同一个字段,相对不灵活

distribute by 字段名 sort by 字段名: distribute by负责分,sort by负责排序, 相对比较灵活

order by 字段名:全局排序 

注意: cluster by 和 distribute by 字段名 sort by 字段名 受当前设置的reduces数量影响,但是设置的reduces数量对order by无影响,因为orderby就是全局排序,就是一个reduce

建表的时候指定分桶字段和排序字段: clustered by (字段名) sorted by (字段名) into 桶数量 buckets
     注意: 如果建表的时候设置了桶数量,那么reduces建议设置值-1或者值大于桶数量

-- 演示4个by区别
-- 创建表
create table students(
    id int,
    name string,
    gender string,
    age int,
    cls string
)row format delimited
fields terminated by ',';
-- 加载数据
load data inpath '/source/students.txt' into table students;
-- 验证数据
select * from students limit 1;


-- 查询reduces的数量
set mapreduce.job.reduces; -- -1代表根据任务实时改变
-- 1.cluster by 字段名 查询的时候分桶且排序
-- 注意: 如果是1个reduces那么cluster by全局升序排序
select * from students cluster by id;
-- 修改reduces数量为3
set mapreduce.job.reduces=3;
-- 再次使用cluster by查询,查看效果
-- 效果: 如果多个reduces那么cluster by桶内局部排序
select * from students cluster by age;


-- 2.distribute by + sort by
-- 设置reduces的数量为-1
set mapreduce.job.reduces = -1;
-- 默认1个ruduces数量,使用distribute by + sort by查询观察结果
-- 注意: 如果是1个ruduces那么distribute by + sort by全局排序
select * from students distribute by name sort by age desc;
-- 修改reduces数量
set mapreduce.job.reduces = 2;
-- 再次distribute by + sort by查询
-- 效果: 如果多个redueces,那么distribute by 分reduces数量个桶,sort by桶内局部排序
select * from students distribute by name sort by age desc;


-- 3.order by
-- 注意: order by 永远都是全局排序,不受reduces数量影响,每次只用1个reduces
select * from students order by age desc;

抽样查询

TABLESAMPLE抽样好处: 尽可能实现随机抽样,并且不走MR查询效率相对较快

基于随机分桶抽样格式: SELECT 字段名 FROM tbl TABLESAMPLE(BUCKET x OUT OF y ON(字段名 | rand()))
    y:表示将表数据随机划分成y份（y个桶）
    x:表示从y里面随机抽取x份数据作为取样
    | : 或者
    字段名: 表示随机的依据基于某个列的值,每次按相关规则取样结果都是一致
    rand(): 表示随机的依据基于整行,每次取样结果不同

-- 随机抽样函数 tablesample
-- 参考字段分桶抽样,快且随机
select * from orders tablesample ( bucket 1 out of 10 on orderid);
-- 参考rand()随机数,快且真正达到随机
select * from orders tablesample ( bucket 1 out of 10 on rand());


-- 快速取前面部分数据 : 快但没有随机
-- 前100条
select  * from orders tablesample ( 100 rows );
-- 前10%数据
select  * from orders tablesample ( 10 percent );
-- 取1k或者1m的数据
select  * from orders tablesample ( 16k );
select  * from orders tablesample ( 167k );
select  * from orders tablesample ( 1m );

-- 随机取100条: 随机但是不快
select * from orders distribute by rand() sort by rand() limit 100;

正则模糊查询

sql模糊查询关键字: like      任意0个或者多个:  %     任意1个: _    

正则模糊查询关键字: rlike     任意0个或者多个: .*     任意1个: .     正则语法还有很多...

-- 正则表达式查询
-- 1.查询广东省数据
-- sql模糊查询
select * from orders where userAddress like '广东省%';
-- 正则模糊查询
select * from orders where userAddress rlike '广东省.*';

-- 2. 查询满足'xx省 xx市 xx区'格式的信息
-- sql模糊查询
select * from orders where userAddress like '__省 __市 __区';
-- 正则模糊查询
select * from orders where userAddress rlike '..省 ..市 ..区';

-- 3.查询所有姓张王邓的用户信息
-- sql模糊查询
select * from orders where username like '张%' or username like '王%' or username like '邓%' ;
-- 正则模糊查询
select * from orders where username rlike '[张王邓].*';
select * from orders where username rlike "[张王邓].+";

-- 4.查找所有188开头的手机号
-- sql模糊查询
select * from orders where userPhone like '188________' ;
-- 正则模糊查询
select * from orders where userPhone rlike '188........' ;
select * from orders where userPhone rlike '188.{8}' ;
select * from orders where userPhone rlike '188\\*{4}[0-9]{4}' ;
select * from orders where userPhone rlike '188\\*{4}\\d{4}' ;

union联合查询

union联合查询:  就是把两个select语句结果合并成一个临时结果集,整体可以用于其他sql操作

union [distinct]: 去重,只是省略了distinct
union all : 不去重

-- 插入数据
insert into product values('p1','联想','c1'),('p2','小米','c2'),('p3','华为',null);
-- 创建分类表
create table category(
    cid varchar(100),
    cname varchar(100)
);
-- 插入数据
insert into category values('c1','电脑'),('c2','手机'),('c3','服饰');

-- 1.如果在mysql中,使用union实现全外连接
-- 使用union关键字,自动去重
-- 左外 union 右外
select pid,pname,p.cid,cname from product p left join category c on p.cid = c.cid
union
select pid,pname,c.cid,cname from product p right join category c on p.cid = c.cid;


-- 注意: 如果不想去重使用 union all
-- 左外 union all 右外
select pid,pname,p.cid,cname from product p left join category c on p.cid = c.cid
union  all
select pid,pname,c.cid,cname from product p right join category c on p.cid = c.cid;

-- 2.在hive中使用full outer join实现全外连接
select pid,pname,c.cid,cname from product p full join category c on p.cid = c.cid;

CTE表达式

CTE: 公用表表达式（CTE）是一个在查询中定义的临时命名结果集将在from子句中使用它。
注意: 每个CTE仅被定义一次（但在其作用域内可以被引用任意次）,仅适用于当前运行的sql语句
语法如下:
    with 临时结果集的别名1  as (子查询语句),
         临时结果集的别名2  as (子查询语句)
         ...
    select 字段名 from (表别名);

内置虚拟列

虚拟列是Hive内置的可以在查询语句中使

用的特殊标记，可以查询数据本身的详细参数。
Hive目前可用3个虚拟列：
INPUT__FILE__NAME:显示数据行所在的具体文件
BLOCK__OFFSET__INSIDE__FILE:显示数据行所在文件的偏移量
ROW__OFFSET__INSIDE__BLOCK:显示数据所在HDFS块的偏移量   注意: 此虚拟列需要设置：SET hive.exec.rowoffset=true 才可使用

-- 演示内置虚拟列
-- 打开ROW__OFFSET__INSIDE__BLOCK
SET hive.exec.rowoffset=true;
-- 演示查询
SELECT *, INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE, ROW__OFFSET__INSIDE__BLOCK FROM students_bucket;

＜Python＞＜ffmpeg＞基于python使用PyQt5构建GUI实例：音频格式转换程序（MP3/aac/wma/flac）(优化版2) 机构师 python编程实例 python ffmpeg qt pyqt5 vscode
前言本文是基于python语言使用pyqt5来构建的GUI，功能是使用ffmpeg来对音频文件进行格式转换，如mp3、aac、wma、flac等音乐格式。UI示例：环境配置系统：windows平台：visualstudiocode语言：python库：pyqt5、ffmpeg概述本文是建立在之前的博文的基础上的优化版，前文链接：1、python使用ffmpeg来制作音频格式转换工具（优化版）2、利
第30篇：Python开发进阶：网络安全与测试猿享天开 python从入门到精通 python web安全开发语言
第30篇：网络安全与测试目录网络安全概述什么是网络安全常见的安全威胁Python中的网络安全工具常用安全库介绍安全编码实践密码学基础加密与解密哈希函数数字签名安全认证与授权用户认证访问控制OAuth与JWTWeb应用安全常见的Web安全漏洞防护措施安全测试网络安全测试渗透测试自动化测试工具安全漏洞扫描使用Python进行安全测试使用Scapy进行网络嗅探使用Requests进行安全测试使用Beau
mysql存储函数小冯爱编程 mysql 数据库 sql
文章目录存储函数一、创建存储函数二、调用存储函数存储函数我们学过很多函数，使用这些函数可以对数据进行的各种处理操作，极大地提高用户对数据库的管理效率。MySQL支持自定义函数，定义好之后，调用方式与调用MySQL预定义的系统函数一样，比如AVG、COUNT、SUBSTR等。一、创建存储函数CREATEFUNCTION函数名(参数名参数类型,...)RETURNS返回值类型[characterist
数据挖掘的常用算法北柠陌寒0207 笔记
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其
PyQt4 的图片切割编辑器烛火萤辉 Python python pyqt
一、编辑器功能明确允许用户加载图片、选择切割模式、对切割后的图片片段进行操作（如移动、复制、粘贴、删除等），并支持撤销和重做操作。环境：Py2.7PyQt4.11二、导入模块介绍sys:用于访问与Python解释器强相关的变量和函数。os:提供操作系统相关功能，如文件路径操作。random:用于生成随机数，主要用于自动保存文件名。json:用于数据序列化和反序列化，方便保存和加载编辑状态。glob
知网爬虫，作者、摘要、题目、发表期刊等主要内容的获取大懒猫软件爬虫
爬取知网内容的详细过程爬取知网内容需要考虑多个因素，包括网站的结构、反爬虫机制等。以下是一个详细的步骤和代码实现，帮助你使用Python爬取知网上的论文信息，包括作者、摘要、题目、发表期刊等主要内容。1.数据准备首先，需要准备一些基础数据，如知网的URL、请求头等。2.模型构建使用requests库发送HTTP请求，使用BeautifulSoup库解析HTML内容。如果遇到动态加载的内容，可以使用
使用Python和Flask搭建导航网站需要注意的问题有哪些？大懒猫软件 python flask 开发语言
使用Python和Flask搭建导航网站时，需要注意以下几个关键问题，以确保网站的性能、安全性和可维护性。以下是一些常见问题和建议：1.性能优化静态文件缓存：确保静态文件（如CSS、JavaScript、图片）被浏览器缓存，减少重复请求。在Nginx中配置缓存头：nginx复制location~*\.(css|js|jpg|jpeg|png|gif)${expires1d;#设置缓存有效期为1天}
python【数据结构与算法】最长公共子串详解（附代码）理想不闪火算法
文章目录1定义1定义和最长公共子序列一样，使用动态规划的算法。下一步就要找到状态之间的转换方程。和LCS问题唯一不同的地方在于当A[i]!=B[j]时，res[i][j]就直接等于0了，因为子串必须连续，且res[i
Python之Spire.XLS进行Excel与CSV文件互转换一晌小贪欢 Python自动化办公 python excel python办公 python自动化
目录专栏导读背景安装Excel转CSV文件(推荐速度会快一点)代码CSV转Excel文件(小文件推荐)代码结尾专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅文章作者技术和水平有限，如果文中出现错误，希望大家能指正❤️欢迎各位佬关注！❤️背景安装我们利用
mysql有rac吗_现在的国产数据库有类似于oracle Rac 的功能吗？ weixin_39623050 mysql有rac吗
有的，优炫软件今年就在软博会重磅推出了UXDBSuperRAC(超级实时应用集群)，发布了优炫数据库UXDB新版本。长久以来，大型联机交易系统，特别是作为典型应用的银行核心业务系统对数据库要求极为严苛，要保证业务连续性，零RTO、RPO，强一致性ACID、业务不可分割性需求。因此，基于共享存储概念的RAC模式和完全支持ACID强一致性的数据库系统，依然是银行业核心数据库系统的首选，优炫数据库Sup
大数据生态的Apache RocketMQ5.0 Apache RocketMQ java 开发语言
本文作者：李伟-ApacheRocketMQCommitter，RocketMQPython客户端项目Owner，ApacheDorisContributor，腾讯云消息队列资深开发工程师，著有《RocketMQ分布式消息中间件(核心原理与最佳实践)》。一、RocketMqueue101RocketMQ拥有诸多出色的特性：比如多副本机制，RocketMQ支持存储层的多副本Dledger，它是基于R
python+playwright自动化测试(八)：iframe切换、多窗口切换觅远自动化测试 python 爬虫开发语言 python 自动化
目录浏览器上下文context对象常用操作设置默认导航时间iframe切换窗口切换浏览器上下文context对象常用操作context.pages:获取context所有page对象context.new_page():生成一个新的page对象context.add_cookies()：将cookie添加到此浏览器上下文所在的所有页面中。context.clear_cookies()：清除cont
python+playwright自动化测试(七)：同步与异步觅远自动化测试 python python 开发语言自动化
目录同步(Sync)模式异步(Async)模式同步(Sync)模式在同步模式下，代码按照传统的线性模式从上到下的顺序执行，每个操作都会阻塞直到完成后才去执行下面的代码。同步时导入fromplaywright.sync_apiimportsync_playwright，使用withsync_playwright()创建上下文操作对象。fromplaywright.sync_apiimportsync
PEP 8：Python 编程的编码风格指南软件架构师笔记 python python java mysql
PEP8：Python编程的编码风格指南引言编码风格是一种重要的规范，它不仅可以提高代码的可读性和可维护性，还能够促进团队合作。对于Python这门语言而言，PEP8（PythonEnhancementProposal8）就是一份权威的编码风格指南。本文将详细介绍PEP8的定义、作用以及为什么它是必要的。什么是PEP8？PEP8是由Python社区制定的一份关于Python代码编写风格的指南。PE
宝塔面板部署java项目用公网ip或者域名都可以访问高明峰少 java java tomcat 数据库 web
和本地tomcat一样，war包放在webapps下，配置tomcat默认访问路径，即在host标签里加入这个analysis-tool-web-1.0-SNAPSHOT是你war包名字可以随意改，只要和webapps下名字相同就行，安装软件添加数据库打开数据库—>添加数据库，数据库名字，用户名密码等等，如果用户名不能用root，就在网站—>添加站点中创建站点同时添加数据库，在这里可以添加数据库名
python的with语句 lipicoder python 开发语言
在Python2.5版本之后，出现了一个with的语句写法：withopen('openfile',encoding="utf-8")as_file:read_data=_file.read()在Python官方文档，这样描述:Thewithstatementisusedtowraptheexecutionofablockwithmethodsdefinedbyacontextmanager(se
python with的用法 weixin_33935777 python
原文链接With语句是什么?有一些任务，可能事先需要设置，事后做清理工作。对于这种场景，Python的with语句提供了一种非常方便的处理方式。一个很好的例子是文件处理，你需要获取一个文件句柄，从文件中读取数据，然后关闭文件句柄。如果不用with语句，代码如下：file=open("/tmp/foo.txt")data=file.read()file.close()这里有两个问题:一是可能忘记关闭
深入理解 Python 之 with 语句 Phoenixtree_DongZhao 随笔 python python
浅谈Python的with语句深入理解Python王生辉,李骅宸发布:2011-12-02引言with语句是从Python2.5开始引入的一种与异常处理相关的功能（2.5版本中要通过fromfutureimportwith_statement导入后才可以使用），从2.6版本开始缺省可用（参考What’snewinPython2.6?中with语句相关部分介绍）。with语句适用于对资源进行访问的场
Python with语句 Stephen102 Python python
8##With语句是什么？Python’swithstatementprovidesaveryconvenientwayofdealingwiththesituationwhereyouhavetodoasetupandteardowntomakesomethinghappen.Averygoodexampleforthisisthesituationwhereyouwanttogainahand
Python中的 with语句奶糖芯 python python 开发语言后端
Python中的with语句在开发中有一些任务，有可能是需要事情进行设置，然后在事后又需要进行清理工作；对于这种场景，with语句就提供了很方便的处理方式；最常见就是对于文件的操作；不使用with语句这样写①有可能忘记关闭文件句柄，②读取文件出现异常处理也没有进行任何的处理；file=open("a.txt")data=file.read()file.close()改为有处理版本（这样代码看起来有
Python框架区别是什么？比较常用的框架有哪些？其实还好啦 python 编程语言
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。众所周知，Python开发框架大大减少了开发者不必要的重复劳动，提高了项目开发效率的同时，还使得创建的程序更加稳定。目前比较主流的Python框架都有哪些呢？一般大家用的比较多的是Django、Flask、Scrapy、Diesel、Cubes、Pulsar和Tornado。那
python：随机产生n个数小洁癖Jieie python pytho
列表中有随机产生的10个数importrandomL=[random.randint(0,10)for_inrange(10)]random.randint(0,n)表示随机数的范围为：0到nfor_inrange(n)表示产生n随机数
python爬虫之bs4解析和xpath解析 A.way30 python 爬虫开发语言 xpath
bs4解析原理:1.实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取如何实例化BeautifulSoup对象:frombs4importBeautifulSoupBeautifulSoup(参数一,参数二)参数一为文件描述符，参数二为解析器，一般为’lxml’一对象的实例化:1.将本地的h
探索OpenAI Python SDK: 智能编程新里程周澄诗Flourishing
探索OpenAIPythonSDK:智能编程新里程openai-pythonTheofficialPythonlibraryfortheOpenAIAPI项目地址:https://gitcode.com/gh_mirrors/op/openai-python如果你对人工智能和自然语言处理有浓厚的兴趣，那么这个项目将为你开启新的探索之门——。这是一个由OpenAI开发的Python库，用于与他们的A
深入分析Python装饰器（很干！建议先收藏静下心来理解！） DEV.IN. 摸一遍Python的脊椎开发语言 Python
Python的装饰器是一种功能强大且灵活的特性，允许开发者通过修改函数或方法的行为而不改变它们的代码。装饰器本质上是一个函数，它接受一个函数作为参数，并返回一个新的函数。装饰器广泛应用于日志记录、访问控制、性能监测等场景，深入理解它对于写出高效、简洁的代码非常重要。1.装饰器的基本概念在Python中，函数是“第一类对象”（first-classobjects），这意味着它们可以作为参数传递给另一
Upgini: 智能数据搜索与丰富化引擎 - 提升机器学习和人工智能模型准确性的利器 2401_87189860 人工智能机器学习
Upgini:智能数据搜索与丰富化引擎在当今数据驱动的世界中,机器学习和人工智能模型的准确性至关重要。然而,提高模型准确性往往是一项艰巨的任务,需要大量的特征工程和数据处理工作。幸运的是,Upgini这一创新的Python库为数据科学家和机器学习工程师提供了一个强大的解决方案。Upgini的核心功能Upgini是一个智能数据搜索和丰富化引擎,专为机器学习和AI设计。它的主要功能包括:自动特征发现与
python web开发框架对比,python的web框架有哪些 2401_84503581 人工智能
大家好，小编为大家解答pythonweb框架主要的三大基本框架的问题。很多人还不知道pythonweb开发框架对比，现在让我们一起来看看吧！本篇文章给大家谈谈pythonweb开发框架有哪些，以及pythonweb前端开发框架，希望对各位有所帮助，不要忘了收藏本站喔。1.Django框架官网：https://github.com/django/django.git优点：是一个高层次PythonWe
Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析_爬虫电影(1) 2401_84009626 程序员 python 爬虫开发语言
2.3.2通过xpath方法按层级查找数据定位好之后，我们就可以用etree对象的xpath方法解析xpath表达式，查找到相应的数据。定位到电影的标题所在标签，右键复制它的xpath：//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]中文标题就在a标签下的第1个span标签中span[1]，然后我们通过/text
Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析_爬虫电影 2401_84009698 程序员 python 爬虫开发语言
#获取中文电影标题title_cn=data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()')而在a标签下的第二个span标签中包含的文本内容是电影的英文标题，所以我们只需要将span[1]改成span[2]就可以获取到电影的英文标题。#获取英文电影标题title_en=data.
利用 Python 编程随机生成 n 个 1~9 之间的整数，然后统计生成的各个随机整数的个数。 hnjzsyjyj Python程序设计 Python 列表
【题目描述】利用Python编程随机生成n个1~9之间的整数，然后统计生成的各个随机整数的个数。【算法分析】●输入的n必须≥10，这是因为代码中数组cnt[]的下标会到9。若n小于10，将不会有下标9，就会产生IndexError。●利用“桶排序”中“桶”的思想进行统计。【算法代码】fromrandomimport*n=eval(input("Enteranintegerwhich≥10:"))c
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

【Python大数据笔记_day08_hive查询】

hive查询

语法结构:

类sql基本查询

数据准备:

数仓分层思想:

课堂练习:

类sql多表查询

数据准备:

练习:

hive其他join操作

hive其他排序操作

抽样查询

正则模糊查询

union联合查询

CTE表达式

内置虚拟列

你可能感兴趣的:(Python大数据学习笔记,数据库,hive,笔记)