aijiudu

Hive基本语法、基本原理和优化方法

背景

一、Hive基础篇

1.1 怎么来的？

1.2 hive是什么？

1.3 hive怎么用?

1.3.1 常用DDL举例

1.3.2 常用DML举例--insert的方式

1.3.3 常用query--关联/聚合/去重/排序举例

1.3.4 常用函数

二、Hive原理篇

2.1 hive编译和执行

2.1.1 hive系统架构

2.1.2 hive编译过程

2.1.3 hive查询执行流程

2.2 job调度

2.3 job执行引擎（MapReduce原理）

2.4 核心算子原理

2.4.1 Hive join原理

2.4.2 Hive group by原理

2.4.3 Hive distribute by 原理

2.4.4 Hive 排序

三、Hive优化篇

3.1 MAP阶段优化

3.2 Shuffle阶段优化

3.3 Reduce阶段优化

背景

当下很多企业都用hive数据仓库工具，本文介绍了hive的来源、基本原理和使用优化，方便初学者学习使用（初稿：后续会持续更新）。

一、Hive基础篇

1.1 怎么来的？

互联网时代，搜索引擎、电子商务、社交网络等会产生庞大的数据量，数据存储和分析面临挑战，存储扩容困难，统计分析复杂。

Google的三篇论文，它为大数据体系架构奠定了理论基础，Google是全球搜索引擎公司，它的数据迅速增长，为了满足庞大的储存需求，它设计并实现了GFS，分布式文件系统。解决了数据存储的问题，还需要对大规模数据集分析计算，Google设计了，MapReduce编程模型，可以对TB级数据做并行运算。

有了这个理论基础之后，Doug Cutting等人受到了启发，他们实现MapReduce计算框架，并和分布式文件系统结合再一起，有了一个很好的应用，最后它成为一套独立的软件，命名为Hadoop。

Hadoop解决了大数据存储和计算的问题，但是MapReduce编程不方便，HDFS上的文件没有Schema，统计分析比较困难，为了解决这个问题，Facebook一帮大牛搞了这个hive。

1.2 hive是什么？

基于Hadoop的一个数据仓库工具；
结构化数据映射成表，通过类SQL语言查询和分析数据，称为HiveQL(HQL)；
Hive将SQL编译转化为MapReduce job，通过Hadoop集群执行。

hive是Hadoop生态体系中的一员。

上面多次提到MapReduce（MR），思考MR是什么？hive和MR的区别

下面从三个方面概述一下区别，如表：

对比项	hive	MapReduce
原理	HQL => MapReduce 任务	Map => Sort/Shuffle/Merge => Reduce
编程方式	类似SQL的查询分析	创建MapReduce作业，实现两个回调函数：Mapper和Reducer
易用性	门槛较低，接近于SQL分析	原始的API，实现复杂处理工作非常困难和费力

1.3 hive怎么用?

基本语法（这里可以和我们熟悉的MySQL，oracle类比学习），它可以分为四类，第一类DDL（主要对库表操作），第二类DML（主要是数据插入），第三类Query（就是常用的select,from,where等），第四类DCL（是权限控制），DCL平时用的较少，我们重点介绍DDL，DML和Query。

1.3.1 常用DDL举例

如下图：DDL的一个使用举例，创建一个内部分区表，添加字段，查看表字段，修改注释。这里要注意我们工作中经常用到分区表，存储格式一般是ORC。（思考列存储的优势）这里也列了常见存储格式，并简单比对了常用的存储格式。常用列存储有ORC，parquet，行存储是textfile，列存储相比行存储压缩比更高，读取效率更高。

思考内部表和外部表区别？
1）概念本质上
内部表数据自己的管理的在进行表删除时数据和元数据一并删除。
外部表只是对HDFS的一个目录的数据进行关联，外部表在进行删除时只删除元数据，原始数据是不会被删除的。
2）应用场景上
外部表一般用于存储原始数据、公共数据，内部表一般用于存储某一个模块的中间结果数据。
3）存储目录上
外部表：一般在进行建表时候需要手动指定表的数据目录为共享资源目录，用location关键字指定。
内部表：无严格的要求，一般使用的默认目录。

1.3.2 常用DML举例--insert的方式

1. 单条数据插入,同mysql的单条数据插入，一次只能插入一条数据
    insert into table tablename values();
    insert into table student values(1303,2345,"xh",23,45,10);
2.单重数据插入一次性插入多条数据，将sql查询语句的查询结果进行插入
    insert into table tablename select ....
    insert into table student select * from student_external where yuwen>80;
3.多重数据插入对表扫描一次将数据插入到多个表中或者是同一个表的多个分区中
    from tablename
    insert into table table1 select ... where ...
    insert into table table2 select ... where ..
4.静态分区插入和动态分区插入（思考动态分区为什么会有小文件问题）
insert into table tablename partition(分区字段（动态：分区字段不需要给值/静态：分区给值）) select … from   table

动态分区产生小文件的原因分析：

假设有1000个task（或map），假定我们用的是二级分区，一级分区有5个值，二级分区有10个值，这时候要产生5*10=50个分区，再往hive中写数据的时候，每个task（写任务）极端情况下（每一个task中有每个分区的部分数据）会产生50个文件，累计会产生50*1000=5万个文件，就会带来大量小文件。

1.3.3 常用query--关联/聚合/去重/排序举例

1、关联/聚合/去重

注意：hive中的join只支持等值join,也就是说join on中的on里面表之间连接条件只能是=，不能是<,>等符号。此外，on中的等值连接之间只能是and,不能是or（如果在on 里添加非表之间的条件可以是非等号）。
inner join（内连接）只有进行连接的两个表中都存在与连接条件相匹配的数据才会被留下来。
left outerjoin（左外连接）在等值连接的基础上加上主表中的未匹配数据。
right outerjoin（右外连接）在等值连接的基础上加上被连接表的不匹配数据。
Full outer join（全外连接）是在等值连接的基础上将左表和右表的未匹配数据都加上。
left semi join（左半连接）是IN/EXISTS子查询的一种更高效的实现。
（1）限制是JOIN子句中右边的表只能在ON子句中设置过滤条件，在WHERE子句、SELECT 子句或其他地方过滤都不行。
（2）只传递表的join key给map阶段，因此left semi join中最后select的结果只许出现左表。
（3）因为left semi join是in(keySet)的关系，遇到右表重复记录，左表会跳过，而join 则会一直遍历。这就导致右表有重复值得情况下left semi join只产生一条，join会产生多条，也会导致 left semi join 的性能更高。

1.3.4 常用函数

Hive中有这些函数，比如：数学函数、集合、日期函数等，本文我们重点介绍工作中常用的，窗口函数、行列转函数和自定义函数。

1、Hive函数如下表：

分类	样例
数学函数	abs、acos、asin、atan、bin、bround、cbrt、ceil、conv、cos、degrees、e、exp、factorial、floor、greatest、hex、least、ln、log2、log10、log、negative、pi、pmod、positive、pow、radians、rand、round、round、shiftleft、shiftright、shiftrightunsigned、sign、sin、sqrt、tan、unhex、width_bucket
集合函数	size、map_keys、map_values、array_contains、sort_array
类型转换函数	binary、cast
日期函数	from_unixtime、unix_timestamp、to_date、year、quarter、month、day、hour、minute、second、weekofyear、extract、datediff、date_add、date_sub、from_utc_timestamp、to_utc_timestamp、current_date、current_timestamp、add_months、last_day、next_day、trunc、months_between、date_format
条件判断函数	if、isnull、isnotnull、nvl、coalesce、case、nullif、assert_true
字符串函数	ascii、base64、character_length、chr、concat、context_ngrams、concat_ws、decode、elt、encode、field、find_in_set、format_number、get_json_object、in_file、instr、length、locate、lower、lpad、ltrim、ngrams、octet_length、parse_url、printf、regexp_extract、regexp_replace、repeat、replace、reverse、rpad、rtrim、sentences、space、split、str_to_map、substr、substring_index、translate、trim、unbase64、upper、initcap、levenshtein、soundex
数据脱敏函数	mask、mask_first_n、mask_last_n、mask_show_first_n 、mask_show_last_n、mask_hash
杂项函数	java_method、reflect、hash、current_user、logged_in_user、current_database、md5、sha1、sha、crc32、sha2、aes_encrypt、aes_decryp、version
窗口函数	cume_dist、dense_rank、first_value、lag、last_value、lead、ntil、percent_rank、rank、row_number
行列转化	lateral view explode、concat_ws、collect_set
自定义函数	UDF、UDAF、UDTF

2、开窗函数应用举例

窗口函数就是通过一套语法实现分组聚合的函数，这里的语法就是函数+over从句（分组、排序和窗口字句），下面我们通过一些案例分别介绍，排序、取值和计算相关的窗口函数。

应用场景：用于分组排序、动态Group By、Top N、累计计算、层次查询。
（1）分组排序举例

分组排序	解释
ROW_NUMBER()	从1开始，按照顺序，生成分组内记录的序列
RANK()	生成分组内的排名，排名相等在名次会中留下空位
DENSE_RANK()	生成分组内的排名，排名相等在名次中不会留下空位

SELECT user_id,
       course,
       score,
       ROW_NUMBER() OVER(PARTITION BY course ORDER BY score) as rn,
       RANK() OVER(PARTITION BY course ORDER BY score) as rk,
       DENSE_RANK() OVER(PARTITION BY course ORDER BY score) as dr
  FROM student_score

（2）取值相关计算举例

取值相关函数	解释
FIRST_VALUE(col)	取分组内排序后，截止到当前行，第一个col值
LAST_VALUE(col)	取分组内排序后，截止到当前行，最后一个col值如果order的值变化了，基本上也就是当前行的值了，如果没有变化就取相同order系列中的最后一项。由于排序的值可能相同但要取的列值可能不同，所以FIRST/LAST这俩函数的返回值均是不确定的。
LEAD(col,n,DEFAULT)	用于统计窗口内往下第n行值。参数1：列名；参数2：往下第n行（可选，默认为1）；参数3：默认值（当往下第n行为NULL时，取默认值，不指定为NULL）
LAG(col,n,DEFAULT)	与lead相反，用于统计窗口内往上第n行值。参数1：列名；参数2：往上第n行（可选，默认为1）；参数3：默认值（当往上第n行为NULL时，取默认值，不指定为NULL）

SELECT user_id,
       course,
       score,
       ROW_NUMBER() OVER(PARTITION BY course ORDER BY score ASC) AS rn,
       FIRST_VALUE(score) OVER(PARTITION BY course ORDER BY score ASC) AS first_scorea,
       FIRST_VALUE(score) OVER(PARTITION BY course ORDER BY score DESC) AS first_scored,
       FIRST_VALUE(user_id) OVER(PARTITION BY course ORDER BY score ASC) AS first_usera,
       FIRST_VALUE(user_id) OVER(PARTITION BY course ORDER BY score DESC, user_id ASC) AS first_userda,
       LAST_VALUE(score) OVER(PARTITION BY course ORDER BY score) AS last_scorea,
       LAST_VALUE(user_id) OVER(PARTITION BY course ORDER BY score ASC,user_id ASC RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS last_user_upcr,
       LAST_VALUE(user_id) OVER(PARTITION BY course ORDER BY score ASC,user_id ASC RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) AS last_user_upuf,
       LAG(score,1,0) OVER(PARTITION BY course ORDER BY score) AS lag_1_0
  FROM student_score
  ORDER BY course,
          rn

（2）计算相关窗口函数举例

上面例子中over从句，在这里我们统一说一下相关语法

OVER从句
1、使用标准的聚合函数COUNT、SUM、MIN、MAX、AVG
2、使用PARTITION BY语句，使用一个或者多个原始数据类型的列
3、使用PARTITION BY与ORDER BY语句，使用一个或者多个数据类型的分区或者排序列
4、使用窗口规范，窗口规范支持以下格式：

(ROWS | RANGE) BETWEEN (UNBOUNDED | [num]) PRECEDING AND ([num] PRECEDING | CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)
(ROWS | RANGE) BETWEEN CURRENT ROW AND (CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)
(ROWS | RANGE) BETWEEN [num] FOLLOWING AND (UNBOUNDED | [num]) FOLLOWING

注意点：（1）理解ROWS BETWEEN含义,也叫做WINDOW子句：
PRECEDING：往前，FOLLOWING：往后，CURRENT ROW：当前行，UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点， UNBOUNDED FOLLOWING：表示到后面的终点；
（2）[ORDER BY后]缺失和[ORDER BY+窗口从句]都缺失区别：
当ORDER BY后面缺少窗口从句条件，窗口规范默认是 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW.
当ORDER BY和窗口从句都缺失, 窗口规范默认是 ROW BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING.
（3）ROWS和RANGE区别：
ROWS是物理窗口，与当前行的值（order by key的key的值）无关，只与排序后的行号相关（对行操作范围，返回对行范围）。
RANGE是逻辑窗口，与当前行的值有关（order by key的key的值）,在key上操作range范围（对值操作range范围，返回对应值分为）。

SELECT user_id,
       course,
       score,
       ROW_NUMBER() OVER(PARTITION BY course ORDER BY score ASC) AS rn,
       -- 组内score总和
       SUM(score) OVER(PARTITION BY course) AS sum_p_score,
       -- 截止当前score值和
       SUM(score) OVER(PARTITION BY course ORDER BY score ASC) AS sum_po_score,
       -- 截止当前score值和，order by后缺失默认如下
       SUM(score) OVER(PARTITION BY course ORDER BY score ASC RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS sum_po_range_score,
       -- 截止当前行，score值的和
       SUM(score) OVER(PARTITION BY course ORDER BY score ASC ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS sum_po_row_score,
       -- 往前2行 + 当前行score值的和
       SUM(score) OVER(PARTITION BY course ORDER BY score ASC ROWS BETWEEN 2 PRECEDING AND CURRENT ROW) AS sum_row_p2_score,
       -- 分组排序和sum的字段不一样
       SUM(user_id) OVER(PARTITION BY course ORDER BY score ASC) AS sum_user
  FROM student_score
  ORDER BY course,
          rn

3、行列转化函数

讲完窗口函数之后，我们再介绍行列转化函数，这是行列转化的基本语法。结合这个样例我们一起看一下，列转行，通过我们的语法把tag转成了new_tag，行转列是它的逆向操作，根据group by的key，将new_tag转化为tag_col。

列转行 (对某列拆分，形成新列) ：lateral view explode(split(column, ',')) num
行转列(根据主键，对某列进行合并) ： concat_ws(',',collect_set(column))

3、自定义函数

Hive自带的函数很多，但是也不能满足我们的所有需求，hive为我们提供了UDF，用户自定义函数，我们实现函数后进行注册就可以使用。

（1）如何开发UDF
继承GenericUDF
实现evaluate函数
（2）UDF的原理
临时函数和Hive Session绑定
class_name的查找路径在Hive的classpath
ADD JAR 语句，把jar包增加到classpath中
（3）Hive同样支持UDAF和UDTF

思考UDF、UDAF和UDTF的区别

UDF：用户自定义（普通）函数，只对单行数值产生作用；一进一出。
UDAF：User- Defined Aggregation Funcation；用户定义聚合函数，可对多行数据产生作用；等同与SQL中常用的SUM()，AVG()，也是聚合函数；多进一出。
UDTF：User-Defined Table-Generating Functions，用户定义表生成函数，用来解决输入一行输出多行；一进多出。

二、Hive原理篇

下面主要介绍hive原理，首先是编译、执行过程，也就是sql转化为MapReduce job的过程和MR任务执行流程；其次介绍job调度（一般采用yarn做资源管理器）；再介绍MapReduce原理；最后介绍一些核心算子的执行原理。

2.1 hive编译和执行

2.1.1 hive系统架构

hive的架构和编译原理，这是hive的整体架构。分成三部分，首先是客户端，我们可以通过hive client、jdbc或者odbc，连接到我们的服务端hiveserver2，driver驱动程序会接收SQL，通过编译器和优化器编译优化，这个过程会访问元数据，最后生成job，通过yarn调度，在Hadoop集群执行，最后把结果保存到HDFS上。

2.1.2 hive编译过程

2.1.3 hive查询执行流程

2.2 job调度

Application在Yarn中的执行过程，如需了解详细执行过程请点击：Yarn的执行过程细分

2.3 job执行引擎（MapReduce原理）

MapReduce过程详解及其性能优化

Hadoop作业称为Job，Job分为Map、Shuffle和Reduce阶段，MAP和Reduce的Task都基于JVM进程运行的。
MAP阶段：从HDFS读取数据，split文件产生task，通过对应数量的Map处理，map输出的每一个键值对通过key的hash值计算一个partition，数据通过环形缓冲区，sort、spill、merge生成data和index文件；
Reduce阶段：reduce通过Shuffle Copy属于自己的那部分数据，然后sort、spill、merge形成一个大文件，调用reduce函数进行处理。

2.4 核心算子原理

2.4.1 Hive join原理

join原理--MapJoin

join原理--Reduce Join，又叫Common Join

1. Map阶段：构建（key(tag),value）,key这里后面的数字是tag，后面在reduce阶段用来区分来自于那个表的数据，对key求hashcode设为hivekey；
2. Shuffle阶段：如果key在不同机器上，会通过网络传输把hivekey相同的数据汇集到一台机器；
3. Reduce阶段：把tag=1的内容，都加到tag=0的后面，合并输出。

2.4.2 Hive group by原理

默认设置了hive.map.aggr=true，会在mapper端先group by一次，最后把结果merge起来，为了减少reducer处理的数据量。

2.4.3 Hive distribute by 原理

只有一个distinct实现原理如下图：

有多个distinct字段，有两种实现方式，第一种同上，第二种对不同distinct字段编号膨胀，group by字段作为partition key，最后在reduce阶段保存LastKey区分不同的key。

2.4.4 Hive 排序

order by 是全局排序，可能性能会比较差，orderby生成一个reduce，数据量比较大是有性能瓶颈；
sort by分区内有序，往往配合distribute by来确定该分区都有那些数据；
distribute by确定了数据分发的规则，满足相同条件的数据被分发到一个reducer，常用于解决小文件问题；
cluster by当distribute by和sort by字段相同时，可以使用cluster by代替distribute by和sort by，但是cluster by默认是升序，不能指定排序方向。

三、Hive优化篇

为什么要做优化？答：用更少的资源，在相对较短的时间完成。
hive job性能优化流程：

explain查看执行计划；
查看执行日志定位那个stage执行时间太长；
查看job日志定位map阶段慢还是reduce阶段慢；
分析原因，资源不足、抓取失败、数据倾斜、reduce数量太少等；
针对不同的场景解决短板。

3.1 MAP阶段优化

MAP阶段常见问题：启动Mapper数太多，启动等待资源时间太长
什么决定了Mapper数量？？（上游小文件太多；split太小，切分的太多。）
（1）输入文件数目
（2）输入文件的大小
（3）配置参数
mapreduce.input.fileinputformat.split.minsize //启动map最小的split size大小
mapreduce.input.fileinputformat.split.maxsize //启动map最大的split size大小
dfs.block.size //block块大小
splitSize = Math.max(minSize, Math.min(maxSize, blockSize));

解决方案：
1、合并小文件
设置合并器：

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; -- 执行Map前进行小文件合并
set hive.merge.mapFiles=true;
set hive.merge.mapredFiles=true;
set mapred.min.split.size.per.node=100000000; -- 一个节点上split的至少的大小 ，决定了多个data node上的文件是否需要合并
set mapred.min.split.size.per.rack=100000000; -- 一个交换机下split的至少的大小，决定了多个交换机上的文件是否需要合并

2、设置合理的切分大小

set mapred.max.split.size=256000000 // mapred切分的大小
set mapred.min.split.size=256000000

3.2 Shuffle阶段优化

Shuffle是通过网络传输数据的
优化点：
（1）减少传输数据量：过滤异常数据或只选取需要的列（列裁剪）。
（2）广播小表，实现Map join。
试用场景，大表和小表join
hive.auto.convert.join=true;//设置自动选择Mapjoin（默认为true）
set hive.mapjoin.smalltable.filesize=25000000;//mapjoin阈值设置（默认25M一下认为是小表）

3.3 Reduce阶段优化

数据倾斜：Key的分布不均匀，大量数据被分配到了个别Reduce上处理。
解决方案：
1、MapJoin，大表和小表join，广播小表。
2、参数调优
3、把key打散
（1）加随机数膨胀
（2）倾斜key单独处理

你可能感兴趣的:(Hive,MapReduce,Hadoop,hive基本语法,hive窗口函数,hive编译原理,hive优化,hive行列转化函数)

C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
STM32中的计时与延时 lupinjia STM32 stm32 单片机
前言在裸机开发中，延时作为一种规定循环周期的方式经常被使用，其中尤以HAL库官方提供的HAL_Delay为甚。刚入门的小白可能会觉得既然有官方提供的延时函数，而且精度也还挺好，为什么不用呢？实际上HAL_Delay中有不少坑，而这些也只是HAL库中无数坑的其中一些。想从坑里跳出来还是得加强外设原理的学习和理解，切不可只依赖HAL库。除了延时之外，我们在开发中有时也会想要确定某段程序的耗时，这就需要
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
2022-10-10 幸福芳芳
10.10日觉察日记1.事件：开晨会员工来不齐，路远的请假，离得近的也请假，一律不批！2.感受：生气，气愤（情绪如何转化或使用）3.想法：1.今年已经很少开晨会了，非必要不会通知开会的，临近点了再打电话请假，又不是特别忙的季节，借口都会找～～2.不来的按公司标准执行负激励，待岗处理！我为你们负责，你们安全重要会议都不参加，自己都不为自己负责！以后有事也别找我！尤其是经销商老板，自己都不清楚自己用工
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
Android应用性能优化轻口味 Android
Android手机由于其本身的后台机制和硬件特点，性能上一直被诟病，所以软件开发者对软件本身的性能优化就显得尤为重要；本文将对Android开发过程中性能优化的各个方面做一个回顾与总结。Cache优化ListView缓存：ListView中有一个回收器，Item滑出界面的时候View会回收到这里，需要显示新的Item的时候，就尽量重用回收器里面的View；每次在getView函数中inflate新
C++ lambda闭包消除类成员变量 barbyQAQ c++c++java 算法
原文链接：https://blog.csdn.net/qq_51470638/article/details/142151502一、背景在面向对象编程时，常常要添加类成员变量。然而类成员一旦多了之后，也会带来干扰。拿到一个类，一看成员变量好几十个，就问你怕不怕？二、解决思路可以借助函数式编程思想，来消除一些不必要的类成员变量。三、实例举个例子：classClassA{public:...intfu
C++八股 Petrichorzncu 八股总结 c++开发语言
这里写目录标题C++内存管理C++的构造函数，复制构造函数，和析构函数深复制与浅复制：构造函数和析构函数哪个能写成虚函数，为什么？C++数据结构内存排列结构体和类占用的内存：==虚函数和虚表的原理==虚函数虚表（Vtable）虚函数和虚表的实现细节==内存泄漏==指针的工作原理函数的传值和传址new和delete与malloc和freeC++内存区域划分C++11新特性C++常见新特性==智能指针
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
【2022 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级 C++语言试题及解析】汉子萌萌哒 CCF noi 算法数据结构 c++
一、单项选择题(共15题，每题2分，共计30分；每题有且仅有一个正确选项)1.以下哪种功能没有涉及C++语言的面向对象特性支持：()。A.C++中调用printf函数B.C++中调用用户定义的类成员函数C.C++中构造一个class或structD.C++中构造来源于同一基类的多个派生类题目解析【解析】正确答案:AC++基础知识，面向对象和类有关，类又涉及父类、子类、继承、派生等关系，printf
matlab delsat = setdiff(1:69,unique(Eph(30,:)))；语句含义黄卷青灯77 matlab 开发语言 setdiff
这行MATLAB代码用于计算在范围1:69中不包含在Eph矩阵第30行的唯一值集合中的所有元素。具体解释如下：delsat=setdiff(1:69,unique(Eph(30,:)));解释Eph(30,:)Eph(30,:)提取矩阵Eph的第30行的所有列元素。这是一个行向量，包含了第30行的所有值。unique(Eph(30,:))unique函数返回Eph(30,:)中的唯一元素。这意味着
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
2022-05-22光印随思60学习要与现实打通无名之米8
20220522光印随思60学习要与现实打通今天在匆忙中完成了新网师课程的第七次预习作业。每次完成预习作业的过程都是一次艰难的学习，先要学习相关的文本和文件，了解作业需要的理论知识，之后需要把理论知识运用于实际工作和生活中。这也是学习的真正价值所在。在很多时候，会有这样的感觉，读了很多书为什么没有啥长进？现在回想应该就是，当只有阅读和感受，没有把阅读心得转化为文字，没有把阅读的知识运用到实际的场景
c++ 内存处理函数 heeheeai c++开发语言
在C语言的头文件中，memcpy和memmove函数都用于复制内存块，但它们在处理内存重叠方面存在关键区别：内存重叠:memcpy函数不保证在源内存和目标内存区域重叠时能够正确复制数据。如果内存区域重叠，memcpy的行为是未定义的，可能会导致数据损坏或程序崩溃。memmove函数能够安全地处理源内存和目标内存区域重叠的情况。它会确保在复制过程中不会覆盖尚未复制的数据，从而保证数据的完整性。效率:
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S