weixin_39642981

hive一次加载多个文件_Hive的基本操作

内容提要

l Hive及beeline的命令行操作

l jdbc操作Hive

l Hive函数

3.1 Hive命令操作

3.1.1 Hive的基本操作

我们长久以来习惯于传统的关系型数据库，并且结构化查询语言(SQL)相对来说也比较容易学习，那么能否将类似于关系型数据库的架构应用到Hadoop文件系统，从而可以使用类SQL语言查询和操作数据呢？Hive应运而生。

Hive提供了一个被称为Hive查询语言(HQL)的SQL方言，来查询存储在Hadoop集群中的数据。Hive就相当于是Mysql，Mysql的底层存储引擎是InnoDB，而Hive的引擎就是Hadoop的MapReduce，或者Spark，Hive会将不多数的查询转换成MapReduce任务或者Spark任务，这样就巧妙地将传统SQL语言和Hadoop生态系统结合起来，使仅会SQL的人员就可以轻松编写数据分析任务。

Hive是一个数据仓库，OLAP在线分析处理，用于统计或聚合函数等，不支持行级别的删改。它的数据建立在Hadoop之上，数据存储在HDFS上，但是它的Metastore默认存到Derby数据库当中，也可以存到外部数据库Mysql中。

接下来是对Hive的一些基本操作命令，

(1)desc database(extended)mybase(数据库名称) ; //查看数据库信息(括号内的可加可不加)extended表示扩展信息。

(2)alter database mybase set dbproperties ('created'='xpc'); //修改数据库，增加属性。

(3)create database mybase comment 'this is my first base'; //为数据库增加描述信息。

(4)create database mybase location '/x/x/x/x' ; //指定数据库存放hdfs的位置。

(5)create table default.test1 like mybase.test; //复制表结构，将mybase中test表的结构复制到default中的test1表中。

(6)load data local inpath '/x/x/x' overwrite into table xx ; //上传本地数据到hdfs中。

(7)load data inpath '/x/x/x' into table xx; //移动hdfs文件系统上的数据文件。

(8)insert into mybase.test2 select * from default.test0 where id >1203; //从default.test0中查找id>1203，插入到mybase.test2中。

(9)create table mybase.test3 as select * from default.test0; //复制表(表结构+数据)。

(10)select distinct id,name from xx ; //查询数据时重复的数据不要。

(11)insert into test2(id,name,age) values(5,'kk',22); //向表中插入一组数据。

(12)select all id,name,age from test2; //查询相同字段。

(13)select a.*,b,* from customers a inner join orders b on a.id=b.cid;

select a.*,b,* from customers a , orders b where a.id=b.id; //内连接。

(14)select * from test2 union select * from test2; //join是连接操作，union(纵向)，join(横向)。

(15)select id,name from customers union all select id,orderno from orders; //union all是将多个结果合并输出。

3.1.2 Hive视图-索引

本小节主要介绍如何创建和管理视图以及索引，以及一些简单的连接表的操作，比如union、join等。

当使用Hive的表数据作为输入源时，有些情况下，Hive中的表定义和数据并不能满足分析的需求，例如有些列的值需要进行处理，有些列的类型不满足需求，甚至有时候我们在创建Hive表时为了方便快捷，会将Hive表的所有列的字段类型都定义为string，因此很多情况下使用之前需要对Hive上的数据格式等问题进行适当的处理。但是如果在Hive中通过修改原表来解决上面的问题，比如使用alter table 的方式修改原始表的Schema信息未免会对其他依赖Hive的组件有所影响(例如可能导致通过Sqoop等方式导入数据失败)，而且也有可能导致之前的作业无法正常运行。于是我们需要考虑在不改变原表的情况下解决这个问题，我们想到的方案是使用Hive的视图。 Hive视图有几个特点：(1)不支持物化视图，物理文件并不存在。虚拟表也是表，但能显示出来。(2)只能查询，不能做加载数据操作。(3)视图的创建，只是保存一份元数据，查询视图时才执行对应的子查询。(4)view定义中若包含了ORDER BY/LIMIT语句，当查询视图时也进行ORDER BY/LIMIT语句操作，视图当中定义的优先级更高。(5)view支持迭代视图

接下来是对视图的一个简单的操作实例。

首先创建一个Hive表：

create table test2(id int,name String,age int)row format delimited fields terminated by ''(lines terminated by '' )stored as textfile；

然后建立一个test.txt文件，使用Hadoop的put命令将该文件上传到HDFS上的/user/hive/warehouse/myhive.db/test2目录下，其内容为：

1 tom 12

2 tomas 13

3 tomaslee 14

在创建好表并且在Hadoop上存储数据之后，可以使用load命令将该数据加载到表中，具体代码如下，

load data inpath ‘/user/hive/warehouse/myhive.db/test2/test.txt’ into table test2;

将数据加载到表中之后，可以使用select查询语句检查以上操作是否成功(此方法是通用方法，也可以在创建Hive表的时候使用location参数来指定HDFS上对应的数据目录，但此方法需要了解Hive的分区操作，关于Hive的分区操作将在3.1.4小节中做详细讲解。)。

如果数据已经可以正常访问到，即Hive的数据插入操作已成功，接下来需要把该Hive表作为两个表，使用自连接方法将两个表连接在一起，具体代码如下，

select a.*,b.* from test2 a,test2 b where a.id=b.id;

运行结果如下：

hive> select a.*,b.* from test2 a,test2 b where a.id=b.id;

WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. tez, spark) or using Hive 1.X releases.

Query ID = lvqianqian_20181117015844_9f01950b-1f03-425d-9fcf-e721e2027419

Total jobs = 1

SLF4J: Class path contains multiple SLF4J bindings.

SLF4J: Found binding in [jar:file:/home/hadoop/software/apache-hive-2.0.0- bin/lib/hive-jdbc-2.0.0-standalone.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: Found binding in [jar:file:/home/hadoop/software/apache-hive-2.0.0- bin/lib/log4j-slf4j-impl-2.4.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: Found binding in [jar:file:/home/hadoop/software/hadoop-2.7.3/share/ hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.

SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]

Execution log at: /tmp/lvqianqian/lvqianqian_20181117015844_9f01950b-1f03- 425d-9fcf-e721e2027419.log

2018-11-17 02:19:30 Starting to launch local task to process map join; maximum memory = 518979584

2018-11-17 02:19:43 Dump the side-table for tag: 0 with group count: 3 into file:file:/tmp/lvqianqian/eb51cfa6-0d1c-477d-a813-6d3d85788098/hive_2018-11-17_02-18-57_302_5305750774273816210-1/-local-10004/HashTable-Stage-3/MapJoin-mapfile00--.hashtable

2018-11-17 02:19:44 Uploaded 1 File to: file:/tmp/lvqianqian/eb51cfa6-0d1c-477d-a813-6d3d85788098/hive_2018-11-17_02-18-57_302_5305750774273816210-1/-local-10004/HashTable-Stage-3/MapJoin-mapfile00--.hashtable (334 bytes)

2018-11-17 02:19:44 End of local task; Time Taken: 13.762 sec.

Execution completed successfully

MapredLocal task succeeded

Launching Job 1 out of 1

Number of reduce tasks is set to 0 since there's no reduce operator

Starting Job = job_1479375079365_0001, Tracking URL = http://hadoop0:8888/ proxy/application_1479375079365_0001/

Kill Command = /home/hadoop/software/hadoop-2.7.3/bin/hadoop job -kill job_1479375079365_0001

Hadoop job information for Stage-3: number of mappers: 1; number of reducers: 0

2018-11-17 02:27:33,482 Stage-3 map = 0%, reduce = 0%

2018-11-17 02:27:37,017 Stage-3 map = 100%, reduce = 0%, Cumulative CPU 3.25 sec

MapReduce Total cumulative CPU time: 3 seconds 250 msec

Ended Job = job_1479375079365_0001

MapReduce Jobs Launched:

Stage-Stage-3: Map: 1 Cumulative CPU: 3.25 sec HDFS Read: 6661 HDFS Write: 377210 SUCCESS

Total MapReduce CPU Time Spent: 3 seconds 250 msec

1 tom 12 1 tom 12

2 yons 13 2 yons 13

3 yarn 14 3 yarn 14

Time taken: 522.964 seconds, Fetched: 3 row(s)

在执行上面的语句之后，如果输出以上结果，代表语句输入成功，因此可以将该结果保存到一个新表中，用于以后的分析操作，该表命名为res，具体的代码以及运行过程如下所示，

create table res as select a.*,b.* from test2 a,test2 b where a.id=b.id;//会报错，显示id重复，于是create table res as select a.id,b.id from test2 a,test2 b where a.id=b.id;

hive> create table res as select a.id aid,b.id bid from test2 a,test2 b where a.id=b.id;

WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. tez, spark) or using Hive 1.X releases.

Query ID = lvqianqian_20181117022930_a111967f-e98a-48da-928d-58af0709d23e

Total jobs = 1

SLF4J: Class path contains multiple SLF4J bindings.

SLF4J: Found binding in [jar:file:/home/hadoop/software/apache-hive-2.0.0- bin/lib/hive-jdbc-2.0.0-standalone.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: Found binding in [jar:file:/home/hadoop/software/apache-hive-2.0.0- bin/lib/log4j-slf4j-impl-2.4.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: Found binding in [jar:file:/home/hadoop/software/hadoop-2.7.3/share/ hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.

SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]

Execution log at: /tmp/lvqianqian/lvqianqian_20181117022930_a111967f-e98a-48da-928d-58af0709d23e.log

2018-11-17 02:30:54 Starting to launch local task to process map join; maximum memory = 518979584

2018-11-17 02:30:56 Dump the side-table for tag: 0 with group count: 3 into file:file:/tmp/lvqianqian/f571f325-7611-4212-89e4-4dfe1a974441/hive_2018-11-17_02-30-41_645_7756119684971572457-1/-local-10004/HashTable-Stage-4/MapJoin-mapfile10--.hashtable

2018-11-17 02:30:56 Uploaded 1 File to: file:/tmp/lvqianqian/f571f325-7611- 4212-89e4-4dfe1a974441/hive_2018-11-17_02-30-41_645_7756119684971572457-1/-local-10004/HashTable-Stage-4/MapJoin-mapfile10--.hashtable (314 bytes)

2018-11-17 02:30:56 End of local task; Time Taken: 2.378 sec.

Execution completed successfully

MapredLocal task succeeded

Launching Job 1 out of 1

Number of reduce tasks is set to 0 since there's no reduce operator

Starting Job = job_1479375079365_0002, Tracking URL = http://hadoop0:8888/ proxy/application_1479375079365_0002/

Kill Command =/home/hadoop/software/hadoop-2.7.3/bin/hadoop job -kill job_1479375079365_0002

Hadoop job information for Stage-4: number of mappers: 1; number of reducers: 0

2018-11-17 02:37:21,533 Stage-4 map = 0%, reduce = 0%

2018-11-17 02:37:27,942 Stage-4 map = 100%, reduce = 0%, Cumulative CPU 2.15 sec

MapReduce Total cumulative CPU time: 2 seconds 150 msec

Ended Job = job_1479375079365_0002

Moving data to: hdfs://hadoop0:8020/user/hive/warehouse/myhive.db/res

MapReduce Jobs Launched:

Stage-Stage-4: Map: 1 Cumulative CPU: 2.3 sec HDFS Read: 5778 HDFS Write: 375214 SUCCESS

Total MapReduce CPU Time Spent: 2 seconds 300 msec

Time taken: 415.308 seconds

以上存入新表的过程成功之后，可以使用Hadoop的cat命令来查看输出结果，此结果是二进制文件，具体命令以及操作结果如下，

hadoop fs -cat /user/hive/warehouse/myhive.db/res/000000_1000

18/11/17 02:38:25 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

最后对新建好的表res来创建视图，具体操作命令如下，

create view res_view as select * from res;

创建好视图之后，也可以使用select语句来查询一下视图的创建结果，具体操作如下，

select * from res_view;

删除操作很简单，直接使用drop view res_view即可删除视图。

以上是使用一些简单的命令，可以让我们更熟悉Hive的一些创建表、连接表、查询表等基本操作，而不局限于只创建一个视图，因此通过以上的操作，可以让我们更深入的了解到Hive的功能以及效率、作用等方面。

了解到视图的基本操作之后，可以学习一下关于索引的一些操作。

Hive的索引目的是提高Hive表指定列的查询速度。没有索引时，类似“where tab1.col1=10”的查询，Hive会加载整张表或分区，然后处理所有的rows，但是如果在字段col1上面存在索引时，那么只会加载和处理文件的一部分。与其他传统数据库一样，增加索引在提升查询速度时，会消耗额外资源去创建索引和需要更多的磁盘空间存储索引。在指定列上建立索引，会产生一张索引表(Hive的一张物理表)，里面的字段包括索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量。在执行索引字段查询时候，首先额外生成一个MR job，根据对索引列的过滤条件，从索引表中过滤出索引列的值对应的HDFS文件路径及偏移量，输出到HDFS上的一个文件中，然后根据这些文件中的HDFS路径和偏移量，筛选原始imput文件，生成新的split，作为整个job的split，这样就达到不用全表扫描的目的。关于创建索引(折半查找)的操作如下所示，

create index idx_id on table test2(id);(后面四修饰符)例如：

create index idx on table test2(id) AS 'org.apache.hadoop.hive.ql.index.compact. CompactIndexHandler' WITH DEFERRED REBUILD ;

折半查找法的基本思路(low、high和m分别指向待查元素所在区间的上届、下届和中点，k为要查找数据的关键字值)：

(1) 令low-0，high=n-1.

(2) 如果low>high，则查找失败，并结束查找；否则，计算m=(low+high)/2。

(3) 让k与m指向记录的关键字进行比较。

若k=r[m].key，则查找成功，结束查找。

若k

若k>r[m].key，则使low=m+1，回到(2)继续查找。

显示索引信息，具体代码如下，

show formatted index on cusotmers ;

关于创建的索引与检验具体操作代码以及结果如3-1、3-2所示，

图3-1 创建索引与检验具体操作

图3-2 创建索引与检验具体操作(续)

创建索引之后，是用show来显示索引，结果如图3-3所示，

图3-3 显示索引

3.1.3 外部表-内部表

我们在创建表的时候可以指定external关键字创建外部表，外部表对应的文件存储在location指定的目录下，而不是由默认的warehouse决定的，向该目录添加新文件的同时，该表也会读取到该文件(当然文件格式必须跟表定义的一致)，删除外部表的同时并不会删除location指定目录下的文件。以下代码是创建外部表，

create external table test(id int,name String,age int)row format delimited fields terminated by '' stored as textfile;

正如以上代码所示，其实创建表和创建外部表的区别只有一个，就是使用external关键字，Hive中默认创建的表是内部表，因此这里不需要再单独创建一个内部表，因为根据前几个小节就可以创建一个表，该表就是内部表，不需要任何的关键字，外部表和内部表最大的区别就是外部表删除之后，原数据表中的数据还在，而默认创建的内部表如果删除该表，它的原数据也将随之被删除。除了这个最大的区别之外，还有几个区别：(1)在导入数据到外部表时，数据并没有移动到自己的数据仓库目录下(如果指定了location的话)，也就是说外部表中的数据并不是由它自己来管理的，而内部表则不一样。(2)在创建内部表或外部表时加上location的效果是一样的，只不过表目录的位置不同而已，加上partition用法也一样，只不过表目录下会有分区目录而已，load data local inpath直接把本地文件系统的数据上传到HDFS上，有location的话上传到location指定的位置上，没有的话上传到Hive默认配置的数据仓库中。

3.1.4 分区-分桶

在Hive select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。如果需要创建有分区的表，需要在create表的时候调用可选参数partitioned by，详见表创建的语法结构。关于Hive的基本操作过程如下，

首先创建分区表，

create table test6(id int,name string,age int) partitioned by (year int,month int) row format delimited fields terminated by '';

由于Hive创建的表是直接存储在hdfs上的，因此可以使用hdfs命令行查看一下该表是否创建成功，

[laura@hadoop0 ~]$ hdfs dfs -lsr /

lsr: DEPRECATED: Please use 'ls -R' instead.

Java HotSpot(TM) 64-Bit Server VM warning: You have loaded library /home/laura/hadoop-2.7.3/lib/native/libhadoop.so which might have disabled stack guard. The VM will try to fix the stack guard now.

It's highly recommended that you fix the library with 'execstack -c ', or link it with '-z noexecstack'.

18/07/26 23:49:48 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

-rw-r--r-- 3 laura supergroup 3 2018-07-22 05:32 /1.txt

drwxr-xr-x - laura supergroup 0 2018-07-23 20:39 /input

-rw-r--r-- 3 laura supergroup 73867 2018-07-23 20:39 /input/1901.gz

-rw-r--r-- 3 laura supergroup 74105 2018-07-23 20:39 /input/1902.gz

drwxrwxrwt - laura supergroup 0 2018-07-18 08:22 /logs

drwxrwx--- - laura supergroup 0 2018-07-18 08:22 /logs/laura

drwxrwx--- - laura supergroup 0 2018-07-26 23:15 /logs/laura/logs

drwxrwx--- - laura supergroup 0 2018-07-18 08:25 /logs/laura/logs/application_1500386743383_0001

-rw-r----- 3 laura supergroup 36896 2018-07-18 08:25 /logs/laura/logs/application_1500386743383_0001/hadoop2_37435

drwxrwx--- - laura supergroup 0 2018-07-23 20:47 /logs/laura/logs/application_1500726223790_0001

-rw-r----- 3 laura supergroup 52215 2018-07-23 20:47 /logs/laura/logs/application_1500726223790_0001/hadoop1_36901

drwxrwx--- - laura supergroup 0 2018-07-23 20:50 /logs/laura/logs/application_1500726223790_0002

-rw-r----- 3 laura supergroup 41963 2018-07-23 20:50 /logs/laura/logs/application_1500726223790_0002/hadoop1_36901

drwxrwx--- - laura supergroup 0 2018-07-25 20:54 /logs/laura/logs/application_1501036601926_0001

-rw-r----- 3 laura supergroup 58718 2018-07-25 20:54 /logs/laura/logs/application_1501036601926_0001/hadoop4_49938

drwxrwx--- - laura supergroup 0 2018-07-25 22:00 /logs/laura/logs/application_1501036601926_0002

-rw-r----- 3 laura supergroup 58546 2018-07-25 22:00 /logs/laura/logs/application_1501036601926_0002/hadoop4_49938

drwxrwx--- - laura supergroup 0 2018-07-26 23:16 /logs/laura/logs/application_1501135590341_0001

-rw-r----- 3 laura supergroup 58468 2018-07-26 23:16 /logs/laura/logs/application_1501135590341_0001/hadoop1_53113

drwxr-xr-x - laura supergroup 0 2018-07-23 20:50 /output

-rw-r--r-- 3 laura supergroup 0 2018-07-23 20:50 /output/_SUCCESS

-rw-r--r-- 3 laura supergroup 18 2018-07-23 20:50 /output/part-r-00000

drwxr-xr-x - laura supergroup 0 2018-07-21 07:06 /system

drwx------ - laura supergroup 0 2018-07-25 02:55 /tmp

drwx------ - laura supergroup 0 2018-07-18 08:21 /tmp/hadoop-yarn

drwx------ - laura supergroup 0 2018-07-18 08:24 /tmp/hadoop-yarn/staging

drwxr-xr-x - laura supergroup 0 2018-07-18 08:24 /tmp/hadoop-yarn/staging/history

drwxrwxrwt - laura supergroup 0 2018-07-18 08:24 /tmp/hadoop-yarn/staging/history/done_intermediate

drwxrwx--- - laura supergroup 0 2018-07-26 23:16 /tmp/hadoop-yarn/staging/history/done_intermediate/laura

-rwxrwx--- 3 laura supergroup 33715 2018-07-18 08:25 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1500386743383_0001-1500391300173-laura-hadoop%2Darchives%2D2.7.3.jar-1500391517100-1-1-SUCCEEDED-default-1500391478352.jhist

-rwxrwx--- 3 laura supergroup 358 2018-07-18 08:25 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1500386743383_0001.summary

-rwxrwx--- 3 laura supergroup 118571 2018-07-18 08:25 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1500386743383_0001_conf.xml

-rwxrwx--- 3 laura supergroup 40302 2018-07-23 20:50 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1500726223790_0002-1500868183737-laura-Max+temperature-1500868216992-2-1-SUCCEEDED-default-1500868206163.jhist

-rwxrwx--- 3 laura supergroup 347 2018-07-23 20:50 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1500726223790_0002.summary

-rwxrwx--- 3 laura supergroup 117177 2018-07-23 20:50 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1500726223790_0002_conf.xml

-rwxrwx--- 3 laura supergroup 23051 2018-07-25 20:53 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1501036601926_0001-1501041123179-laura-insert+into+users%28id%2Cna...values%281%2C%27tom%27%2C12%29%28Stage-1501041234282-1-0-SUCCEEDED-default-1501041225347.jhist

-rwxrwx--- 3 laura supergroup 376 2018-07-25 20:53 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1501036601926_0001.summary

-rwxrwx--- 3 laura supergroup 256877 2018-07-25 20:53 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1501036601926_0001_conf.xml

-rwxrwx--- 3 laura supergroup 23031 2018-07-25 22:00 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1501036601926_0002-1501045166669-laura-insert+into+myhive.t1%28i...values%281%2C%27tom%27%2C12%29%28Stage-1501045217580-1-0-SUCCEEDED-default-1501045207922.jhist

-rwxrwx--- 3 laura supergroup 375 2018-07-25 22:00 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1501036601926_0002.summary

-rwxrwx--- 3 laura supergroup 257102 2018-07-25 22:00 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1501036601926_0002_conf.xml

-rwxrwx--- 3 laura supergroup 23022 2018-07-26 23:16 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1501135590341_0001-1501136045504-laura-insert+into+t3%28id%2Cname%29+values%281%2C%27tom%27%29%28Stage%2D1%29-1501136178929-1-0-SUCCEEDED-default-1501136161600.jhist

-rwxrwx--- 3 laura supergroup 371 2018-07-26 23:16 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1501135590341_0001.summary

-rwxrwx--- 3 laura supergroup 256924 2018-07-26 23:16 /tmp/hadoop-yarn/staging/history/done_intermediate/laura/job_1501135590341_0001_conf.xml

drwx------ - laura supergroup 0 2018-07-18 08:21 /tmp/hadoop-yarn/staging/laura

drwx------ - laura supergroup 0 2018-07-26 23:16 /tmp/hadoop-yarn/staging/laura/.staging

drwx-wx-wx - laura supergroup 0 2018-07-25 02:55 /tmp/hive

drwx------ - laura supergroup 0 2018-07-26 23:19 /tmp/hive/laura

drwx------ - laura supergroup 0 2018-07-25 10:15 /tmp/hive/laura/75fcbcee-e25f-40f8-9754-34e998cd0730

drwx------ - laura supergroup 0 2018-07-25 10:15 /tmp/hive/laura/75fcbcee-e25f-40f8-9754-34e998cd0730/_tmp_space.db

drwx------ - laura supergroup 0 2018-07-26 23:20 /tmp/hive/laura/abeb377c-3e5c-4106-9583-b539eb69d611

drwx------ - laura supergroup 0 2018-07-26 23:19 /tmp/hive/laura/abeb377c-3e5c-4106-9583-b539eb69d611/_tmp_space.db

drwxr-xr-x - laura supergroup 0 2018-07-25 20:02 /user

drwxr-xr-x - laura supergroup 0 2018-07-25 20:02 /user/hive

drwxr-xr-x - laura supergroup 0 2018-07-25 20:16 /user/hive/warehouse

drwxr-xr-x - laura supergroup 0 2018-07-26 23:45 /user/hive/warehouse/myhive.db

drwxr-xr-x - laura supergroup 0 2018-07-25 22:00 /user/hive/warehouse/myhive.db/t1

-rwxr-xr-x 3 laura supergroup 9 2018-07-25 22:00 /user/hive/warehouse/myhive.db/t1/000000_0

drwxr-xr-x - laura supergroup 0 2018-07-26 23:16 /user/hive/warehouse/myhive.db/t3

-rwxr-xr-x 3 laura supergroup 6 2018-07-26 23:16 /user/hive/warehouse/myhive.db/t3/000000_0

drwxr-xr-x - laura supergroup 0 2018-07-26 23:49 /user/hive/warehouse/myhive.db/t4

drwxr-xr-x - laura supergroup 0 2018-07-26 23:49 /user/hive/warehouse/myhive.db/t4/province=hebei

drwxr-xr-x - laura supergroup 0 2018-07-26 23:49 /user/hive/warehouse/myhive.db/t4/province=hebei/city=baoding

drwxr-xr-x - laura supergroup 0 2018-07-25 20:53 /user/hive/warehouse/myhive.db/users

-rwxr-xr-x 3 laura supergroup 9 2018-07-25 20:53 /user/hive/warehouse/myhive.db/users/000000_0

drwxr-xr-x - laura supergroup 0 2018-07-21 08:25 /user/laura

drwx------ - laura supergroup 0 2018-07-21 08:24 /user/laura/.Trash

drwx------ - laura supergroup 0 2018-07-23 20:49 /user/laura/.Trash/Current

drwxr-xr-x - laura supergroup 0 2018-07-23 20:47 /user/laura/.Trash/Current/output

-rw-r--r-- 3 laura supergroup 0 2018-07-23 20:47 /user/laura/.Trash/Current/output/_SUCCESS

-rw-r--r-- 3 laura supergroup 18 2018-07-23 20:47 /user/laura/.Trash/Current/output/part-r-00000

drwx------ - laura supergroup 0 2018-07-25 20:14 /user/laura/.Trash/Current/user

drwx------ - laura supergroup 0 2018-07-25 20:14 /user/laura/.Trash/Current/user/hive

drwx------ - laura supergroup 0 2018-07-25 20:14 /user/laura/.Trash/Current/user/hive/warehouse

drwxr-xr-x - laura supergroup 0 2018-07-25 21:50 /user/laura/.Trash/Current/user/hive/warehouse/myhive.db

drwxr-xr-x - laura supergroup 0 2018-07-25 20:38 /user/laura/.Trash/Current/user/hive/warehouse/myhive.db/t1

drwx------ - laura supergroup 0 2018-07-21 08:25 /user/laura/.Trash/Current/user/laura

drwxr-xr-x - laura supergroup 0 2018-07-21 06:39 /user/laura/.Trash/Current/user/laura/hadoop

-rw-r--r-- 3 laura supergroup 3 2018-07-21 02:47 /user/laura/.Trash/Current/user/laura/hadoop/1.txt

-rw-r--r-- 3 laura supergroup 1366 2018-07-14 16:00 /user/laura/README.txt

hive>show partitions t4;

province=hebei/city=baoding

Time taken:0.381 seconds,Fetched:1 row(s)

然后使用add关键字对分区表添加多个分区，

alter table partest5 add partition (year=2018,month=11) partition (year=2018, month=12);

给Hive表创建好分区之后，使用show partitions命令查看创建的分区是否成功，

show partitions partest5;

hive> show partitions partest5;

year=2018/month=11

year=2018/month=12

Time taken: 0.149 seconds, Fetched: 2 row(s)

表建成之后，可以向该表中插入一些数据，用于后续的实验使用，

load data local inpath '/x/x/x' overwrite into table partest5 partition (year= 2018,month=12);

在学习到创建分区表以及向分区表中插入数据的一些语法之后，还可以将分区删除，使用drop语法如下所示，

alter table partest5 drop partition (year=2018,month=11);

除了手动的对表进行分区以外，还可以使用动态分区的方法，接下来将一些关于动态分区的操作实验，

首先需要启动动态分区的配置，该配置默认时关闭的，

set hive.exec.dynamic.partition=true;

启动了之后，还需要修改一个配置去设置成分区模式，该配置默认时strict严格模式，修改这个配置时，至少要指定一个分区类，

set hive.exec.dynamic.partition.mode=nonstrict;

了解到基本的分区操作之后，接下来是用一个例子来测试一下动态分区的过程，

set hive.exec.dynamic.partition.mode=nonstrict;

insert into table partest5 partition(year,month) select id,name,age,2018 as year,4 as month from test4;

hive> insert into table partest5 partition(year,month) select id,name,age,2018 as year,4 as month from test4;

WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. tez, spark) or using Hive 1.X releases.

Query ID = lvqianqian_20181119130613_463819f6-d208-4a24-9215-b8fc3a5909f3

Total jobs = 3

Launching Job 1 out of 3

Number of reduce tasks is set to 0 since there's no reduce operator

Starting Job = job_1479587555371_0001, Tracking URL = http://hadoop0:8888/ proxy/application_1479587555371_0001/

Kill Command = /home/hadoop/software/hadoop-2.7.3/bin/hadoop job -kill job_1479587555371_0001

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0

2018-11-19 13:10:23,452 Stage-1 map = 0%, reduce = 0%

2018-11-19 13:10:28,936 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.66 sec

MapReduce Total cumulative CPU time: 1 seconds 660 msec

Ended Job = job_1479587555371_0001

Stage-4 is selected by condition resolver.

Stage-3 is filtered out by condition resolver.

Stage-5 is filtered out by condition resolver.

Moving data to: hdfs://hadoop0:8020/user/hive/warehouse/myhive.db/partest5/. hive-staging_hive_2018-11-19_13-07-16_713_4522739610653491079-1/-ext-10000

Loading data to table myhive.partest5 partition (year=null, month=null)

Time taken to load dynamic partitions: 1.545 seconds

Time taken for adding to write entity : 0.003 seconds

MapReduce Jobs Launched:

Stage-Stage-1: Map: 1 Cumulative CPU: 1.66 sec HDFS Read: 4519 HDFS Write: 378500 SUCCESS

Total MapReduce CPU Time Spent: 1 seconds 660 msec

Time taken: 198.535 seconds

hive> select * from partest5;

1 tom 12 2015 4

2 yons 13 2015 4

3 yarn 14 2015 4

NULL NULL NULL 2016 12

Time taken: 0.635 seconds, Fetched: 6 row(s)

Hive表的优化操作除了分区，还有一个方法就是分桶操作，分桶则是指定分桶表的某一列，让该列数据按照哈希取模的方式随机、均匀地分发到各个桶文件中。因为分桶操作需要根据某一列具体数据来进行哈希取模操作，故指定的分桶列必须基于表中的某一列(字段)。因为分桶改变了数据的存储方式，它会把哈希取模相同或者在某一区间的数据行放在同一个桶文件中。如此一来便可提高查询效率，如：我们要对两张在同一列上进行了分桶操作的表进行join操作的时候，只需要对保存相同列值的桶进行join操作即可。同时分桶也能让取样(sampling)更高效。

接下来是关于一个桶表的操作流程，首先创建桶表，

create table test5(id int,name string,age int) clustered by (id) into 2 buckets;

最好把两个blocksize放入一个bucket中，test5是桶表，把没有桶表的test4中数据插入到test5中去，并覆盖test5中数据，如下所示，

insert overwrite table test5 select * from test4;

注：load操作不可以用于bucket表，因此将数据插入事务表之前必须配置打开之前介绍的事务属性的所有配置才可以可以使用insert方法。

由于Hive内部目前使用的是mapreduce架构，因此在处理数据的时候，可以控制reduce的数量，可以设置它的最大值，

set map.reduce.tasks=2;

但是Map的数量是由输入分片的数量决定的，但是分片的数量并不是简单地按照文件的大小和blocksize的大小来切分的，分片的数量其实也是经过一系列的计算得到的，我们常用的Imput Format很多都是继承自FileInputFormat。

因为分桶表在创建的时候只会定义scheme，且写入数据的时候不会自动进行分桶、排序，需要人工先进行分桶、排序后再写入数据。确保目标表中的数据和它定义的分布一致。

目前有两种方式往分桶表中插入数据，

方法一：打开enforce bucketing开关。

set hive.enforce.bucketing=true;

insert (into|overwrite) table select [sort by [asc|desc],[ [asc|desc],…]];

方法二：将Reducer个数设置为目标表的桶数，并在select语句中用distribute by 对查询结果按目标表的分桶键分进Reducer中。相同自定义分区(相同字段值进入同一分区)。等价于MR分区过程，保证具有相同数据的某个字段一定进入同一分区，也就是进入同一Reduce。

set mapred.reduce.tasks=;

insert (into|overwrite) table select distribute by ,[,…] [sort by [asc|desc],[ [asc|desc],…]];

如果分桶表创建时定义了排序键，那么数据不仅要分桶，还要排序；如果分桶键和排序键不同，且降序排列，使用distribute by…sort by分桶排序；如果分桶键和排序键相同，且按升序排列(默认)，使用cluster by分桶排序，cluster by的功能就是distribute by个sort by相结合。具体操作代码如下：

set mapred.reduce.tasks=;

insert (into|overwrite) table select cluster by ,[,…];

另外，在Hive(inceptor)中，ORC事物表必须进行分桶(为了提高效率)。每个桶的文件大小应在100～200MB之间(ORC表压缩后的数据)。通常做法是先分区后分桶。

除此之外，桶表还有一个常用的操作，就是对表进行采样。当数据集非常大的时候，我们需要找一个子集来加快数据分析。此时我们需要数据采集工具以获得需要的子集。关于表采样函数的使用如下所示，(1)关闭cbo的优化策略

$>set hive.cbo.enable=false ;

(2)使用百分比随机采样tablesample函数

select * from customers tablesample(0.1 percent);

(3)bucket采样

select * from mybucks tablesample(bucket 1 out of 2 on id) ;

3.1.5 Hive函数

上面讲到了UDAF、转换、连接、聚合、表采样这些函数的概念以及使用方法，但这些函数都是Hive表中自带的一些函数，对于一些有特殊需求的项目，有可能使用这些自带的函数不能够达到想要的要求，因此我们需要使用用户自定义的函数来满足需求，即UDF(user-defined function)。关于UDF的具体操作步骤是：

(1)创建函数类：使用create function即可创建函数类。

(2)导出jar到Hive classpath，

[临时]

$hive>add jar /x/x/x/xxx.jar //该方法时直接在hive shell中输入，是临时生效的方法

[永久]hive-site.xml

hive.aux.jars.path=/shared/ //该方法是在hive的配置文件中配置，是永久生效的方法

(3)添加函数声明，

[临时函数]

CREATE TEMPORARY FUNCTION add AS 'com.it18zhang.myhive210.udf.UDFAdd';

[永久函数]

CREATE FUNCTION add AS 'com.it18zhang.myhive210.udf.UDFAdd' USING JAR 'file:///shared/bigdata/data/myhive210-0.0.1-SNAPSHOT.jar';(本地模式不可用，必须上传到hdfs上，然后不能用file，用hdfs8020端口执行)

临时函数和永久函数最大的区别是是否包含TEMPORARY关键字。

(4)使用add函数，可以实现两个参数相加，具体代码如下，

$>select add(1,2) ;

(5)使用DROP关键字可以删除函数，其他语法相同。具体代码如下，

DROP TEMPORARY FUNCTION IF EXISTS toUpper;

除了使用Hive-Cli操作自定义函数以外，还有一种方法就是之前提到过的，使用jdbc来操作Hive的自定义函数。首先导入一些关于Hive的库，然后开始定义函数并且定义一个UDFAdd类，该类继承UDF父类，类中定义三个方法。具体代码如下，

package com.lvqianqian.myhive210.udf;

import org.apache.hadoop.hive.ql.exec.Description;

import org.apache.hadoop.hive.ql.exec.UDF;

import org.apache.hadoop.hive.ql.udf.UDFType;

/**

* 定义函数

@Description(

name = "add",

value = "this is a add function.",

extended = "add() => 0 add(1,2) => 3 add(1,2,3) => 6")

@UDFType(deterministic =true, stateful = false)

public class UDFAdd extends UDF {

public int evaluate() {

return 0;

}

public int evaluate(int a , int b) {

return a + b;

}

public int evaluate(int a ,int b ,int c) {

return a + b + c;

}

代码编译通过后，导出jar包到Hive类路径下，具体代码如下，

[临时]

$hive>add jar /x/x/x/xxx.jar //该方法是临时打jar包

[永久]hive-site.xml

hive.aux.jars.path=/x/x/x/xxx.jar //该方法是永久地导出jar包

结果如下所示，

以上就是实现了一个自定义函数的过程。其实函数就是方法，面向对象的语言叫方法，面向过程的语言叫函数。

关于函数的创建，删除等操作熟悉之后，可以通过show方法来显示出该数据库中包含的所有函数。具体代码以及结果如下，

hive> show functions;

$sum0

<=>

abs

acos

add_months

aes_decrypt

aes_encrypt

and

array

array_contains

ascii

asin

assert_true

atan

avg

base64

between

bin

bround

case

cbrt

ceil

ceiling

chr

coalesce

collect_list

collect_set

compute_stats

concat

concat_ws

context_ngrams

conv

corr

cos

count

covar_pop

covar_samp

crc32

create_union

cume_dist

current_database

current_date

current_timestamp

current_user

date_add

date_format

date_sub

datediff

day

dayofmonth

decode

degrees

dense_rank

div

elt

encode

ewah_bitmap

ewah_bitmap_and

ewah_bitmap_empty

ewah_bitmap_or

exp

explode

factorial

field

find_in_set

first_value

floor

format_number

from_unixtime

from_utc_timestamp

get_json_object

get_splits

greatest

hash

hex

histogram_numeric

hour

in_file

index

initcap

inline

instr

isnotnull

isnull

java_method

json_tuple

lag

last_day

last_value

lcase

lead

least

length

levenshtein

locate

log

log10

log2

lower

lpad

ltrim

map

map_keys

map_values

mask

mask_first_n

mask_hash

mask_last_n

mask_show_first_n

mask_show_last_n

matchpath

max

md5

min

minute

month

months_between

named_struct

negative

next_day

ngrams

noop

noopstreaming

noopwithmap

noopwithmapstreaming

not

ntile

nvl

parse_url

parse_url_tuple

percent_rank

percentile

percentile_approx

pmod

posexplode

positive

pow

power

printf

quarter

radians

rand

rank

reflect

reflect2

regexp

regexp_extract

regexp_replace

repeat

replace

reverse

rlike

round

row_number

rpad

rtrim

second

sentences

sha

sha1

sha2

shiftleft

shiftright

shiftrightunsigned

sign

sin

size

sort_array

soundex

space

split

sqrt

stack

std

stddev

stddev_pop

stddev_samp

str_to_map

struct

substr

substring

substring_index

sum

tan

to_date

to_unix_timestamp

to_utc_timestamp

translate

trim

trunc

ucase

unbase64

unhex

unix_timestamp

upper

var_pop

var_samp

variance

version

weekofyear

when

windowingtablefunction

xpath

xpath_boolean

xpath_double

xpath_float

xpath_int

xpath_long

xpath_number

xpath_short

xpath_string

year

Time taken: 0.66 seconds, Fetched: 237 row(s)

你可能感兴趣的:(hive一次加载多个文件,hive查看表中列的信息命令)

Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
Vue3 学习教程，从入门到精通，使用 VSCode 开发 Vue3 的详细指南（3）知识分享小能手前端开发 vue3 网页开发学习前端 javascript vue.js vue3 vue 前端框架
使用VSCode开发Vue3的详细指南本文将详细介绍如何使用VisualStudioCode(VSCode)开发Vue3项目，包括创建项目、打开项目、运行第一个入门程序，并涵盖关键的语法知识点及使用方法。每个知识点都将提供具体的案例代码，并附有详细注释。此外，还将提供一些入门案例，帮助您快速上手Vue3开发。目录准备工作创建Vue3项目在VSCode中打开Vue3项目运行第一个入门程序Vue3关键
【实战派×学院派】32｜上线后一堆优化需求，到底是 Bug 还是改进？郭菁菁 (BA/PM)实战派常踩的坑学院派如何补上 bug 业务分析需求分析 BA
学院派：用Bug/Enhancement分类机制+优化反馈池+二次迭代评审机制，避免优化失控、节奏紊乱你是不是也遇到过这样的场景：“这个报表逻辑不太合理，麻烦调整下。”“那个按钮位置不合适，顺便挪一挪吧。”“这个功能可以加个提醒吗？体验会好一点。”项目刚上线没多久，各路优化意见像潮水一样涌来。最让人头疼的是：到底这些算Bug（缺陷）还是Enhancement（优化改进）？该优先处理哪个？哪些该打回
进阶之App 测试一只舰性能测试
App知识点什么是activityActivity一个应用程序的组件，它提供一个屏幕来与用户交互。Activity:应用程序中，一个Activity就相当于手机屏幕，它是一种可以包含用户界面的组件，主要用于和用户进行交互。一个应用程序可以包含许多活动，比如事件的点击，一般都会触发一个新的Activity。Activity生命周期四种状态:1、运行2、暂停3、停止4、系统回收（killed）Andr
万向节死锁公式推导微小冷机器人欧拉角旋转矩阵万向节万向节死锁旋转轴旋转
文章目录欧拉角的万向节死锁旋转轴欧拉角的万向节死锁如果把刚体的旋转沿着三个旋转轴进行拆分，那么可以变成三个旋转角的叠加，这三个旋转角就是欧拉角，分别对应旋转矩阵，为了书写方便，记Sθ=sin⁡θ,Cθ=cos⁡θS_\theta=\sin\theta,C_\theta=\cos\thetaSθ=sinθ,Cθ=cosθ，则三个旋转矩阵为Rx(θ)R_x(\theta)Rx(θ)Ry(θ)R_y(\
Three.js引擎开发：Three.js动画系统实现_（9）.Three.js中的骨骼动画实现 chenlz2007 游戏开发 javascript nginx 开发语言 vr 性能优化 ecmascript 前端
Three.js中的骨骼动画实现在上一节中，我们介绍了如何在Three.js中加载和显示3D模型。接下来，我们将深入探讨如何在Three.js中实现骨骼动画。骨骼动画是一种高级的动画技术，它通过控制模型的骨骼来驱动模型的动画，广泛应用于虚拟角色的动画制作。在本节中，我们将学习如何在Three.js中实现骨骼动画，包括骨骼动画的基本原理、如何加载带有骨骼的模型、如何创建和控制动画混合器（Animat
虚幻引擎UE5专用服务器游戏开发-19 设置头顶状态条可见性控制 AA陈超虚幻 ue5 游戏引擎 c++游戏服务器
头顶状态条的动态显示控制。状态条会根据与玩家角色的距离（默认300单位）进行自动隐藏，并通过定时器（默认0.2秒频率）持续检测距离变化。当角色由本地玩家控制时，状态条会自动隐藏。代码采用服务器-客户端初始化架构，并包含碰撞设置、组件创建等基础角色配置。Source/Crunch/Public/Character/CCharacter.h：变量：//计时器频率UPROPERTY(EditDefaul
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
LeetCode 第91题：解码方法
题目描述：一条包含字母A-Z的消息通过以下映射进行了编码1-A......26-Z要特别注意，11106可以映射为AAJF或KJF06不是一个合法编码给你一个只含数字的非空字符串s，请计算并返回解码方法的总数。如果没有合法的方法解码整个字符串，返回0示例1：输入：s="12"输出：2解释：它可以解码为"AB"（12）或者"L"（12）。示例2：输入：s="226"输出：3解释：它可以解码为"BZ"
Python面试题：Python中的异步编程：详细讲解asyncio库的使用超哥同学 Python系列 python 开发语言面试编程
Python的异步编程是实现高效并发处理的一种方法，它使得程序能够在等待I/O操作时继续执行其他任务。在Python中，asyncio库是实现异步编程的主要工具。asyncio提供了一种机制来编写可以在单线程内并发执行的代码，适用于I/O密集型任务。以下是对asyncio库的详细讲解，包括基本概念、用法、示例以及注意事项。1.基本概念1.1协程（Coroutines）协程是一个特殊的函数，它可以被
Fiddler中文版如何提升API调试效率：本地化优势与开发者实战体验汇总代码背锅人日志 ios 小程序 uni-app iphone android webview https
在现代软件开发中，调试网络请求是不可或缺的一环。无论是Web前端、移动App，还是后端微服务，只要涉及到API通信，就离不开高效的抓包工具。Fiddler作为全球使用最广泛的抓包调试工具之一，凭借功能强大、灵活扩展和跨平台支持，深受开发者喜爱。而对于中文用户而言，Fiddler中文版的出现，让这款专业工具变得更加亲民、高效和易于掌握。本文将结合开发者日常使用场景，解析Fiddler中文版如何通过本
嵌入式学习-Day6 不想学习\？？! 学习
c语言day6模拟获取co2，pm2.5的数值，并对co2的浓度，pm2.5的浓度做出划分，详情划分在代码注释首先写写出模拟获取数值的函数，但是由于要对浓度划分，所以先枚举出来等级划分typedefenum{Excellent,//默认0往下递增Good,Average,Poor}QualityLevel;接着写出模拟获取co2函数（在这里用到了static关键字，静态函数能够确保只在co2的c文
新手向:实现验证码程序 nightunderblackcat Java新手开发语言 java maven spring intellij-idea spring boot spring cloud
本文将从零开始，通过一个简单的验证码程序。即使你没有任何编程基础，也能跟着这篇文章一步步学习。第一章：Java开发环境搭建1.1安装JDK要开始Java编程，首先需要安装Java开发工具包(JDK)。JDK是Java开发的核心，包含了运行Java程序所需的工具和库。访问Oracle官网下载适合你操作系统的JDK运行安装程序，按照提示完成安装配置环境变量（这一步很重要，确保你可以在任何目录下运行Ja
百度斩获大模型中标第一，股价上涨5% 大力财经百度
7月7日（周一），百度（BIDU.US）股价上涨5%，收报90.68美元。最新数据显示，2025上半年我国大模型相关项目呈现爆发式增长态势：中标项目累计达1810个，金额突破64亿元，中标项目数超2024全年，市场需求持续释放。其中，百度智能云表现尤为突出，以48个中标项目和5.1亿元中标金额，稳居“双第一”，并在金融、能源、政务、制造等重点行业中持续领跑。依托领先的大模型技术与全栈智能基础设施，
Linux守护进程不脱发的程序猿嵌入式Linux“望闻问切“linux 嵌入式
目录1、编写守护进程的步骤2、守护进程的使用和案例设计2.1、案例功能分析2.2、守护进程代码结构2.3、代码实现2.4、代码详解3、编译和运行守护进程4、检查守护进程5、停止守护进程守护进程（Daemon）是一种在后台运行的特殊进程，通常用于执行系统服务、管理任务或处理请求。它们具有几个显著的特征，使其在系统中扮演重要角色。主要特征：长期运行：守护进程通常在系统启动时启动，并会持续运行，直至系统
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
iOS App抓包工具排查后台唤醒引发请求异常代码背锅人日志 http udp https websocket 网络安全网络协议 tcp/ip
在一次iOSApp优化后台推送处理时，我们发现部分用户在通过推送唤醒App后，进入页面会出现数据加载失败。此时日志中并无请求发起记录，后端也未接收到该用户的访问。由于问题只发生在App由后台被唤醒的场景中，常规功能测试完全无法覆盖。我们通过一次完整的抓包分析流程，还原了App在后台唤醒后的请求链（如使用Sniffmaster进行iOS真机抓包），最终找到了隐藏的问题。背景：推送唤醒后页面数据加载失
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
jenkins 自动化部署之后，不允许在工具上查看源代码小疯仔 jenkins 自动化运维
先来展示一下最终的效果在没有如何操作之前的时候，这个Jenkins部署完成之后会在工具上留有源代码，能点击进去，部署到甲方的服务器上的时候会被看到，这样就会造成源码泄露解决方案可以在Jenkinsfile文件中加入以下代码pipeline{agentanytools{nodejs'nodejs16.20.2'}//步骤stages{}//新增post阶段：在流水线结束后清理工作区post{alwa
深入解析：v0、Cursor、Manus等AI编程助手的系统提示词、工具与模型张道宁人工智能
引言在当今快速发展的AI编程领域，涌现出了许多强大的AI编程助手工具，如v0、Cursor、Manus、Same.dev、Lovable、Devin和ReplitAgent等。这些工具通过智能化的代码生成、补全和优化，正在彻底改变开发者的工作流程。v0：Vercel的AIUI生成器系统提示词设计v0的系统提示词专注于将自然语言描述转换为可用的UI代码（主要是React和TailwindCSS）。其
开源人工神经网络库（OpenANN） deepdata_cn 人工智能神经网络
OpenANN（OpenANN，OpenArtificialNeuralNetworkLibrary）是一个开源的人工神经网络库，基于C++编写，依赖Eigen3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速
量子传感探针：金刚石NV色心实现细胞级磁弹性成像（分辨率10nm）技术解析百态老人人工智能
一、技术原理与核心突破金刚石氮-空位色心（NV色心）作为原子级量子传感器，其磁弹性成像能力源于电子自旋态与环境磁场的量子相干相互作用，结合纳米探针技术实现细胞级分辨率。核心技术原理包括：1.NV色心量子传感机制磁弹性耦合模型：NV色心的自旋哈密顿量可表示为：H=DSz2+γeB⋅S+λϵ⋅SH=DS_z^2+\gamma_e\mathbf{B}\cdot\mathbf{S}+\lambda\mat
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
Hanbit便携式GIS局部放电检测仪中PRPD图的绘制方法研究
Hanbit便携式GIS局部放电检测仪中PRPD图的绘制方法研究摘要本报告详细阐述了韩国HanbitPoDAS便携式GIS局部放电检测仪软件中相分辨局部放电（PRPD）图的生成方法。报告旨在阐明其技术原理、数据采集、信号处理以及分析功能，这些功能共同实现了对气体绝缘开关设备（GIS）绝缘状态的精确评估。HanbitPoDAS系统利用超高频（UHF）传感器和智能软件算法来捕获、处理并显示PRPD模式
MiniMind：3小时训练26MB微型语言模型，开源项目助力AI初学者快速入门 nine是个工程师关注人工智能语言模型开源
开发｜界面｜引擎｜交付｜副驾——重写全栈法则：AI原生的倍速造应用流来自全栈程序员nine的探索与实践，持续迭代中。欢迎关注评论私信交流~在大型语言模型(LLaMA、GPT等)日益流行的今天，一个名为MiniMind的开源项目正在AI学习圈内引起广泛关注。这个项目让初学者能够在3小时内从零开始训练出一个仅26.88MB大小的微型语言模型，体积仅为GPT-3的七千分之一，却完整覆盖了从数据处理到模型
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
C#.NET log4net 详解 c#.net
简介log4net是.NET平台上非常成熟的日志组件，源自Java世界的log4j。它功能丰富、性能高、配置灵活，是企业应用中常见的日志框架之一。核心特点支持多种输出目标（Appender）：文件、数据库、控制台、远程服务等支持多种格式化（Layout）支持按级别（Level）记录日志支持日志分类（Logger分组、命名空间隔离）配置灵活，可通过XML文件配置，也可通过代码配置支持异步日志、按文件
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key