Mike_H

Hive_4. DML -- Functions & Operators & Transactions

今天跟大家总结一下 Hive 中常见的函数，以及事务操作。

为了进一步管理数据，我们可以在 Hive 中使用表达式，运算符，和函数来转换数据。Hive 维基百科提供了丰富了表达式和函数 (https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF)。在这里我就不想重复所有的函数和表达式，挑出一些个人认为在工作中经常能用到的来跟大家分享一下。

Hive 定义了关系运算符，算术运算符，逻辑运算符，复合构造类型。对关系，逻辑，算术运算符来说，它们类似于 SQL/JAVA 中的标准运算符。所以在这里我就不重复了。对于复杂数据类型的运算符，可以参考：Hive_4. DML -- 数据转换中分区表的示例。
Hive 中函数分类如下：

数学运算函数(Mathematical functions)：该函数更多的用来执行数学计算，比如说 RAND() and E().
集合函数(Collection functions)：这类函数用来为复杂数据类型发现大小，Keys，Values。比如说 SIZE(Array).
类型转换函数(Type conversion functions)：常使用CAST 和 BINARY 函数来将一个类型转换成另一种类型
日期函数(Date functions)：这类函数常用来做日期相关的计算，例如 YEAR(string date) 和 MONTH(string date).
条件函数(Conditional functions)：这类函数常用来检查返回的值是否满足条件，比如说 COALESCE, IF, 和 CASE WHEN.
字符串函数(String functions)：这类函数通常用来执行字符串相关的运算，比如说 UPPER(string A) 和 TRIM(string A).
聚合函数(Aggregate functions)：这类函数用来执行聚合操作，例如 SUM(), COUNT(*).
表生成函数(Table-generating functions)：该类函数用来将单行输入转换成多行输出。比如说 EXPLODE(MAP) 和 JSON_TUPLE(jsonString, k1, k2,…).
自定义函数(Customized functions)：该类函数使用 JAVA 代码来扩展 Hive 的功能，将会在 Hive UDF 篇做专门介绍。

你可以在 Hive CLI 中输入以下命令来查看 Hive 内置的函数 & UDF:

SHOW FUNCTIONS; --列出所有函数
DESCRIBE FUNCTION ; --具体函数的细节 
DESCRIBE FUNCTION EXTENDED ; --更多细节

接下来让我们看看如何去使用这些函数以及使用技巧：

复杂数据类型函数技巧：
SIZE() 函数主要用来计算 MAP, ARRAY,或者MAP/ARRAY的嵌套类型。当大小未知的时候会返回 -1。具体实现如下：

jdbc:hive2://> SELECT work_place, skills_score, depart_title 
. . . . . . .> FROM employee;
+----------------------+--------------------+-------------------------------------+
| work_place | skills_score | depart_title |
+----------------------+--------------------+-------------------------------------+
|["Montreal","Toronto"]|{"DB":80} |{"Product":["Developer","Lead"]} |
|["Montreal"] |{"Perl":85} |{"Product":["Lead"],"Test":["Lead"]} |
|["New York"] |{"Python":80} |{"Test":["Lead"],"COE":["Architect"]}|
|["Vancouver"] |{"Sales":89,"HR":94}|{"Sales":["Lead"]} |
+----------------------+--------------------+-------------------------------------+
4 rows selected (0.084 seconds)

jdbc:hive2://> SELECT SIZE(work_place) AS array_size, 
. . . . . . .> SIZE(skills_score) AS map_size, 
. . . . . . .> SIZE(depart_title) AS complex_size, 
. . . . . . .> SIZE(depart_title["Product"]) AS nest_size 
. . . . . . .> FROM employee;
+-------------+-----------+---------------+------------+
| array_size | map_size | complex_size | nest_size |
+-------------+-----------+---------------+------------+
| 2 | 1 | 1 | 2 |
| 1 | 1 | 2 | 1 |
| 1 | 1 | 2 | -1 |
| 1 | 2 | 1 | -1 |
+-------------+-----------+---------------+------------+
4 rows selected (0.062 seconds)

ARRAY_CONTAINS 语句用来检测数组类型是否包含值，返回值为 TRUE / FALSE. SORT_ARRAY 语句用来升序排序数组中内容。具体应用如下：

jdbc:hive2://> SELECT ARRAY_CONTAINS(work_place, 'Toronto') AS is_Toronto,
. . . . . . .> SORT_ARRAY(work_place) AS sorted_array 
. . . . . . .> FROM employee;
+-------------+-------------------------+
| is_toronto | sorted_array |
+-------------+-------------------------+
| true | ["Montreal","Toronto"] |
| false | ["Montreal"] |
| false | ["New York"] |
| false | ["Vancouver"] |
+-------------+-------------------------+
4 rows selected (0.059 seconds)

日期函数技巧：

FROM_UNIXTIME(UNIX_TIMESTAMP())语句跟 Oracle 中SYSDATE的功能一样。用来返回 Hive 服务器的当前日期-时间，具体应用如下：

jdbc:hive2://> SELECT 
. . . . . . .> FROM_UNIXTIME(UNIX_TIMESTAMP()) AS current_time 
. . . . . . .> FROM employee LIMIT 1;
+----------------------+
| current_time |
+----------------------+
| 2014-11-15 19:28:29 |
+----------------------+
1 row selected (0.047 seconds)

UNIX_TIMESTAMP()语句可以用来比较两个日期，或者转换为字符串类型放在 ORDER BY 后面进行排序： ORDER BY UNIX_TIMESTAMP(string_date, 'dd-MM-yyyy')。具体应用如下：

--用来比较两个不同的日期

jdbc:hive2://> SELECT (UNIX_TIMESTAMP ('2015-01-21 18:00:00') 
. . . . . . .> - UNIX_TIMESTAMP('2015-01-10 11:00:00'))/60/60/24 
. . . . . . .> AS daydiff FROM employee LIMIT 1;
+---------------------+
| daydiff |
+---------------------+
| 11.291666666666666 |
+---------------------+
1 row selected (0.093 seconds)

TO_DATE 语句用来去掉日期中的时、分、秒。用来检查一段时间的日期-时间类型的字段。例如 WHERE TO_DATE(update_datetime) BETWEEN '2014-11-01' AND '2014-11-31'。具体应用如下：

jdbc:hive2://> SELECT TO_DATE(FROM_UNIXTIME(UNIX_TIMESTAMP())) 
. . . . . . .> AS current_date FROM employee LIMIT 1;
+---------------+
| current_date |
+---------------+
| 2014-11-15 |
+---------------+
1 row selected (0.153 seconds)

针对不同数据类型 -- CASE

在 Hive 0.13.0 版本以前，THEN 和 ELSE 的数据类型需要保持一致，否则会报出异常。例如 Else表达式后需要跟相同数据类型，如果期望的是 ”bigint“，但是返回的却是”int“。这种情况就会报错。这里可以通过 IF 进行解决。

Hive 0.13.0 版本解决了该问题，具体应用如下：

jdbc:hive2://> SELECT 
. . . . . . .> CASE WHEN 1 IS NULL THEN 'TRUE' ELSE 0 END 
. . . . . . .> AS case_result FROM employee LIMIT 1;
+--------------+
| case_result |
+--------------+
| 0 |
+--------------+
1 row selected (0.063 seconds)

解析 & 搜索技巧 -- （行转列？）--可以肯定的是LATERAL VIEW 语句能将一行拆分为多行

LATERAL VIEW 语句利用用户自定义的表生成函数，例如使用 EXPLODE() 来扁平化 map 或者 array 类型的字段。explode 函数可以跟 LATERAL VIEW 一起使用来处理 array 和 map 类型数据。如果字段中有null 值，则整行将会被过滤掉。例如下面的示例中，Steven 的那行就被过滤掉了。

从 Hive 0.12.0 开始，便可以使用 OUTER LATERAL VIEW来保留空值的行。
在实际应用中，我们会发现，LATERAL VIEW 语句更多的是跟SPLIT ，explode ，UDTF一起使用，能够将一列数据拆分成多行数据。在此基础上可以对拆分后的数据进行聚合。当然本文的案例已经很全面的解释LATERAL VIEW语句的具体应用。大家也可以参考以下博客.
在 Hive中利用LATERAL VIEW explode语句来进行WordCount： http://www.codesec.net/view/149295.html

--数据准备

jdbc:hive2://> INSERT INTO TABLE employee
. . . . . . .> SELECT 'Steven' AS name, array(null) as work_place,
. . . . . . .> named_struct("sex","Male","age",30) as sex_age, 
. . . . . . .> map("Python",90) as skills_score, 
. . . . . . .> map("R&D",array('Developer')) as depart_title
. . . . . . .> FROM employee LIMIT 1;
No rows affected (28.187 seconds)

jdbc:hive2://> SELECT name, work_place, skills_score 
. . . . . . .> FROM employee;
+----------+-------------------------+-----------------------+
| name | work_place | skills_score |
+----------+-------------------------+-----------------------+
| Michael | ["Montreal","Toronto"] | {"DB":80} |
| Will | ["Montreal"] | {"Perl":85} |
| Shelley | ["New York"] | {"Python":80} |
| Lucy | ["Vancouver"] | {"Sales":89,"HR":94} |
| Steven | NULL | {"Python":90} |
+----------+-------------------------+-----------------------+
5 rows selected (0.053 seconds)

--LATERAL VIEW 忽略掉返回的空值行

jdbc:hive2://> SELECT name, workplace, skills, score
. . . . . . .> FROM employee
. . . . . . .> LATERAL VIEW explode(work_place) wp    -- 在这里会将数组字段拆分成多行(若含有null值，直接过滤掉整行)
. . . . . . .> AS workplace
. . . . . . .> LATERAL VIEW explode(skills_score) ss 
. . . . . . .> AS skills, score;
+----------+------------+---------+--------+
| name | workplace | skills | score |
+----------+------------+---------+--------+
| Michael | Montreal | DB | 80 |
| Michael | Toronto | DB | 80 |
| Will | Montreal | Perl | 85 |
| Shelley | New York | Python | 80 |
| Lucy | Vancouver | Sales | 89 |
| Lucy | Vancouver | HR | 94 |
+----------+------------+---------+--------+
6 rows selected (24.733 seconds)

--OUTER LATERAL VIEW 保留查询返回的空值行

jdbc:hive2://> SELECT name, workplace, skills, score
. . . . . . .> FROM employee
. . . . . . .> LATERAL VIEW OUTER explode(work_place) wp   -- 在这里会将数组字段拆分成多行
. . . . . . .> AS workplace
. . . . . . .> LATERAL VIEW explode(skills_score) ss 
. . . . . . .> AS skills, score;
+----------+------------+---------+--------+
| name | workplace | skills | score |
+----------+------------+---------+--------+
| Michael | Montreal | DB | 80 |
| Michael | Toronto | DB | 80 |
| Will | Montreal | Perl | 85 |
| Shelley | New York | Python | 80 |
| Lucy | Vancouver | Sales | 89 |
| Lucy | Vancouver | HR | 94 |
| Steven | None | Python | 90 |
+----------+------------+---------+--------+
7 rows selected (24.573 seconds)

字符串反转函数：REVERSE
语句用来反转字符串每个字母的顺序。SPLIT 语句可以使用特定的分词器来标记字符串。以下示例显示从一个 Linux 路径下获得文件名：

jdbc:hive2://> SELECT
. . . . . . .> reverse(split(reverse('/home/user/employee.txt'),'/')[0])
. . . . . . .> AS linux_file_name FROM employee LIMIT 1;
+------------------+
| linux_file_name |
+------------------+
| employee.txt |
+------------------+
1 row selected (0.1 seconds)

然而，reverse 将array / map 中的每个元素输出为单独的一行，collect_set 和 collect_list 的作用刚好相反，它会返回每行元素的结果集。collect_set 语句会对结果集进行去重操作。但是collect_list 没有改功能。具体应用如下：

jdbc:hive2://> SELECT collect_set(work_place[0]) 
. . . . . . .> AS flat_workplace0 FROM employee;
+--------------------------------------+
| flat_workplace0 |
+--------------------------------------+
| ["Vancouver","Montreal","New York"] |
+--------------------------------------+
1 row selected (43.455 seconds)

jdbc:hive2://> SELECT collect_list(work_place[0]) 
. . . . . . .> AS flat_workplace0 FROM employee;
+-------------------------------------------------+
| flat_workplace0 |
+-------------------------------------------------+
| ["Montreal","Montreal","New York","Vancouver"] |
+-------------------------------------------------+
1 row selected (45.488 seconds)

虚拟列：
在 Hive 中，虚拟列是一种特殊的函数类型。目前Hive提供两个虚拟列：INPUT__FILE__NAME (表示一个mapper任务的文件名) 和 BLOCK__OFFSET__INSIDE__FILE

(表示当前全局文件的偏移量。对于块压缩文件，就是当前块的文件偏移量，即当前块的第一个字节在文件中的偏移量,对排查出现不符合预期或者 Null 结果的查询是很有帮助的)

。下面通过显示数据在 HDFS 中的物理路径来展示如何使用虚拟列。对桶表和分区表来说使用虚拟列是很重要的。代码如下：

--简单示例：(摘抄自:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+VirtualColumns)
select INPUT__FILE__NAME, key, BLOCK__OFFSET__INSIDE__FILE from src;
select key, count(INPUT__FILE__NAME) from src group by key order by key;
select * from src where BLOCK__OFFSET__INSIDE__FILE > 12000 order by key;

--对桶表使用虚拟列

jdbc:hive2://> SELECT INPUT__FILE__NAME, 
. . . . . . .> BLOCK__OFFSET__INSIDE__FILE AS OFFSIDE 
. . . . . . .> FROM employee_id_buckets;
+---------------------------------------------------------+----------+
| input__file__name | offside |
+---------------------------------------------------------+----------+
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 0 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 55 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 120 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 175 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 240 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 295 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 360 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 415 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 480 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 535 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 592 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 657 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 712 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 769 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000000_0 | 834 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000001_0 | 0 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000001_0 | 57 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000001_0 | 122 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000001_0 | 177 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000001_0 | 234 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000001_0 | 291 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000001_0 | 348 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000001_0 | 405 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000001_0 | 462 |
| hdfs://hive_warehouse_URI/employee_id_buckets/000001_0 | 517 |
+---------------------------------------------------------+----------+
25 rows selected (0.073 seconds)

--对分区表使用虚拟列(根据时间进行分区)

jdbc:hive2://> SELECT INPUT__FILE__NAME FROM employee_partitioned;
+-------------------------------------------------------------------------+
| input__file__name |
+-------------------------------------------------------------------------+
|hdfs://warehouse_URI/employee_partitioned/year=2010/month=1/000000_0     
|hdfs://warehouse_URI/employee_partitioned/year=2012/month=11/000000_0    
|hdfs://warehouse_URI/employee_partitioned/year=2014/month=12/employee.txt
|hdfs://warehouse_URI/employee_partitioned/year=2014/month=12/employee.txt
|hdfs://warehouse_URI/employee_partitioned/year=2014/month=12/employee.txt
|hdfs://warehouse_URI/employee_partitioned/year=2014/month=12/employee.txt
|hdfs://warehouse_URI/employee_partitioned/year=2015/month=01/000000_0    
|hdfs://warehouse_URI/employee_partitioned/year=2015/month=01/000000_0    
|hdfs://warehouse_URI/employee_partitioned/year=2015/month=01/000000_0    
|hdfs://warehouse_URI/employee_partitioned/year=2015/month=01/000000_0    
+-------------------------------------------------------------------------+
10 rows selected (0.47 seconds)

Hive 维基百科中未提到的函数：
以下是 Hive 在维基百科中未曾涉及的函数：

--检查空值函数

jdbc:hive2://> SELECT work_place, isnull(work_place) is_null, 
. . . . . . .> isnotnull(work_place) is_not_null FROM employee;
+-------------------------+----------+--------------+
| work_place | is_null | is_not_null |
+-------------------------+----------+--------------+
| ["Montreal","Toronto"] | false | true |
| ["Montreal"] | false | true |
| ["New York"] | false | true |
| ["Vancouver"] | false | true |
| NULL | true | false |
+-------------------------+----------+--------------+
5 rows selected (0.058 seconds)

--assert_true：如果条件为 false，则抛出异常

jdbc:hive2://> SELECT assert_true(work_place IS NULL) 
. . . . . . .> FROM employee;
Error: java.io.IOException: org.apache.hadoop.hive.ql.metadata.HiveException: ASSERT_TRUE(): assertion failed. (state=,code=0)

--elt(n, str1, str2, ...), 返回指定位置(n-th)的字符串

jdbc:hive2://> SELECT elt(2,'New York','Montreal','Toronto')
. . . . . . .> FROM employee LIMIT 1;
+-----------+
| _c0 |
+-----------+
| Montreal |
+-----------+
1 row selected (0.055 seconds)

--返回当前 Hive 数据库名字(Hive 0.13.0开始)

jdbc:hive2://> SELECT current_database();
+----------+
| _c0 |
+----------+
| default |
+----------+
1 row selected (0.057 seconds)

Transactions

在Hive 0.13.0 版本之前，Hive 不支持行级的事务。这也导致了无法去更新、插入、删除数据行。因此，数据覆写只会发生在表和分区中。使得 Hive 的并行读写和数据清理十分繁琐。

从 Hive 0.13.0 版本开始，Hive通过 ACID(Atomicity, Consistency, Isolation, and Durability) 可以全面支持行级事务.所有的事务在 ORC(Optimized Row Columnar) 文件格式和桶表中都自动支持。关于 Hive ACID，请参考一篇翻译博客：Hive ACID 特性 - 0.13.0

为了让 Hive 支持事务，需要配置以下参数：

SET hive.support.concurrency = true;
SET hive.enforce.bucketing = true;
SET hive.exec.dynamic.partition.mode = nonstrict;
SET hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;
SET hive.compactor.initiator.on = true;
SET hive.compactor.worker.threads = 1;

SHOW TRANSACTIONS 命令是从 Hive 0.13.0 版本才添加的，用来显示当前系统开启 / 关闭的事务：

jdbc:hive2://> SHOW TRANSACTIONS;
+-----------------+--------------------+-------+-----------+
| txnid | state | user | host |
+-----------------+--------------------+-------+-----------+
| Transaction ID | Transaction State | User | Hostname |
+-----------------+--------------------+-------+-----------+
1 row selected (15.209 seconds)

从 Hive 0.14.0 版本开始， INSERT VALUE, UPDATE, 和 DELETE命令通过以下语法来支持到行运算：

INSERT INTO TABLE tablename [PARTITION (partcol1[=val1], partcol2[=val2] ...)] 
VALUES values_row [, values_row …];
UPDATE tablename SET column = value [, column = value ...] [WHERE expression]
DELETE FROM tablename [WHERE expression]

你可能感兴趣的:(Hive)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
初级练习[3]:Hive SQL子查询应用大数据深度洞察 Hive hive sql hadoop 数据仓库大数据数据库
目录环境准备看如下链接子查询查询所有课程成绩均小于60分的学生的学号、姓名查询没有学全所有课的学生的学号、姓名解释：没有学全所有课，也就是该学生选修的课程数<总的课程数。查询出只选修了三门课程的全部学生的学号和姓名环境准备看如下链接环境准备https://blog.csdn.net/qq_45115959/article/details/142057624?spm=1001.2014.3001.5
Linux下载压缩包：tar.gz、zip、tar.bz2格式全攻略 promise524 Linux linux 运维服务器后端 bash shell
在Linux中，下载各种格式的压缩包（如.tar.gz、.zip、.tar.bz2等）通常使用命令行工具如wget和curl。1.使用wget下载压缩包wget是Linux中最常用的文件下载工具，支持HTTP、HTTPS、FTP等协议，可以直接从命令行下载文件。基本命令：wget[URL]下载.tar.gz文件wgethttps://test.com/archive.tar.gz此命令将从指定的U
Anaconda版本和Python版本对应关系纬领网络 python anaconda3
官网下载地址：https://repo.anaconda.com/archive/下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda3版本基础python版本Anaconda3-2024.06-1Python3.12.4Anaconda3-2024.02-1Python3.11.7Anaconda3-2023.09
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
中级练习[3]：Hive SQL用户行为与商品销售数据分析大数据深度洞察 Hive hive 数据仓库大数据 sql
目录1.用户累计消费金额及VIP等级查询1.1题目需求1.2代码实现2.首次下单后第二天连续下单的用户比率查询2.1题目需求2.2代码实现3.每个商品销售首年的年份、销售数量和销售金额统计3.1题目需求3.2代码实现1.用户累计消费金额及VIP等级查询1.1题目需求从订单信息表(order_info)中统计每个用户截止其每个下单日期的累积消费金额，以及每个用户在其每个下单日期的VIP等级。VIP等
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
博客园怎么了？ YYH1992
新年好，给大家拜个早年！今年来到安徽过年，无聊中，不知不觉中又来到博客园了（忠实粉丝哦），却发现一件奇怪的事情，请看截图难道博客园被挂马了？抑或其它问题？如果真有问题，还请dudu抓紧时间修正，免得影响我们园子的声誉！我要下线了，出去买回家的车票了，只能年后回家了。。。转载于:https://www.cnblogs.com/HollisYao/archive/2008/02/06/1065351.
linux下文件的复制、移动与删除搬砖中年人
一、文件复制命令cp命令格式：cp[-adfilprsu]源文件(source)目标文件(destination)cp[option]source1source2source3...directory参数说明：-a:是指archive的意思，也说是指复制所有的目录-d:若源文件为连接文件(linkfile)，则复制连接文件属性而非文件本身-f:强制(force)，若有重复或其它疑问时，不会询问用户
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册 vvvae1234 apache
ApacheDoris内置支持包括Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC在内的多种Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。而随着ApacheDoris用户的增加，新的数据源连接需求也随之增加。因此，从3.0版本开始，ApacheDoris引入了TrinoConnector兼容框架。Trino/Presto作为业界较早应用
SAP HANA makaitai BW sap 数据库工具报表 layer 服务器
原文地址：http://LiuAlex.com/archives/1776也是刚刚开始学习HANA的一些知识，一边看书一遍做笔记，说到底无非是用自己的语言来理解标准帮组文档所讲解的意思，肯定有理解失误的地方，毕竟没有参加过标准培训，即使有培训，从老师那边来的知识也不可能是完整的传授过来，中间多少的知识遗漏是正常的，所以多看看HELP的文档，应该可以原汁原味的理解作者的意思。这张图片是从SAPHAN
Hive SQL查询汇总分析大数据深度洞察 Hive hive sql hadoop 数据仓库数据库大数据
目录SQL查询汇总分析成绩查询查询编号为“02”的课程的总成绩查询参加考试的学生个数分组查询查询各科成绩最高和最低的分查询每门课程有多少学生参加了考试（有考试成绩）查询男生、女生人数分组结果的条件查询平均成绩大于60分的学生的学号和平均成绩查询至少选修四门课程的学生学号查询同姓（假设每个学生姓名的第一个字为姓）的学生名单并统计同姓人数大于2的姓查询每门课程的平均成绩，结果按平均成绩升序排序，平均成
RMAN-08137 rman delete archivelog force jnrjian 数据库 oracle
deleteforcearchiveloguntiltime'trunc(sysdate-4)'backedup1timestodevicetypedisk;SymptomsDatabaseAClonedtoDatabaseBonCloneserver.GoldenGateisConfiguredonSourcedatbaseA.DatabaseBwhichisclonedfromSourcedo
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
Conda创建环境失败：000和404错误柚柚柚柚柚 conda
一、首先下载Anaconda1.打开网址Indexof/anaconda/archive/|清华大学开源软件镜像站|TsinghuaOpenSourceMirror，滑到最底部，下载Anaconda3-5.3.1-Linux-x86_64.sh。2.使用winscp拖动本地的Anaconda3-5.3.1-Linux-x86_64.sh到服务器的个人工作目录下。二、安装Anaconda软件，创建虚
C#中两个问号的含义 weixin_30363981 测试
stringstrParam=Request.Params["param"]??"";取??左边的值,如果??左边的值为null则取右边的值转载于:https://www.cnblogs.com/shadowtale/archive/2012/10/19/2731152.html
如何下载各个版本的tomcat-比如tomcat9 耳边轻语999 tomcat java
1，找到tomcat官网https://tomcat.apache.org/ApacheTomcat®-Welcome!找到tomcat9，或者archives1.1，找到对应版本1.2，找到小版本1.3，找到bin2，Indexof/dist/tomcat/tomcat-9/v9.0.39/bin2.1，下载对应的解压版本或者安装版本
Percona-toolkit工具详解小一_d28d
1.pt工具安装[root@master~]#yuminstall-ypercona-toolkit-3.1.0-2.el7.x86_64.rpm2.常用工具使用介绍2.1pt-archiver归档表#重要参数--limit100每次取100行数据用pt-archive处理--txn-size100设置100行为一个事务提交一次，--where'id>/root/db/checksum.logpt
Ubuntu更换apt-get的下载源愤愤的有痣青年
将以下内容替换/etc/apt/sources.list中的内容deb-srchttp://archive.ubuntu.com/ubuntuxenialmainrestricted#Addedbysoftware-propertiesdebhttp://mirrors.aliyun.com/ubuntu/xenialmainrestricteddeb-srchttp://mirrors.aliy
apt 下载指定架构的包及离线安装的方法错误重复学习记录 linux
#设置系统架构sudodpkg--add-architectureamd64#安装apt-rdependssudoaptinstallapt-rdepends#创建单独的目录mkdir-p/home/apt/postgresql-client-common#仅下载安装包sudoapt-getinstall--download-onlysudomv/var/cache/apt/archives/*/
游戏运营环节的一些关键转化率 turtle081025 数据分析游戏网络游戏运营
转载于http://www.gamedatas.com/archives/134转化率这个指标在各行各业的数据分析中运用的非常之广泛，例如：电商中就会存在，点击到订单生成的一系列转化率，传统的销售行业也会在做广告的时候考虑该广告能够转化多少订单，而在游戏行业，转化率同样是一个不容忽视的指标。一般来说，游戏运营的过程中主要会关注到这些转化率：1.下载-安装（激活）转化率；2.安装（激活）-注册转化率
Python API操作RocketMQ 京城小筑 #Python编程 python
背景：开发背景:公司相关报表需求需要将订单业务数据同步至RocketMQ中，由于需要保证开发的一致性(多个部门协同开发)，所以采用读取Hive离线数据的方式通过PythonAPI写入RocketMQ中，便于其他开发同事调用~开发环境:本地调试系统MacPython3.7.5rocketmq0.4.4(Python模块)rocketmq-client-python2.0.0(Python模块)服务器
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，