ITrue的天空

HIVE Streaming小结

HIVE中的查询可以结合使用非java语言的脚本（比如shell、python、perl等），达到另一种处理数据的方式。

下面通过自己亲自实践的测试程序说明Streaming的常见用法：

（1）恒等变换
（2）改变类型
（3）投影变换
（4）操作转换
（5）使用分布式内存
（6）CLUSTER BY、DISTRIBUTE BY、SORT BY
（7）计算cogroup

Streaming

HIVE是通过利用或扩展Hadoop的组件功能来运行的，常见的抽象有InputFormat、OutputFormat、Mapper、Reducer，还包含一些自己的抽象接口，例如SerializerDeserializer(SerDe)、用户自定义函数（UDF）和StorageHandlers。

这些组件都是java组件，不过hive将这些复杂的底层实现隐藏起来了，而提供给用户通过SQL语句执行的方式，而不是使用java代码。

Streaming 提供了另一种处理数据的方式。在streaming job中，Hadoop StreamingAPI会为外部进程开启一个I/O管道。然后数据会被传给这个进程，然后数据从标准输入中读取数据，然后通过标准输出来写结果数据，最后返回到Streaming API job。尽管HIVE并没有直接使用Hadoop的StreamingAPI，不过他们的工作方式是一致的。

这种管道计算模型对于Unix操作系统以及其衍生系统，如Linux和Mac OS X的用户来说是非常熟悉的。

提示：

Streaming的执行效率通常会比对应的编写UDF或改写InputFormat对象的方式要低。管道中的序列化和反序列化数据通常是低效的。而且以通常的方式很难调试整个程序。不过，对于快速原型设计和支持非java编写的已有的代码是非常有用的。对于那些不想写java代码的HIVE用户来说，这也是一个高效的方式。

HIVE中提供了多个语法来使用Streaming，包括：MAP()、REDUCE()、TRANSFORM()。

需要注意的是，MAP()实际上并非可以强制在map阶段执行Streaming，同样REDUCE()实际上并非可以强制在reduce阶段执行Streaming，所以推荐使用TRANSFORM()，这样可以避免误导读者对查询语句产生疑惑。

对于我们的Streaming例子，将使用一个表名为a的小表，其中有两个字段，分别是col1和 col2，它们都是INT类型的，表中有2行数据：

hive> create table a (col1 int,col2 int)
    > row format delimited fields terminated by '\t';

hive> insert into a values (4,5);
hive> insert into a values (3,2);

（1）恒等变换

最基本的Streaming job就是恒等运算。/bin/cat 这个shell命令可以将传递它的数据直接输出，所以满足恒等运算。本例中，/bin/cat 这个shell假定已经安装到所有的TaskTracker节点了。实际上任意的Linux系统都会包含这个脚本的！稍后，我们将展示一些程序没有安装到集群中时，通过hive如何将这些程序“加载”到集群中。

hive> select transform (col1,col2)
    > using '/bin/cat' as newa,newb
    > from default.a;

注意：transform 的参数字段名必需和实际定义的一致，否则会报错：

正确执行结果：

（2）改变类型

TRANSFORM返回的字段的数据类型默认是字符串类型的。不过可以通过如下语法将类型转换为其他数据类型：

hive> select transform (col1,col2)
    > using '/bin/cat' as (newa int,newb double) from a;

（3）投影变换

Streaming中可以使用cut命令提取或者映射出特定的字段。换句话说，可以达到和select相同的效果：

hive> select transform (col1,col2)
    > using '/bin/cut -f1'
> as newa,newb from a;

可以注意到，上面的例子中，查询从外部处理过程中返回的只有一个字段，而实际期望的是两个字段，因此字段newb的值总是null。默认情况下，TRANSFORM需要两个字段，不过实际上可以为比其小的任意个字段：

hive> select transform (col1,col2)
    > using '/bin/cut -f1'
    > as newa from a;

（4）操作转换

/bin/sed 程序是一个流编辑器，其可以接受输入数据流，然后按照用户的指定进行编辑，最后将编辑后的结果到输出数据流中。如下面的例子，将字符串“4”替换为字符串“10”：

hive> select transform (col1,col2)
    > using '/bin/sed s/4/10/'
    > as newa,newb from a;

（5）使用分布式内存

到目前为止所列举的Streaming例子都是UNIX系统或其衍生系统自带的如cat或sed这样的系统脚本程序。当一个查询所需要的文件没有在每个TaskTracker上事先安装好时，用户需要使用分布式缓存将数据或者程序传输到集群中，然后在job完成后会清理掉这些缓存的数据和文件。（Hadoop的分布式缓存可以对缓存内的文件按照LRU原则进行删除，因此并非是job一结束就立即删除）。

这个功能非常有用，因为在大规模集群上安装或者卸载大量的小组件会成为一件很有负担的事情。同时，缓存中会独立保存每个job的缓存文件，而不会相互干扰。

下面是一个将摄氏度转换为华氏温度的shell程序脚本：

#!/bin/bash

while read LINE
do
  res=$(echo "scale=2;((9/5) * $LINE ) + 32" | bc)
  echo $res
done

可以在本地测试脚本，脚本不会提示输入，输入100，然后按回车键，这时这个进程会通过标准输出打印出 212.00；输入拎一个值，会得到另一个相应的结果。用户可以持续的输入数值，也可以通过 Ctrl +D终止输入：

HIVE的ADD FILE功能可以将文件加入到分布式缓存中。而被增加的文件会被存储到每个task节点机器的当前工作目录下。这样可以使得transform task直接使用脚本而不用确定到哪里去找这些文件：

首先把本地脚本放到hive的根目录下（每个人的配置可能不同）：

[root@localhost shell_test]# cp ctof.sh /root

然后可以直接使用“相对路径”的分布式文件执行脚本：

hive> add file ${env:HOME}/ctof.sh;

hive> select transform (col1)  using 'ctof.sh' as convert from a;

笔者在实际测试上面的例子中，遇到下面错误：

最后解决方案是，在根目录下（root）中，发现sh脚本没有可执行权限，所以增加+x可执行权限：

增加执行权限之后，测试程序可以正确运行。（下面的测试python脚本程序同理）

（6）CLUSTER BY、DISTRIBUTE BY、SORT BY

Hive提供了语法来控制数据是如何被分发和排序的。这些功能可以应用在大多数的查询中，不过在处理Streaming时显得特别有用。例如，具有相同键的数据需要分发到同一个处理节点中，或者数据需要按照指定的列或者指定函数进行排序。hive提供了多种方式来控制这种行为。

第一种控制方式就是cluster by 语句，其可以保证类似的数据可以分发到同一个reduce task中，而且保证数据是有序的。

为了演示cluster by的用法，我们使用一个特殊的例子：通过另一种方式来实现Word Count算法。现在，我们使用transform功能和2个python脚本，一个脚本用于将读取的每行内容分割为单词，另一个脚本用于接收字频数据流以及单词的中间计数值，然后对每个单词的次品求和汇总。

下面是第一个python脚本，其可以按照空格将每行内容分割为单词：

mapper.py（注意要增加可执行权限，同上面的ctof.sh文件）

import sys

for line in sys.stdin:
words = line.strip().split()
for word in words:
    print “%s\t1” %(word.lower())

这个脚本从通用模块sys中引入常见的函数，然后循环获取“标准输入流”中的每行数据，然后按照空格划分每行的单词，生成一个单词集words，然后遍历整个集合并输出每个单词和对应的词频。

在展示第二个脚本之前，我们边讨论下传递给这个脚本的数据。我们的transform hive查询中，我们将对第一个脚本的输出词组使用cluster by 。这样可以将所有相同的单词分配到同一个组中，每行一对数据，每对的数据形式是单词\t次数：

word1	1
word1	1
word1	1
word1	1
…

因此第二个脚本会复杂些，因为其需要缓存当前处理的单词，以及迄今为止这个单词出现的次数。当处理下一个单词时，这个脚本需要输出上一个单词的频数，然后重置缓存。

下面是第二个脚本：

reducer.py（同样注意执行权限）

import sys
 
(last_key,last_count) = (None,0)
for line in sys.stdin:
(key,count) = line.strip().split(“\t”)
if last_key and last_key != key:
   print “%s\t%d” % (last_key,last_count)
   (last_key,last_count) = (key,int(count))
else:
    last_key = key
last_count += int(count) 
if last_key:
    print “%s\t%d” % (last_key,last_count)

不妨先看一下第一个脚本的执行结果：

hive  > select transform (line) using '${env:HOME}/mapper.py'
      > as word,count from docs;

执行完整的hive查询，并将结果存入word_count结果表中：

using语句指定了python脚本的绝对路径。

替代cluster by 的最方便的方式就是使用 distribute by 和sort by ，使用它们的常用场景是：用户希望将数据按照某个字段划分，然后按另一个字段排序。

实际上cluster by word等价于distribute by word sort by word asc。

如下面的程序就是按照降序排序：

from 
     (from docs
     select transform (line) using '${env:HOME}/mapper.py'
     as word,count
     distribute by word sort by word desc) wc
     insert overwrite table word_count
     select transform (wc.word,wc.count) using '${env:HOME}/reducer.py'
     as word ,count;

可以对比和cluster by word执行的结果。

world   1
word    2
hello   3
count   1

对比之前cluster by 的结果：

count   1
hello   3
word    2
world   1

使用cluster by 或者使用结合sort by 的distribute by是非常重要的，因为如果没有这些指示，hive可能无法合理的并行执行job，所有的数据可能都会分发到同一个reducer上，这样会导致整体job执行时间延长。

如果没有指定cluster by 或者使用结合sort by 的distribute by，那么最后的结果是不正确的：

from 
     (from docs
     select transform (line) using '${env:HOME}/mapper.py'
     as word,count
     ) wc
     insert overwrite table word_count
     select transform (wc.word,wc.count) using '${env:HOME}/reducer.py'
     as word ,count;

可以对比一下两者的查询日志信息：

对比日志信息可以发现，没有reduce过程。

通常情况下，使用Streaming是为了将非java代码结合到hive中。使用java编写Streaming也是可以的，Hive中包含了GenericMR API 来试图为Streaming提供类似于MapReduce API的接口。

（7）计算cogroup

在MapReduce程序中，经常会对多数据进行join连接处理，然后使用transform进行处理。使用union all和cluster by，我们可以实现cogroup by操作的常见效果。

假设我们有多个不同源的日志文件，它们具有相同的schema。我们希望将它们合并起来，然后通过一个reduce_script进行分析：（这仅是一个模板）

from(
from(
       from log1 o1
       select o1.id,o1.order_id ……
       union all
       from log2 o2
select o2.id,o2.order_id ……
) union_msg
select  union_msg.id, union_msg.order_di ….
cluster by union_msg.id
) map
insert overwrite table log_analysis
select transform(map.id,map.order_id…) using ‘reduce_script’
as (id,order_id …);

参考资料：《Hive编程指南》

在线格式化XML weixin_34250709
有时候要格式化一下XML，有没有好的小工具，这里有一个在线版本，好使！http://xmlindent.com/转载于:https://www.cnblogs.com/DotNetNuke/archive/2010/07/14/1777096.html
Hive小文件合并云掣YUNCHE hive hadoop 数据仓库
作者：振鹭一、参数配置：在Map输入的时候,把小文件合并。--每个Map最大输入大小，决定合并后的文件数setmapred.max.split.size=256000000;--一个节点上split的至少的大小，决定了多个datanode上的文件是否需要合并setmapred.min.split.size.per.node=100000000;--一个交换机下split的至少的大小，决定了多个交换
hive小文件合并机制_hive小文件的问题弊端以及合并做生活的创作者 hive小文件合并机制
小文件的弊端1、HDFS中每个文件的元数据信息，包括位置大小分块信息等，都保存在NN内存中，在小文件数较多的情况下，会造成占用大量内存空间，导致NN性能下降；2、在读取小文件多的目录时，MR会产生更多map数，造成GC频繁，浪费集群资源；3、现在大数据平台文件总数超过30亿，单个NS文件数超过4亿的时候，读写性能会急剧下降，影响到所有读写该NS的任务性能；4、如果队列限制最大map数是20000，
数仓建模（五）选择数仓技术栈：Hive & ClickHouse & 其它昊昊该干饭了数仓建模大数据 hive clickhouse hadoop
在大数据技术的飞速发展下，数据仓库（DataWarehouse，简称数仓）成为企业处理和分析海量数据的核心工具。市场上主流数仓技术栈丰富，如Hive、ClickHouse、Druid、Greenplum等，对于初学者而言，选择合适的技术栈是一项挑战。本文将详细解析Hive、ClickHouse及其他数仓技术，帮助读者根据场景需求选择最佳工具。目录一、数据仓库的基础概念和技术选型原则1.1什么是数据
Hive--HiveServer2 命令行代码连接、Hive常用命令、自定义UDF函数、排序 XK&RM Hive hive hiveserver2 udf java
目录1Hive--HiveServer2命令行代码连接1.1配置HiveServer2WEB参数1.2开启HiveServer21.3使用Beeline连接HiveServer21.4使用代码查询HiveServer21.5使用DBeaver连接Hive2Hive--Hive常用命令2.1Hive命令2.2HiveShell命令3Hive--自定义UDF函数(User-DefinedFunctio
Hive 数据类型全解析：大数据开发者的实用指南大鳥 sql hive 数据仓库
在大数据处理领域，Hive作为一款基于Hadoop的数据仓库工具，被广泛应用于数据的存储、查询和分析。而理解Hive的数据类型是有效使用Hive的基础，本文将深入探讨Hive的数据类型，帮助大家更好地掌握Hive的使用。Hive数据类型概述Hive支持多种数据类型，主要可分为数值类型、日期/时间类型、字符类型、Misc类型以及复杂类型。这些数据类型为存储和处理各种不同格式的数据提供了有力的支持。以
Apache Hive--排序函数解析大鳥 apache hive hadoop
在大数据处理与分析中，ApacheHive是一个至关重要的数据仓库工具。其丰富的函数库为数据处理提供了诸多便利，排序函数便是其中一类非常实用的工具。通过排序函数，我们能够在查询结果集中为每一行数据分配一个排名值，这对于数据分析、报表生成等工作具有重要意义。本文将深入探讨ApacheHive中的排序函数，通过具体的HQL代码和数据实例进行说明，并阐述它们之间的区别。0.排序函数：ORDER、SORT
大数据新视界 -- Hive 数据仓库设计的优化原则（2 - 16 - 4）青云交大数据新视界 #Hive 之道 Hive 数据仓库优化原则数据分区存储格式查询优化 B 树索引查询性能大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
ORACLE与SQL SERVER的区别 nanzhuhe 文章笔记数据库 Oracle
ORACLE与SQLSERVER的区别转载自：https://www.cnblogs.com/chuncn/archive/2009/01/28/1381262.html体系结构ORACLE的文件体系结构为：数据文件.DBF（真实数据）日志文件.RDO控制文件.CTL参数文件.ORASQLSERVER的文件体系结构为：.MDF（数据字典）.NDF（数据文件）.LDF（日志文件）ORACLE存储结构
hdfs和hive对于小文件的处理方案二进制_博客大数据
一、hdfs如何处理小文件小文件问题的危害小文件问题对HDFS的性能和稳定性产生显著影响，主要包括：占用过多的存储空间：每个小文件都会占用一个独立的Block，导致存储资源的浪费。降低数据处理效率：HDFS是为处理大文件而设计的，小文件会导致大量的Map任务启动，增加处理时间和资源消耗。NameNode内存压力增大：NameNode需要维护所有文件和目录的元数据信息，小文件过多会导致NameNod
hive 创建访问用户_Hive权限控制和超级管理员的实现 weixin_39826089 hive 创建访问用户
Hive权限控制Hive权限机制：Hive从0.10可以通过元数据控制权限。但是Hive的权限控制并不是完全安全的。基本的授权方案的目的是防止用户不小心做了不合适的事情。先决条件：为了使用Hive的授权机制，有两个参数必须在hive-site.xml中设置：hive.security.authorization.enabledtrueenableordisablethehiveclientauth
hive表级权限控制_Hive权限管理 weixin_39769091 hive表级权限控制
最近遇到一个hive权限的问题，先简单记录一下，目前自己的理解不一定对，后续根据自己的理解程度更新一、hive用户的概念hive本身没有创建用户的命令，hive的用户就是Linux用户，若当前是用mr用户输入hive，进入hive的shell，则当前hive的用户为mr。hive本身不提供用户和用户的管理，只做权限控制。所以在实际的生产中，容易造成创表和使用表的用户不统一的情况，针对该情况可以使用
HIVE的权限控制和超级管理员的实现 weixin_34364071 大数据数据库 java
Hive用户权限管理从remote部署hive和mysql元数据表字典看，已经明确hive是通过存储在元数据中的信息来管理用户权限。现在重点是Hive怎么管理用户权限。首先要回答的是用户是怎么来的，发现hive有创建角色的命令，但没有创建用户的命令，显然Hive的用户不是在mysql中创建的。在回答这个问题之前，先初步了解下Hive的权限管理机制。Hive用户组和用户即Linux用户组和用户，和h
hive批量修复分区青云游子 Hive hive 数据库 hadoop
#!/bin/bashset-x#定义Hive数据库的名称database_name="edu"#定义要排除的表名exclude_table="tab_name"#使用Hive的shell命令获取所有的表名tables=$(hive-e"USE$database_name;SHOWTABLES;")#初始化一个字符串，用于存储所有的MSCKREPAIRTABLE命令commands="USE$da
HiveMetaException: Unknown version specified for initialization: 3.1.0（或者其他版本号）一品_人生 mysql hive 大数据
遇到这个问题，也是很难发现的，查阅很多文章，乱七八糟，也可能是遇到的问题不相同吧，我们从以下两个方面去排查吧1.检查你的hive-site.xml和hive-env.sh，配置对就行，这个网上一大片，注意要正确。2.那就是你解压的hive压缩文件，然后发现要安装mysql，这时你会先检查你本地有没有mysql，使用find/-namemysql（罪源），然后你就一通删除，你没有发现你删除了一个hi
hive表修改字段类型没有级连导致历史分区报错尘世壹俗人大数据Hive技术 hive hadoop 数据仓库
一：问题背景修改hive的分区表时有级连概念，指字段的最新状态，默认只对往后的分区数据生效，而之前的分区保留历史元数据状态。好处就是修改语句的效率很快，坏处就是如果历史分区的数据还有用，那就回发生分区元数据和表元数据的不一致报错最终导致：presto或hive任务抽取历史分区会报如下的错误Thereisamismatchbetweenthetableandpartitionschemas.Thet
Hive 查看partition 以及msck 修复分区 dgsdaga3026010 大数据
#checktable的partitionhive>showpartitionstable_name;如果是外部表，不小心把表给删除了，可以适用下命令重新关联表和数据[MSCKREPAIRTABLE]全量修复分区hive>msckrepairtabletable_name;转载于:https://www.cnblogs.com/TendToBigData/p/10501178.html
集群间hive数仓迁移 one code database
方式一：(此方法需要建库建表)第一步：建库建表在原集群hive上查看迁移表的建表语句及所在库，然后在新集群hive上建库建表；showcreatetabletb_name;createdatabasedb_name;createtabletb_name.....第二步：转移数据文件到新集群；在旧集群中下载数据到本地hadoopfs-get/user/hive/warehouse/dc_ods.db
HIVE合并小文件难以触及的高度 hive hadoop 数据仓库
8.分区分桶，合并小文件为什么小文件需要合并？1.小文件过多，MR处理数据时，会产生多个MapTask,然而每个MapTask处理的数据量很少，那么导致MapTask启动时间大于执行时间，整体任务时间消耗较大如何合并小文件：1）在map执行前合并小文件，减少map数：CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）。HiveInputFormat没有对小文件
Hive中没有超级管理员，如何进行权限控制二进制_博客大数据 hive hadoop 数据仓库
Hive中没有超级管理员，任何用户都可以进行Grant/Revoke操作开发实现自己的权限控制类，确保某个用户为超级用户比如任何用户都可以grant权限给别的用户。grantselectontabletest2touserhadoop;如何开发一个超级管理员：创建一个项目，导入mavanjar包，然后开始编写hook类importcom.google.common.base.Joiner;impo
docker-ubuntu-24.04安装openresty1.21.4.3全过程司江龙 ubuntu linux 运维
拉取最新的ubuntu镜像dockerpullubuntu:latest创建启动容器dockerrun-it--name容器名称-p8082:8082镜像id/bin/bash更换apt-get为阿里云镜像sed-i'[email protected]/@/mirrors.aliyun.com/@g'/etc/apt/sources.list&&apt-getupdate创建目录cdhome
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
架构师反向代理Haproxy+压力测试 - 学习笔记无影V随风学习笔记 linux相关
一.Apache的反向代理(生产不建议使用)1.Apache的编译安装:yuminstallapr-develapr-util-develpcre-developenssl-develcd/usr/local/src/wgethttp://archive.apache.org/dist/httpd/httpd-2.4.18.tar.gztar-zxvfhttpd-2.4.18.tar.gzcdht
Python 爬虫：获取网页数据的 5 种方法王子良. 经验分享 python python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
QT ListView 记录 weixin_30872157 数据库
http://www.cnblogs.com/chenxuelian/archive/2009/12/22/1629601.html转载于:https://www.cnblogs.com/whisht/archive/2012/06/12/3085088.html
linux安装卸载软件 int8 linux linux 运维服务器
一、首先要清楚几个概念（一）归档：归档是把多个文件合并成一个文件的过程。生成的文件称为归档包。归档包带后缀名。不同的归档程序，生成的归档包的后缀名不同。（二）压缩：压缩是把一个大文件变成一个小文件的过程。生成的文件称为压缩包。压缩包名带后缀名。不同的压缩程序，生成的压缩包的后缀名不同。（三）归档压缩程序仅归档ar：archiver。后缀名为.a,.arTar：TapeArchive。通过Tar归档
一步到位：购买适合 SEO 的域名全攻略后端
选择一个对SEO友好的域名不仅可以提高搜索引擎排名，还能增强品牌影响力。以下是简化优化后的购买流程：1.检查域名历史，确保无负面记录在购买域名前，务必确认它没有被封锁或拉黑，并且历史记录与您的行业相关：检查域名安全性和历史VirusTotal：查看域名是否被列为不安全。WebArchive：查看域名以前的用途，判断是否有不良记录或与您的行业冲突。GoogleTransparencyReport：检
2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集 m0_60707708 程序员 python 设计模式开发语言
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
采用海豚调度器+Doris开发数仓保姆级教程（满满是踩坑干货细节，持续更新）大模型大数据攻城狮海豚调度器从入门到精通 doris 海豚调度器离线数仓实时数仓国产代替信创大数据 flink数仓
目录一、采用海豚调度器+Doris开发平替CDHHdfs+Yarn+Hive+Oozie的理由。1.架构复杂性2.数据处理性能3.数据同步与更新4.资源利用率与成本6.生态系统与兼容性7.符合信创或国产化要求二、ODS层接入数据接入kafka实时数据踩坑的问题细节三、海豚调度器调度Doris进行报表开发创建带分区的表在doris进行开发调试开发海豚调度器脚本解决shell脚本使用MySQL命令行给
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理