董云龙

Python连接Hive

1. Hiveserver1 & HiveServer2

1.1 HiveServer1

HiveServer是一个可选的服务，能够允许远程客户端使用各种编程语言向hive提交请求并检索结果。Hiveserver是建立在Apache Thrift上的,所以有时候称呼其为Thrift Server，尽管因为HiverServer2也是建立在Thrift之上，从而容易产生疑惑。HiveServer也被称为HiveServer1.

1.1.2 HiveServer1缺点

HiveServer无法处理来自多个客户端的并发请求，这实际上是由hiveserver导出的thrift接口施加的限制，并且不能通过修改hiveserver代码来解决。
　　HiveServer2是hiveserver的重写，它解决了这些问题，从hive0.11.0开始。建议使用hiveserver2。hiveserver1从hive1.0.0（以前称为0.14.1）开始将会被删除。

1.2 HiveServer2

HiveServer2(HS2)同样能够使客户端执行hive的查询，它是已经被弃用的HiveServer1的后继者。HS2支持多客户端并发和身份验证，它的目的是支持打开api客户端更好的支持，例如jdbc和odbc。

1.2.1 HS2结构

Thrift-based Hive service是HS2的核心，并且负责处理Hive的查询（eg. Beeline）。Thrift是构建跨平台服务的rpc框架。主要由四部分组成：Server，Transport，Protocol和Processor。详情可以参考Apache Thrift doc。

1.2.1.1 Server

HS2的TCP模式使用TThreadPookServer（from Thrift），Http模式使用Jetty Server。
　　HS2的TCP模式使用TThreadPookServer为每一个tcp连接分配一个工作线程。即使连接空闲，每个线程也始终与连接关联。所以，由于大量的并发连接而导致大量线程，将会产生潜在的性能问题。将来HS2可能会切换到另外一种tcp模式，例如tthreadedselectorserver。

1.2.1.2 Transport

在客户端和服务器之间需要代理（例如，出于负载平衡或安全原因）时，需要http模式。这就是为什么除了TCP模式，还需要支持Http模式的原因。通过hive配置属性hive.server2.transport.mode，可以指定thrift服务的传输模式。
　　hive.server2.transport.mode可选值为binary（tcp）和http，默认为binary。使用http时，默认监听端口变为10001，同时连接的url也将发生改变，详情参考Connection URL When HiveServer2 Is Running in HTTP Mode。

1.2.1.3 Protocol

Protocol负责序列化和反序列化。HS2目前使用TBinaryProtocol作为Thrift 的序列化协议。在未来，基于性能的评估，可能会选用其他的协议，例如TCompactProtocol。

1.2.1.4 Processor

Processor就是处理请求的应用逻辑单元。例如，ThriftCLIService.ExecuteStatement()方法就是编译和执行hive查询的方法。

1.2.2 HS2的依赖

Metastore
metastore可以配置成嵌入式（和HS2在同一个进程）和远程服务（Thrift-based服务），HS2需要和metastore通信以获取编译查询所需的元数据。
Hadoop cluster
HS2为各种执行引擎（MapReduce/tez/spark）准备物理执行计划，并将作业提交给Hadoop集群执行。

2. JDBC Client

建议客户端使用jdbc和HS2进行交互。注意,一些使用实例直接使用Thrift Client，从而跳过了JDBC，例如Hadoop Hue。以下是Api调用的步骤：

JDBC Client（例如Beeline）通过初始化Transport连接（例如TCP连接），然后通过OpenSession Api调用获取一个SessionHandle（会话句柄）来创建HiveConnection。这个Session将服务器端被创建。
HiveStatement被执行（遵循jdbc标准），并且ExecuteStatement API将会被Thrift Client调用。在API调用时，SessionHandle信息和查询信息一起被传递给服务器。
HS2 server收到请求，命令driver（是一个CommandProcessor）解析和编译查询。Driver将会启动一个后台任务用来和hadoop通信，然后立即对客户端作出响应。这是 ExecuteStatement API的异步设计。响应包含由服务端创建的OperationHandle（操作句柄）。
客户端使用OperationHandle和HS2交流，以轮询的方式获取query的执行状态。

2.1 Beeline -Command Line Shell

Beeline是工作在HiveServer2下的命令行程序。建议使用Beeline代替Hive CLI。Hive CLI的功能主要有两种：

hadoop sql的“胖客户端”
作为hive服务器的命令行工具

因为在Hive1.0.0中，Hive Cli已经过期，理想情况下，是直接丢弃Hive CLI，直接使用Beeline加HiveServer2的方式，但是由于Hive CLI使用的太广泛了，所以，现在退而求其次，更改Hive CLI的实现方式，使其变为Beeline的一个别名，内部实现完全由Beeline完成，这样就能最先限度的带来使用上的更改，但是由于一些现有的Hive CLI新特性在新的Hive CLI中不被支持，所以，默认情况下，依然使用的是旧的Hive CLI，使用如下配置启用基于Beeline的Hive CLI：

export USE_DEPRECATED_CLI=false

注意：此时，log4j配置文件已更改为“beeline-log4j.properties”。
　　Beeline同样分为嵌入式和远程两种模式，嵌入式和Hive CLI嵌入式模式类似，远程模式使用Thrift。推荐使用远程模式，其不会直接授予用户HDFS/metastore权限，因此更加安全。如下是使用示例：

% bin/beeline 
Hive version 0.11.0-SNAPSHOT by Apache
beeline> !connect jdbc:hive2://localhost:10000 scott tiger
!connect jdbc:hive2://localhost:10000 scott tiger 
Connecting to jdbc:hive2://localhost:10000
Connected to: Hive (version 0.10.0)
Driver: Hive (version 0.10.0-SNAPSHOT)
Transaction isolation: TRANSACTION_REPEATABLE_READ
0: jdbc:hive2://localhost:10000> show tables;
show tables;
+-------------------+
|     tab_name      |
+-------------------+
| primitives        |
| src               |
| src1              |
| src_json          |
| src_sequencefile  |
| src_thrift        |
| srcbucket         |
| srcbucket2        |
| srcpart           |
+-------------------+
9 rows selected (1.079 seconds)

如上，首先使用bin/beeline命令进入Beeline命令行，再使用!connect命令连接HiveServer2，“scott”和“tiger”分别为用户名和密码。也可以使用如下命令，直接连接到HS2：

% beeline -u jdbc:hive2://localhost:10000/default -n username -p password
Hive version 0.11.0-SNAPSHOT by Apache

Connecting to jdbc:hive2://localhost:10000/default

退出Beeline命令，推荐使用!quit命令，当然也可以使用CTRL+C的方式。

2.2 JDBC

2.2.1 Connection URL Format

连接URL格式如下所示：

jdbc:hive2://:,:/dbName;initFile=;sess_var_list?hive_conf_list#hive_var_list

：，：是要连接的服务器实例或逗号分隔的服务器实例列表（如果启用动态服务发现）。如果为空，则将使用嵌入式服务器。
dbname是初始数据库的名称。
是init脚本文件（hive 2.2.0及更高版本）的路径。这个脚本文件是用sql语句编写的，连接后会自动执行。这个选项可以是空的。
sess_var_list是会话变量（例如user = foo; password = bar）的键=值对的分号分隔列表。
hive_conf_list是此会话的配置单元配置变量的键=值对的分号分隔列表
hive_var_list是此会话的hive变量的key = value对的分号分隔列表。

2.2.2 Python HiveClient

1. ThriftHive

如下是官网HiveClient章节提供的方法，这是第一种方法，比较老了，需要到Hive的安装目录，将$HIVE_HOME/lib/py下的所有文件夹拷贝到python的库中，也就是site-package中，或者直接把代码和py库放到同一个目录下，用这个目录下提供的Thrift接口调用，至于是

from hive import ThriftHive
OR
from hive_service import ThriftHive

则取决于安装hive的版本，直接到py目录下能够看到包含的是hive还是hive_service目录。
使用如下命令查看Python的site-package的路径：

>>> from distutils.sysconfig import get_python_lib
>>> print(get_python_lib())
C:\Python27\Lib\site-packages
>>> exit()

程序示例如下：

#!/usr/bin/env python

import sys

from hive import ThriftHive
from hive.ttypes import HiveServerException
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol

try:
    transport = TSocket.TSocket('localhost', 10000)
    transport = TTransport.TBufferedTransport(transport)
    protocol = TBinaryProtocol.TBinaryProtocol(transport)

    client = ThriftHive.Client(protocol)
    transport.open()

    client.execute("CREATE TABLE r(a STRING, b INT, c DOUBLE)")
    client.execute("LOAD TABLE LOCAL INPATH '/path' INTO TABLE r")
    client.execute("SELECT * FROM r")
    while (1):
      row = client.fetchOne()
      if (row == None):
        break
      print row
    client.execute("SELECT * FROM r")
    print client.fetchAll()

    transport.close()

except Thrift.TException, tx:
    print '%s' % (tx.message)

2. pyhs2 driver

在官网的Setting Up HiveServer2章节提供了另外一种方法，直接使用pyhs2，看起来还是个人提供的，但是从GitHub上的声明看，2016-01-05开始，pyhs2已经停止维护了。使用该库要求Python 2.6+，安装pysh2命令如下：

pip install pyhs2

但是，直接安装有可能会出错，安装pysh2需要SASL等依赖，window上安装比较麻烦，示例代码如下：

import pyhs2

with pyhs2.connect(host='localhost',
                   port=10000,
                   authMechanism="PLAIN",
                   user='root',
                   password='test',
                   database='default') as conn:
    with conn.cursor() as cur:
        #Show databases
        print cur.getDatabases()

        #Execute query
        cur.execute("select * from table")

        #Return column info from query
        print cur.getSchema()

        #Fetch table results
        for i in cur.fetch():
            print i

3. PyHive
这个在pyhs2的介绍中能够看到，是其推荐的比较好的替代品，能够连接Hive和Presto。安装如下：
+ pip install pyhive[hive] for the Hive interface and
+ pip install pyhive[presto] for the Presto interface.

安装的时候，需要很多依赖，如下所示：

To install pyhs2 on a clean CentOS 6.4 64-bit desktop....

(as root or with sudo)

get ez_setup.py from https://pypi.python.org/pypi/ez_setup
python ez_setup.py
easy_install pip
yum install gcc-c++
yum install cyrus-sasl-devel.x86_64
yum install python-devel.x86_64
pip install pyhs2

异步的示例代码如下：

from pyhive import hive
from TCLIService.ttypes import TOperationState
cursor = hive.connect('localhost').cursor()
cursor.execute('SELECT * FROM my_awesome_data LIMIT 10', async=True)

status = cursor.poll().operationState
while status in (TOperationState.INITIALIZED_STATE, TOperationState.RUNNING_STATE):
    logs = cursor.fetch_logs()
    for message in logs:
        print message

    # If needed, an asynchronous query can be cancelled at any time with:
    # cursor.cancel()

    status = cursor.poll().operationState

print cursor.fetchall()

同步示例代码如下：

from pyhive import presto  # or import hive
cursor = presto.connect('localhost').cursor()
cursor.execute('SELECT * FROM my_awesome_data LIMIT 10')
print cursor.fetchone()
print cursor.fetchall()

问题是，pyhs2和pyhive在Windows下很难完成安装，目测只能在Linux系统下使用，毕竟windows下配置相关库太麻烦了。
综上，第一种没有测试，但是看起来应该只有第一种方式有可能在windows下使用，所以，windows下尽量别用python连接hive。。。

csv转为utf8编码_中文的csv文件的编码改成utf8的方法 John Sheppard csv转为utf8编码
直奔主题：把包含中文的csv文件的编码改成utf-8的方法：啰嗦几句：在用pandas读取hive导出的csv文件时，经常会遇到类似UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xa3inposition12这样的问题，这种问题是因为导出的csv文件包含中文，且这些中文的编码不是gbk，直接用excel打开这些文件还会出现乱码，但用记事本打开这些csv则
企业信息化整体架构图 weixin_33937913 系统架构
今天无意间发现一张企业信息化的图，放在这里以后参考。CollaboraticeCommerce转载于:https://www.cnblogs.com/Masterpiece/archive/2004/12/29/83696.html
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
dcm4che jamie_zhengmin dcm4che archive jboss 工具服务器
dcm4che工具包DICOMtoolkitDICOM工具包dcm4chee归档服务器器IHE影像管理器和影像归档执行器（dcm4jbossarchive影像归档器，影像扫描检查和报告的管理）dcm4che2重架构dcm4che的重架构实现
将Hive数据导出为CSV和Excel格式的方法翠绿探寻 hive excel hadoop 编程
将Hive数据导出为CSV和Excel格式的方法在Hive中存储和处理大规模数据是一项常见的任务。有时候，我们需要将Hive中的数据导出为CSV或Excel格式，以便进行进一步的分析或与其他工具进行集成。本文将介绍如何使用编程的方式将Hive数据导出为CSV和Excel格式，并提供相应的源代码。Hive数据导出为CSV格式要将Hive数据导出为CSV格式，我们可以使用Hive的内置函数INSERT
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤氪老师 hadoop集群关闭命令顺序
启动和关闭Hadoop集群命令步骤总结：1.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode.3.用jps指令观察执行结果.4.用hdfsdfsadmin-report观察集群配置情况.5.通过http://npfdev1:50070界面观察集群运行情况.(如果遇到问题看https://
在kali linux中配置hadoop伪分布式 we19a0sen 三数据分析分布式 linux hadoop
目录一.配置静态网络二.配置主机名与IP地址映射三.配置SSH免密登录四.配置Java和Hadoop环境五.配置Hadoop伪分布式六.启动与验证一.配置静态网络原因：Hadoop集群依赖稳定的网络通信，动态IP可能导致节点失联。静态IP确保节点始终通过固定地址通信。操作步骤：#修改网络配置文件sudovim/etc/network/interfaces#添加内容（根据实际网络修改）：autoet
debian11安装MongoDB 韩搏 Linux基础 mongodb 数据库
debian11bit64安装MongoDB6.0安装必要的包sudoaptinstallgnupgcurl导入MongoDB公钥curl-fsSLhttps://www.mongodb.org/static/pgp/server-6.0.asc|sudogpg--dearmor-o/usr/share/keyrings/mongodb-archive-keyring.gpg创建MongoDB源列
linux 安装anaconda与jupyter notebook配置土豆土豆，我是洋芋 python
一、anaconda安装在官网或清华镜像下载anaconda在载前看一下自己的系统版本，下载对应的anaconda版本。在系统中输入：cat/proc/version，如下图所示##下载地址1）官网：https://www.anaconda.com/distribution/2）清华镜像：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/安
Hive 与 SparkSQL 的语法差异及性能对比自然术算 Hive hive hadoop 大数据 spark
在大数据处理领域，Hive和SparkSQL都是极为重要的工具，它们为大规模数据的存储、查询和分析提供了高效的解决方案。虽然二者都致力于处理结构化数据，并且都采用了类似SQL的语法来方便用户进行操作，但在实际使用中，它们在语法细节和性能表现上存在诸多差异。了解这些差异，对于开发者根据具体业务场景选择合适的工具至关重要。语法差异数据定义语言（DDL）表创建语法Hive：在Hive中创建表时，需要详细
Oracle V$SESSION详解雨的遐想 oracle 数据库
V$SESSION是SYS用户下面对于SYS.V_$SESSION视图的同义词。在本视图中，每一个连接到数据库实例中的session都拥有一条记录。包括用户session及后台进程如DBWR，LGWR，arcchiver等等。1.V$SESSION中的常用列V$SESSION是基础信息视图，用于找寻用户SID或SADDR，及检查用户的动态：（1）SQL_HASH_VALUE，SQL_ADDRESS
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
Redis 安装详细教程（小白版）小小鸭程序员 spring java AI编程 spring cloud redis
一、Windows系统安装Redis方法1：直接安装（推荐新手）下载RedisforWindows访问微软维护的Redis版本：https://github.com/microsoftarchive/redis/releases下载Redis-x64-3.2.100.msi（或最新版本）安装包。安装Redis双击下载的.msi文件点击下一步，勾选“AddRedisinstallationfolde
Hive SQL 精进系列：REGEXP_REPLACE 函数的用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、REGEXP_REPLACE函数基础2.1基本语法参数详解2.2简单示例三、REGEXP_REPLACE函数的应用场景3.1去除特殊字符3.2统一字符串格式四、REGEXP_REPLACE与REPLACE函数的对比4.1功能差异4.2适用场景五、REGEXP_REPLACE与REGEXP函数的对比5.1功能差异5.2适用场景六、总结一、引言字符串处理是数据处理中的常见需求，Hive
Hive SQL 精进系列：SUBSTR 函数的多样用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、SUBSTR函数基础介绍2.1基本语法2.2参数详解2.3简单示例三、SUBSTR函数常见应用场景3.1提取日期中的年份、月份或日期3.2隐藏部分敏感信息四、SUBSTR函数高级用法4.1结合条件判断动态截取4.2处理复杂字符串模式五、总结一、引言SUBSTR函数是HiveSQL中一个用于字符串截取的重要函数，在处理文本数据时发挥着关键作用。本文将全面且深入地介绍HiveSQL中S
Hive----Hive进阶操作(三) HIVE 特殊分隔符处理 XiaodunLP Hive
HIVE特殊分隔符处理补充：hive读取数据的机制：1、首先用InputFormat的一个具体实现类读入文件数据，返回一条一条的记录（可以是行，或者是你逻辑中的“行”）2、然后利用SerDe的一个具体实现类，对上面返回的一条一条的记录进行字段切割Hive对文件中字段的分隔符默认情况下只支持单字节分隔符，如果数据文件中的分隔符是多字符的，如下所示：01||huangbo02||xuzheng03||
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
NVIDIA下载老版本驱动/CUDA/Video Codec SDK的链接，以及一些解码参数说明 landihao linux
NVIDIA下载老版本驱动/CUDA/VideoCodecSDK的链接从别的网站抄过来的CUDA：https://developer.nvidia.com/cuda-toolkit-archive老驱动：https://www.nvidia.cn/geforce/drivers/VideoCodecSDKhttps://developer.nvidia.com/video-codec-sdk-ar
hive split 函数转义问题进一步有进一步的欢喜 Hive SQL 精进系列大数据
语法split(strstring,regexstring)--使用regex分割字符串str基本用法selectsplit('a,b,c,d',',')fromtemp_cwh_test;--分割--结果为数组>["a","b","c","d"]截取字符串中某个值selectsplit('a,b,c,d',',')[0]fromtemp_cwh_test;--提取第1个值>a特殊字符的处理针对特
Hive SQL 精进系列：解锁 Hive SQL 中 KeyValue 函数的强大功能进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、KeyValue函数基础2.1语法结构详解形式一：`keyvalue(string,[string,string,]string)`形式二：`keyvalue(string,string)`2.2参数详解2.3返回值规则三、丰富的应用场景3.1解析学生成绩信息3.2处理员工考勤数据3.3分析网站访问参数3.4提取设备配置信息四、使用注意事项4.1分隔符的准确性4.2空值处理4.3多
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
关于stable diffusion的lora训练在linux远程工作站的部署回天一梦 stable diffusion python 经验分享
在学校Arc中部署loratraining，一大问题就是依赖缺失和冲突。可以利用miniconda或者anaconda建立虚拟环境来解决。安装anaconda或者miniconda（官网上也有教程）：wgethttps://repo.anaconda.com/archive/Anaconda3-5.3.0-Linux-x86_64.shchmod+xAnaconda3-5.3.0-Linux-x8
Hive SQL 精进系列：一行变多行的 LATERAL VIEW EXPLODE 进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、`LATERALVIEWEXPLODE`概述2.1基本概念2.2单词解析2.2.1`LATERAL`2.2.2`VIEW`2.2.3`EXPLODE`三、语法详解3.1基本语法结构3.2完整语法示例（针对映射情况）四、使用场景4.1数组数据展开4.2映射数据展开五、案例分析5.1展开数组示例5.1.1数据准备5.1.2使用`LATERALVIEWEXPLODE`展开数组5.1.3结
sql获取某列出现频次最多的值_业务硬核SQL集锦金渡江 sql获取某列出现频次最多的值
戳上方蓝字关注我这两年学会了跑sql，当时有很多同学帮助我精进了这个技能，现在也写成一个小教程，反馈给大家。适用对象：工作中能接触到sql查询平台的业务同学(例如有数据查询权限的产品与运营同学)适用场景：查询hive&mysql上的数据文档优势：比起各类从零起步的教程教材，理解门槛低，有效信息密度大，可以覆盖高频业务场景。文末有一些常见的小技巧，希望帮助同学们提升工作效率。SQL的基础结构：做一个
Hive SQL 精进系列： JSON_TUPLE 快速提取多键值进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、json_tuple函数基础2.1基本语法参数解释返回值简单示例三、应用场景3.1数据提取与分析3.2数据集成与转换3.3复杂JSON数据处理四、json_tuple、get_json_object和from_json的对比4.1功能特点4.2语法和使用复杂度4.3性能表现4.4示例对比使用json_tuple使用get_json_object使用from_json五、使用注意事项
hive sql报错进一步有进一步的欢喜大数据 Hive SQL 精进系列
1.hivesql报错FAILED:ParseExceptionline22:0cannotrecognizeinputnear''''''insubquerysource2.解决select*from(select...fromtable_1where...)table_outer嵌套的内层的表一定要有别名，也就是示例代码中的表名table_outer。
HIVE开窗函数 Cciccd sql hive
ETL,SQL面试高频考点——HIVE开窗函数（基础篇）目录标题ETL,SQL面试高频考点——HIVE开窗函数（基础篇）一，窗口函数介绍二，开窗函数三，分析函数分类1，排序分析函数：实列解析对比总结2.聚合分析函数3.用spark自定义HIVE用户自定义函数后续更新中~一，窗口函数介绍窗口函数，也叫OLAP函数（OnlineAnallyticalProcessing,联机分析处理），可以对数据库数
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key