年少而无为

Programming Hive ( Hive编程指南)

一、Hive中“一次使用的命令”

1. -S表示静默模式，结果去掉OK和Time taken等行

hive -e "select * from movie_table limit 3"
...
OK
movieId title   genres
1       Toy Story (1995)        Adventure|Animation|Children|Comedy|Fantasy
2       Jumanji (1995)  Adventure|Children|Fantasy
Time taken: 11.631 seconds, Fetched: 3 row(s)


[root@master hive-1.2.2]# hive -S -e "select * from movie_table limit 3" 
...
movieId title   genres
1       Toy Story (1995)        Adventure|Animation|Children|Comedy|Fantasy
2       Jumanji (1995)  Adventure|Children|Fantasy

2.将查询结果输出到本地文件test.txt中（非HDFS） test.txt是程序执行时自己创建的，无需提前创建

[root@master hive-1.2.2]# hive -S -e "select * from movie_table limit 3" > /usr/local/src/test3/hive/test.txt

(py27tf) [root@master hive-1.2.2]# cat /usr/local/src/test3/hive/test.txt
movieId title   genres
1       Toy Story (1995)        Adventure|Animation|Children|Comedy|Fantasy
2       Jumanji (1995)  Adventure|Children|Fantasy

通过以下命令查询管理表的warehouse属性记录（我也还没搞懂，再看看书P35）

[root@master hive-1.2.2]# hive  -e "seT" | grep warehouse

hive.metastore.warehouse.dir=/user/hive/warehouse
hive.warehouse.subdir.inherit.perms=true

3.文件执行hive查询 shell：source 终端使用hive -f 得到的结果相同

hive>  source /usr/local/src/test3/select.sql;
OK
movieId title   genres
1       Toy Story (1995)        Adventure|Animation|Children|Comedy|Fantasy
2       Jumanji (1995)  Adventure|Children|Fantasy
Time taken: 2.976 seconds, Fetched: 3 row(s)


[root@master test3]# hive -f /usr/local/src/test3/select.sql 
...
OK
movieId title   genres
1       Toy Story (1995)        Adventure|Animation|Children|Comedy|Fantasy
2       Jumanji (1995)  Adventure|Children|Fantasy
Time taken: 5.915 seconds, Fetched: 3 row(s)

表里写入数据

1.建表
create table test(line string);
OK
Time taken: 0.82 seconds
2.插数据
[root@master hive-1.2.2]# hive -e "load data local inpath '/usr/local/src/test3/test.txt' into table test"
或者
hive> load data local inpath '/usr/local/src/test3/test.txt' overwrite into table test;

3.查询
hive> select * from test;
OK
one row
Time taken: 0.4 seconds, Fetched: 1 row(s)

执行shell命令

在命令前加上！并以；结尾

hive> ! pwd;
/usr/local/src/hive-1.2.2
hive> ! echo "what up dog";
"what up dog"

在hive内使用hadoop命令 hadoop dfs -ls / 只需要去掉hadoop即可

在hive内使用hadoop命令的优点：hadoop中每次都会启动一个新的JVM实例，而hive在同一个进程中执行

hive> dfs -ls / ;
Found 8 items
drwxr-xr-x   - root supergroup          0 2019-03-04 09:41 /7
-rw-r--r--   3 root supergroup     632207 2018-12-13 14:01 /The_Man_of_Property.txt
-rw-r--r--   3 root supergroup        698 2019-05-13 18:32 /a8a
drwxr-xr-x   - root supergroup          0 2019-05-27 10:29 /hbase
drwxr-xr-x   - root supergroup          0 2019-05-27 14:47 /hbase_test
drwxr-xr-x   - root supergroup          0 2019-05-26 16:49 /hive
drwx-wx-wx   - root supergroup          0 2019-05-26 10:18 /tmp
drwxr-xr-x   - root supergroup          0 2019-05-26 10:43 /user

Hive脚本注释使用--开头的字符串表示注释

Tips：CLI不能解析注释，会产生报错信息，只能在脚本中通过hive -f **.hql 的方式执行

--copyright (c) 2012 Megacorp,LLC.
--This is the best Hive script evar!!

select * from table;

显示字段名称（默认是关闭的）：（可在$HOME/.HIVRRC文件中配置修改为默认开启：set hive.cli.print.header=true;）

字段名称为：movie_table.movieid movie_table.title movie_table.genres

hive> select * from movie_table limit 2;
OK
movieId title   genres
1       Toy Story (1995)        Adventure|Animation|Children|Comedy|Fantasy
Time taken: 0.159 seconds, Fetched: 2 row(s)

hive> set hive.cli.print.header=true;

hive> select * from movie_table limit 2;
OK
movie_table.movieid     movie_table.title       movie_table.genres
movieId title   genres
1       Toy Story (1995)        Adventure|Animation|Children|Comedy|Fantasy
Time taken: 0.148 seconds, Fetched: 2 row(s)

Chapter 4 HiveQL：数据定义（创建、修改、删除数据库、表、视图、函数和索引）

1.Hive不支持行级插入操作、更新操作和删除操作。Hive也不支持事物。

2.Hive中数据库的概念本质上仅仅只是表的一个目录或者命名空间

3.创建数据库financials

hive> create database financials;
OK
Time taken: 0.114 seconds

hive> show databases;
OK
default
financials
Time taken: 0.036 seconds, Fetched: 2 row(s)

如果数据库financials已经存在，创建时就会报错，以下命令可以不抛出错误信息；

hive> create database if not exists financials;

用正则表达式匹配筛选数据库名（列举出所有f开头的数据库）

hive> show databases like 'f*';
OK
financials
Time taken: 0.051 seconds, Fetched: 1 row(s)

Hive为每一个数据库创建一个目录（目录名以*.db结尾），数据库中的表将会以这个数据库目录的子目录形式存储（default除外，因为default库本身没有自己的目录）

修改数据库目录：

1.配置文件修改

数据库的HDFS目录存储由hive-site.xml文件配置： set hive.metastore.warehouse.dir=/user/hive/warehouse（这个目录是配置项默认配置，也可自己修改存储目录）

[root@master Programming_Hive]# hadoop fs -ls /user/hive/warehouse
Found 2 items
drwxr-xr-x   - root supergroup          0 2019-05-28 10:49 /user/hive/warehouse/financials.db
drwxr-xr-x   - root supergroup          0 2019-05-28 10:50 /user/hive/warehouse/human_resources.db

2.CLI修改数据库目录：（只修改当前数据库位置）还可以在CLI增加数据库的描述

hive> create database change22
    > comment 'holds all financial tables'
    > location '/hive_test';
OK
Time taken: 0.043 seconds

hive> desc database change22;
OK
change22        holds all financial tables      hdfs://master:9000/hive_test    root    USER
Time taken: 0.038 seconds, Fetched: 1 row(s)

为数据库增加何其相关的键—值对属性信息，

查询时使用语句：desc database extended change;

hive> create database change
    > with dbproperties ("creator" = "Jason Chan","data"="2019-05-28");
OK
Time taken: 0.109 seconds

hive> desc database extended change;
OK
change          hdfs://master:9000/user/hive/warehouse/change.db        root    USER    {creator=Jason Chan, data=2019-05-28}
Time taken: 0.02 seconds, Fetched: 1 row(s)

修改或者新增数据库属性（不能删除）

hive> desc database extended change;
change          hdfs://master:9000/user/hive/warehouse/change.db        root    USER    {creator=Jason Chan, data=2019-05-28}

hive> alter database change set dbproperties ("creator"="jason");

hive> desc database extended change;
change          hdfs://master:9000/user/hive/warehouse/change.db        root    USER    {creator=jason, data=2019-05-28}

hive> alter database change set dbproperties ("edited-by"="Joe");

hive> desc database extended change;
change          hdfs://master:9000/user/hive/warehouse/change.db        root    USER    {creator=jason, data=2019-05-28, edited-by=Joe}

使用某个数据库：use

hive> show databases;
OK
default
financials
Time taken: 0.033 seconds, Fetched: 2 row(s)

hive> use financials;
OK
Time taken: 0.065 seconds

查询当前使用的数据库（当前的表属于哪个数据库）：set hive.cli.print.current.db=true;

hive> set hive.cli.print.current.db=true;

hive (financials)> use default;
OK
Time taken: 0.032 seconds

hive (default)> set hive.cli.print.current.db=false;

删除数据库：drop

hive> drop database if exists human_resources;
OK
Time taken: 0.078 seconds

Hive不允许删除有表的数据库

hive> use traffic;
OK
Time taken: 0.039 seconds
    //traffic数据库下面有表
hive> show tables;
OK
monitor_camera_info
monitor_flow_action
Time taken: 0.05 seconds, Fetched: 2 row(s)
    //删除traffic数据库会报错
hive> drop database traffic;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database traffic is not empty. One or more tables exist.)

解决方案：

1.先清空数据库下的表：

    //删除表
hive> drop table monitor_camera_info;
OK
Time taken: 0.132 seconds
hive> drop table monitor_flow_action;
OK
Time taken: 0.236 seconds
    //此时再删除数据库就可以了
hive> drop database traffic;
OK
Time taken: 0.108 seconds

2.使用关键字： cascade

    //数据库traffic下有表
hive> show tables;
OK
monitor_camera_info
monitor_flow_action
Time taken: 0.06 seconds, Fetched: 2 row(s)

    //正常删库报错
hive> drop database if exists traffic; 
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database traffic is not empty. One or more tables exist.)

    //使用关键字restrict也不能删除数据库    
hive> drop database if exists traffic restrict; 
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database traffic is not empty. One or more tables exist.)

    //使用关键字cascade可以正常删除
hive> drop database if exists traffic cascade; 
OK
Time taken: 0.25 seconds

创建表（change数据库下创建employees表），在每个字段类型后面追加一个注释

TBLPROPERTIES作用：按键值对的格式为表增加额外的文档说明（还可作为表示关于数据库连接的必要的元数据信息） P53

Hive会自动增加两个属性：

1.last_modified_by，保存最后修改这个表的用户的用户名

2.last_modified_time，保存着最后一次修改的新纪元时间秒

    //建表sql语句
create table if not exists change.employees3 (
    name            string  comment "employee name",

    salary          float   comment "employee salary",

    subordinates    array   comment "names of subordinates",

    deductions      map
                    comment "keys are deductions names, values are percentages",

    address         struct
                    comment "home address")
            
comment "description of the table"
TBLPROPERTIES ('creator'='me','created_at'='2019-05-28')
;


    //查看结果

hive> desc  employees3;
OK
name                    string                  employee name       
salary                  float                   employee salary     
subordinates            array           names of subordinates
deductions              map       keys are deductions names, values are percentages
address                 struct  home address        
Time taken: 0.116 seconds, Fetched: 5 row(s)

为表本身添加注释，自定义一个或多个表属性

怎么查看表的描述：comment "description of the table" ？？？ show tblproperties employees3;

hive> show tblproperties employees3;
OK
comment description of the table
created_at      2019-05-28
creator me
transient_lastDdlTime   1559027367
Time taken: 0.128 seconds, Fetched: 4 row(s)

用户还可以拷贝一张已经存在的表的模式（不拷贝数据）：在change数据库下创建表employees4（要求表模式与employees3相同）

创建employee4.3_2.sql文件输入下面语句，然后执行hive -f employee4.3_2.sql

[root@master Programming_Hive]# cat employee4.3_2.sql 
create table if not exists change.employees4
like change.employees3;

[root@master Programming_Hive]# hive  -f  employee4.3_2.sql

查看表employees4的属性

hive> show tables;
OK
employees3
employees4
Time taken: 0.081 seconds, Fetched: 2 row(s)
hive> desc employees4;
OK
name                    string                  employee name       
salary                  float                   employee salary     
subordinates            array           names of subordinates
deductions              map       keys are deductions names, values are percentages
address                 struct  home address        
Time taken: 0.136 seconds, Fetched: 5 row(s)

在default数据库下查看change数据库的表 show tables in change;

hive> set hive.cli.print.current.db=true;
hive (default)> show tables in change;
OK
employees3
employees4
Time taken: 0.051 seconds, Fetched: 2 row(s)
hive (default)> set hive.cli.print.current.db=false;
hive>

使用正则表达式查询表： show tables 'empl*'; 查询empl开头的所有的表

hive> show tables "empl*";
OK
employees3
employees4
Time taken: 0.034 seconds, Fetched: 2 row(s)

在数据库default下查找数据库change的表的结构信息。desc extended change.employees3; 实际我们更倾向于使用FORMATTED，因为输出内容更详细，且可读性较好

hive (default)> desc extended change.employees3;
OK
name                    string                  employee name       
salary                  float                   employee salary     
subordinates            array           names of subordinates
deductions              map       keys are deductions names, values are percentages
address                 struct  home address        
                 
Detailed Table Information      Table(tableName:employees3, dbName:change, owner:root
...
location:hdfs://master:9000/user/hive/warehouse/change.db/employees3,  
...
parameters:{creator=me, transient_lastDdlTime=1559027367, created_at=2019-05-28, comment=description of the table}, ...)
Time taken: 0.091 seconds, Fetched: 7 row(s)

查看表的某一列信息：salary列（加不加extended结果是一样的）

hive (change)> describe employees3.salary;
OK
salary                  float                   from deserializer   
Time taken: 0.117 seconds, Fetched: 1 row(s)

4.3.2外部表

创建外部表，读取HDFS目录：/hive/programming_hive/data/stocks下所有的文件

删除外表，并不会删掉这个表中的数据，只是删除描述表的元数据

[root@master Programming_Hive]# cat 4.3.2stock.sql                                              create external table if not exists stocks (
`exchange` string,
`symbol` string,
`ymd` string,
`price_open` float,
`price_high` float,
`price_low` float,
`price_close` float,
`volume` int,
`price_adj_close` float)
row format delimited fields terminated by ','
location '/hive/programming_hive/data/stocks';

exchange 字段为hive保留字段，修改之后即可。如果非要用这个字段名，就用反引号（Tab上面的键）引起来：

严格来说：Hive是管理着管理表和外部表的的目录和文件，但是并没有对表具有完全的控制权限

查看表是管理表还是外部表：desc formatted movie_table

hive (default)> desc FORMATTED movie_table;
...  
Table Type:             EXTERNAL_TABLE                    
...    
hive (default)> desc FORMATTED jason;
...    
Table Type:             MANAGED_TABLE            
...

创建外部表，但是可以复制内部表的结构(不复制数据) employees5外部表，employees3内部表

如果employees为外部表，external可省略，复制的表依然为外部表

[root@master Programming_Hive]# cat 4.3.2external_table.sql 
create table if not exists change.employees5 
like change.employees3
location '/hive/programming_hive/test';

[root@master Programming_Hive]# hive -f 4.3.2external_table.sql 
...
OK
Time taken: 1.939 seconds

查看结构employees3和employees5一样，但employees5表的类型为external

hive (change)> desc formatted employees5;
OK
# col_name              data_type               comment             
                 
name                    string                  employee name       
salary                  float                   employee salary     
subordinates            array           names of subordinates
deductions              map       keys are deductions names, values are percentages
address                 struct  home address        
...                   
Table Type:             EXTERNAL_TABLE

4.4 分区表、管理表

如果表中的数据以及分区个数都非常大的话，执行一个包含所有分区的查询可能会触发一个巨大的MapReduce任务。

建议：将Hive设置为strict模式，（对分区表进行查询而where子句没有加分区过滤器，将会禁止提交这个任务）

hive> set hive.mapred.mode=strict;

hive> select e.name,e.salary from employees e limit 10;

FAILED:Error in semantic analysis: No partition predicate found for Alias  "e" Table  "employees"

hive> set hive.mapred.mode=nonstrict;

hive> select e.name,e.salary from employees e limit 10;

John  Doe    10000.0  

...

查看分区：show partitions

hive (default)> show partitions rating_table_p;
OK
dt=2008-03
dt=2008-08
Time taken: 0.136 seconds, Fetched: 2 row(s)

查看分区键的方法：desc extended rating_table_p; partitionKeys分区键

hive (default)> desc extended rating_table_p;
OK
userid                  string                                      
movieid                 string                                      
rating                  string                                      
dt                      string                                      
                 
# Partition Information          
# col_name              data_type               comment             
                 
dt                      string                                      
                 
partitionKeys:[FieldSchema(name:dt, type:string, comment:null)]

分区：

1.建表的时候创建分区

2.加载数据的时候创建分区

4.4.1

你可能感兴趣的:(Hive)

linux上安装postgresql9.5 crayon-shin-chan #postgresql surprise #linux linux ubuntu PostgreSQL 数据库
1.查看源版本czy@Mint~$sudoapt-getupdateczy@Mint~$apt-cachemadisonpostgresqlpostgresql|9.5+173ubuntu0.3|http://archive.ubuntu.com/ubuntuxenial-updates/mainamd64Packagespostgresql|9.5+173ubuntu0.3|http://arc
linux grep命令蓝菱 linux linux grep 正则表达式
转自http://www.cnblogs.com/end/archive/2012/02/21/2360965.htm1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是GlobalRegularExpressionPrint，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep[options]3.主要参数[o
【已解决】将CentOS7系统安装至U盘（四）：安装Qt5.14.2（解决#error qt requires c++11 support问题） pyengine qt c++开发语言 centos
目录1下载安装文件2安装Qt5.14.2和QtCreator3解决编译问题1下载安装文件从Qt官网或清华大学镜像站https://mirrors.tuna.tsinghua.edu.cn/gnu/gcchttps://mirrors.tuna.tsinghua.edu.cn/qt/archive/qt/5.14/5.14.2/下载Qt安装文件。以清华大学镜像站为例，下载如下：wgethttps:/
安装Qt 5.15.2 noodleboy qt
安装Qt5.15.2自Qt5.15开始，Qt不提供离线安装包了，需要使用在线安装器安装，但是Qt5.15版本不直接显示。需要勾选Archive选项，且很有可能需要梯子工具。
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
Mysql-经典实战案例（10）：如何用PT-Archiver完成大表的自动归档从不删库的DBA Mysql 经典实战案例 mysql 数据库
真实痛点：电商订单表存储优化场景现状分析某电商平台订单表（order_info）每月新增500万条记录主库：高频读写，SSD存储（空间告急）历史库：HDD存储，只读查询优化目标✅自动迁移7天前的订单到历史库✅每周六23:30执行，不影响业务高峰✅确保数据一致性第一章：前期准备：沙盒实验室搭建1.1实验环境架构生产库：10.33.112.22历史库：10.30.76.41.2环境初始化（双节点执行）
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
Hive 实际应用场景及对应SQL示例小技工丨大数据随笔 hive sql hadoop 大数据数据仓库
Hive实际应用场景及对应SQL示例一、‌日志分析场景‌**场景说明‌：**处理大规模日志数据（如Web访问日志），分析用户行为或系统运行状态。SQL示例‌：--统计每日UV（用户访问量）SELECTdate,COUNT(DISTINCTuser_id)ASdaily_uvFROMweb_logsWHEREevent_type='page_view'GROUPBYdate;技术要点‌：使用DIST
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
hive 使用oracle数据库 sardtass hadoop hive 开源项目
hive使用oracle作为数据源，导入数据使用sqoop或kettle或自己写代码（淘宝的开源项目中有一个xdata就是淘宝自己写的）。感觉sqoop比kettle快多了，淘宝的xdata没用过。hive默认使用derby作为存储表信息的数据库，默认在哪启动就在哪建一个metadata_db文件放数据，可以在conf下的hive-site.xml中配置为一个固定的位置，这样不论在哪启动都可以了。
HiveMetastore 的架构简析 houzhizhen hive hive
HiveMetastore的架构简析HiveMetastore是Hive元数据管理的服务。可以把元数据存储在数据库中。对外通过api访问。hive_metastore.thrift对外提供的Thrift接口定义在文件standalone-metastore/src/main/thrift/hive_metastore.thrift中。内容包括用到的结构体和枚举，和常量，和rpcService。如分
Hive与Spark的UDF：数据处理利器的对比与实践窝窝和牛牛 hive spark hadoop
文章目录Hive与Spark的UDF：数据处理利器的对比与实践一、UDF概述二、HiveUDF解析实现原理代码示例业务应用三、SparkUDF剖析-JDBC方式使用SparkThriftServer设置通过JDBC使用UDFSparkUDF的Java实现（用于JDBC方式）通过beeline客户端连接使用业务应用场景四、Hive与SparkUDF在JDBC模式下的对比五、实际部署与最佳实践六、总结
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
qt-5.15.2 源码编译 Linux weixin_40857106 服务器运维
QT官方源码下载地址：https://download.qt.io/archive/qt/5.15/5.15.12/single/qt-everywhere-opensource-src-5.15.12.tar.xz安装Qt所需的依赖：sudoaptinstallbuild-essentiallibgl1-mesa-devlibxkbcommon-devlibnss3-devlibdbus-1-d
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
flutter 使用xcodebuild 命令打包ipa 肥肥呀呀呀 flutter
苹果打ipa包(注意苹果打包需要连接真机)方式一、1.先执行flutterbuildios生成framework2.执行命令xcodebuild-exportArchive-archivePathbuild/ios/Runner.xcarchive-exportOptionsPlistexportOptions.plist-exportPathbuild/ios/ipaexportOptions.
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
oracle cdc logminer与oracle xstream 24k小善 java 大数据 flink
以下为OracleCDC技术中XStream与LogMiner的核心差异解析，结合技术背景、实现原理、性能表现等维度进行系统化对比。一、技术背景与定位差异LogMiner：官方日志分析工具的非正式应用最初设计用于数据库管理员（DBA）审计和分析历史日志，非专为CDC场景优化[1][9][16]。通过解析归档日志（ArchiveLog）或在线日志（OnlineRedoLog）提取变更记录，采用轮询机
csv转为utf8编码_中文的csv文件的编码改成utf8的方法 John Sheppard csv转为utf8编码
直奔主题：把包含中文的csv文件的编码改成utf-8的方法：啰嗦几句：在用pandas读取hive导出的csv文件时，经常会遇到类似UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xa3inposition12这样的问题，这种问题是因为导出的csv文件包含中文，且这些中文的编码不是gbk，直接用excel打开这些文件还会出现乱码，但用记事本打开这些csv则
企业信息化整体架构图 weixin_33937913 系统架构
今天无意间发现一张企业信息化的图，放在这里以后参考。CollaboraticeCommerce转载于:https://www.cnblogs.com/Masterpiece/archive/2004/12/29/83696.html
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
dcm4che jamie_zhengmin dcm4che archive jboss 工具服务器
dcm4che工具包DICOMtoolkitDICOM工具包dcm4chee归档服务器器IHE影像管理器和影像归档执行器（dcm4jbossarchive影像归档器，影像扫描检查和报告的管理）dcm4che2重架构dcm4che的重架构实现
将Hive数据导出为CSV和Excel格式的方法翠绿探寻 hive excel hadoop 编程
将Hive数据导出为CSV和Excel格式的方法在Hive中存储和处理大规模数据是一项常见的任务。有时候，我们需要将Hive中的数据导出为CSV或Excel格式，以便进行进一步的分析或与其他工具进行集成。本文将介绍如何使用编程的方式将Hive数据导出为CSV和Excel格式，并提供相应的源代码。Hive数据导出为CSV格式要将Hive数据导出为CSV格式，我们可以使用Hive的内置函数INSERT
debian11安装MongoDB 韩搏 Linux基础 mongodb 数据库
debian11bit64安装MongoDB6.0安装必要的包sudoaptinstallgnupgcurl导入MongoDB公钥curl-fsSLhttps://www.mongodb.org/static/pgp/server-6.0.asc|sudogpg--dearmor-o/usr/share/keyrings/mongodb-archive-keyring.gpg创建MongoDB源列
linux 安装anaconda与jupyter notebook配置土豆土豆，我是洋芋 python
一、anaconda安装在官网或清华镜像下载anaconda在载前看一下自己的系统版本，下载对应的anaconda版本。在系统中输入：cat/proc/version，如下图所示##下载地址1）官网：https://www.anaconda.com/distribution/2）清华镜像：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/安
Hive 与 SparkSQL 的语法差异及性能对比自然术算 Hive hive hadoop 大数据 spark
在大数据处理领域，Hive和SparkSQL都是极为重要的工具，它们为大规模数据的存储、查询和分析提供了高效的解决方案。虽然二者都致力于处理结构化数据，并且都采用了类似SQL的语法来方便用户进行操作，但在实际使用中，它们在语法细节和性能表现上存在诸多差异。了解这些差异，对于开发者根据具体业务场景选择合适的工具至关重要。语法差异数据定义语言（DDL）表创建语法Hive：在Hive中创建表时，需要详细
Oracle V$SESSION详解雨的遐想 oracle 数据库
V$SESSION是SYS用户下面对于SYS.V_$SESSION视图的同义词。在本视图中，每一个连接到数据库实例中的session都拥有一条记录。包括用户session及后台进程如DBWR，LGWR，arcchiver等等。1.V$SESSION中的常用列V$SESSION是基础信息视图，用于找寻用户SID或SADDR，及检查用户的动态：（1）SQL_HASH_VALUE，SQL_ADDRESS
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
Redis 安装详细教程（小白版）小小鸭程序员 spring java AI编程 spring cloud redis
一、Windows系统安装Redis方法1：直接安装（推荐新手）下载RedisforWindows访问微软维护的Redis版本：https://github.com/microsoftarchive/redis/releases下载Redis-x64-3.2.100.msi（或最新版本）安装包。安装Redis双击下载的.msi文件点击下一步，勾选“AddRedisinstallationfolde
Hive SQL 精进系列：REGEXP_REPLACE 函数的用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、REGEXP_REPLACE函数基础2.1基本语法参数详解2.2简单示例三、REGEXP_REPLACE函数的应用场景3.1去除特殊字符3.2统一字符串格式四、REGEXP_REPLACE与REPLACE函数的对比4.1功能差异4.2适用场景五、REGEXP_REPLACE与REGEXP函数的对比5.1功能差异5.2适用场景六、总结一、引言字符串处理是数据处理中的常见需求，Hive
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文