ColonyAlbert

大数据集群搭建和使用之五——Hive配置与使用

Hive
- MySQL配置
  - 卸载先前的MySQL（安全起见）
  - 安装MySQL
    - 下载mysql的repo源，例如5.7.20版本
    - 安装MySQL
    - 测试安装是否成功
    - 更换密码（mysql的要求，否则后续造作不能进行）
    - 使用新密码登录，并刷新远程登录权限
    - 修改mysql的root密码
    - 远程登录
- 配置hive&mysql
  - 建立相关hadoop文件夹
  - 修改hive-site.xml
  - 修改hive-env.sh
  - 驱动包
- 启动
使用Hive
- 建表
- 导入数据
- 查询数据
- 用上传方式导入数据
- 从hive的工作目录外面导入数据
- 建立external table（区别上一条）
- 从已有表的基础上建立新的表
- 更多语法

使用真实集群，三台腾讯云服务器，不是伪集群

Hive

Hive和Hbase的版本兼容性看这里

目前只需要在一台主机上进行配置即可，这里使用MySQL作为元数据库

MySQL配置

卸载先前的MySQL（安全起见）

参考链接点这里

查看MySQL是否安装
- 方式1
  执行命令后看Installed Packages里有没有MySQL相关的组件
```
yum list installed mysql*
```
- 方式2
  执行命令后看Installed Packages里有没有MySQL相关的组件
```
rpm -qa | grep -i mysql
```
卸载MySQL
使用yum remove命令remove掉上述两个命令中出现的组件即可
卸载MySQL其他相关目录
不执行这一步的话，SQL的password可能不更新

rm -rf /usr/lib/mysql
rm -rf /usr/share/mysql
rm –rf /usr/my.cnf
rm -rf /root/.mysql_sercret

chkconfig --list | grep -i mysql
chkconfig --del mysqld

安装MySQL

下载mysql的repo源，例如5.7.20版本

cd /usr/local/src
wget http://repo.mysql.com/mysql57-community-release-el7-8.noarch.rpm
rpm -ivh mysql57-community-release-el7-8.noarch.rpm

安装MySQL

yum -y install mysql-server

测试安装是否成功

rpm -qa | grep mysql

应该列出几个mysql相关的组件名称

更换密码（mysql的要求，否则后续造作不能进行）

service mysqld restart
grep "password" /var/log/mysqld.log

找到一行A temporary password is generated for root@localhost:xxxx，xxxx即为临时密码

使用临时密码登录来更换密码

mysql -u root -p

输入刚刚的临时密码进行登录，此时虽然登录了，但是不能进行任何操作，此处的新密码要求较高，未达到要求的密码将会被驳回。

ALTER USER 'root'@'localhost' identified by 'new_password';
exit;

使用新密码登录，并刷新远程登录权限

mysql -u root -p
flush privileges;
grant all on *.* to 'root'@'%' identified by 'new_password' with grant option;

修改mysql的root密码

mysql -u root -p
set password for 'root'@'localhost' = password('new_password');

修改完后记得刷新权限并赋予远程登录能力。

远程登录

使用SQLyog工具测试远程登录数据库，可以看到数据库和表都能正常的显示。（SQLyog）是试用版

配置hive&mysql

建立相关hadoop文件夹

hadoop fs -ls /
hadoop fs -mkdir /hive
hadoop fs -mkdir /hive/warehouse
hadoop fs -chmod 777 /hive
hadoop fs -chmod 777 /hive/warehouse

修改hive-site.xml

复制hive-default.xml.template为hive-site.xml
修改或添加：

  
    
    hive.metastore.warehouse.dir  
    /root/hive/warehouse  
    


    hive.exec.scratchdir
    /root/hive
  

    
    
    hive.metastore.uris  
      
    


 
        javax.jdo.option.ConnectionURL
        jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true
    

    
        javax.jdo.option.ConnectionDriverName
        com.mysql.jdbc.Driver
    
   
    
        javax.jdo.option.ConnectionUserName
        root
    
    
    
        javax.jdo.option.ConnectionPassword
        123456
    
    
   hive.metastore.schema.verification
   false

注意vim可以使用快捷命令 '/' 来快速搜索定位。
注意javax.jdo.option.ConnectionURL这一项中的master是主机名称。
此外，将配置文件中所有的${system:java.io.tmpdir}替换成/opt/hive/tmp，将所有的${system:user.name}替换成root。

修改hive-env.sh

从hive-env.sh.template复制过来。
根据自己的版本添加：

export  HADOOP_HOME=/opt/hadoop/hadoop2.8
export  HIVE_CONF_DIR=/opt/hive/hive1.2/conf
export  HIVE_AUX_JARS_PATH=/opt/hive/hive1.2/lib

驱动包

向hive1.2/lib中上传mysql驱动包。mysql-connector-java-5.1.28.jar

启动

第一次启动时，切换到bin目录，执行

schematool  -initSchema -dbType mysql

之后可以进入hive命令行进行操作
使用正确的mysql-connector的jar包，确保所有的路径都配置正确，hadoop上的文件夹要事先建立好

配置完成之后，无论在哪里新建数据库或者表，都会在mysql中进行，不会像之前那样，在哪里执行hive就会在哪里建立新的数据库。

sql开启关闭操作参考这个链接

使用Hive

建表

create table table_name(id int, name string, storage string, price double)（建立新的表）
row format delimited
fields termiated by ‘\t’（指定按照什么分隔符分割文本得到对应的表的键值，这里是tab，还可以是,）
stored as sequencefile（表对应的文件的存储格式，这里是sequencefile，还有textfile

导入数据

load data local inpath ‘path to filename’ into table tablename（这里是本地文件，也可以是hdfs文件）

查询数据

* select * from tablename;
![](http://pbpkien9l.bkt.clouddn.com/18-7-17/8877229.jpg)
* select count(*) from tablename;
耗时操作没跑出来。

用上传方式导入数据

直接用hadoop fs -put filepath/file tablepath，相当于直接将表数据当作文件上传到hdfs文件，hive照样可以读取表数据
如果上传的数据不能和表的键相对应，那么会出现什么情况缺少的键值会被当做null，多余的键值将会被舍弃

从hive的工作目录外面导入数据

之前的数据导入都是将文件放到hive/warehouse里面来进行数据的导入，如果数据不再hive的工作目录下呢？

上图说明，uuu.data现在是存放在/根目录下

hive面对外部数据仍然能够导入数据，但是这个时候hdfs的根目录下面的uuu.data已经没有了，而是自动地被剪切到hive/warehouse对应的表文件夹下。
这样带来的问题是，数据会被强行地挪位置，对于一些依赖该数据路径工作的代码而言，是致命的错误所以hive支持external table

建立external table（区别上一条）

建立external表并指定路径，在hdfs上可以查看原来的文件位置并没有改变，hive的工作目录里也没有添加新的数据drop内部表的时候，整个表的文件都没有了，元数据也删了，但是drop外部表的时候，表内容仍然有，但是表没有了，类似于hive里的外部表只是一个链接

从已有表的基础上建立新的表

创建出来的表会按照创建时候的命令自动索引数据并存储

更多语法

set hive.cli.print.header=true;

CREATE TABLE page_view(viewTime INT, userid BIGINT,
     page_url STRING, referrer_url STRING,
     ip STRING COMMENT 'IP Address of the User')
 COMMENT 'This is the page view table'
 PARTITIONED BY(dt STRING, country STRING)
 ROW FORMAT DELIMITED
   FIELDS TERMINATED BY '\001'
STORED AS SEQUENCEFILE;   TEXTFILE

//sequencefile
create table tab_ip_seq(id int,name string,ip string,country string) 
    row format delimited
    fields terminated by ','
    stored as sequencefile;
insert overwrite table tab_ip_seq select * from tab_ext;

//create & load
create table tab_ip(id int,name string,ip string,country string) 
    row format delimited
    fields terminated by ','
    stored as textfile;
load data local inpath '/home/hadoop/ip.txt' into table tab_ext;

//external
CREATE EXTERNAL TABLE tab_ip_ext(id int, name string,
     ip STRING,
     country STRING)
 ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
 STORED AS TEXTFILE
 LOCATION '/external/hive';

// CTAS  用于创建一些临时表存储中间结果
CREATE TABLE tab_ip_ctas
   AS
SELECT id new_id, name new_name, ip new_ip,country new_country
FROM tab_ip_ext
SORT BY new_id;

//insert from select   用于向临时表中追加中间结果数据
create table tab_ip_like like tab_ip;

insert overwrite table tab_ip_like
    select * from tab_ip;

//CLUSTER <--相对高级一点，你可以放在有精力的时候才去学习>
create table tab_ip_cluster(id int,name string,ip string,country string)
clustered by(id) into 3 buckets;

load data local inpath '/home/hadoop/ip.txt' overwrite into table tab_ip_cluster;
set hive.enforce.bucketing=true;
insert into table tab_ip_cluster select * from tab_ip;

select * from tab_ip_cluster tablesample(bucket 2 out of 3 on id); 

//PARTITION
create table tab_ip_part(id int,name string,ip string,country string) 
    partitioned by (part_flag string)
    row format delimited fields terminated by ',';

load data local inpath '/home/hadoop/ip.txt' overwrite into table tab_ip_part
     partition(part_flag='part1');


load data local inpath '/home/hadoop/ip_part2.txt' overwrite into table tab_ip_part
     partition(part_flag='part2');

select * from tab_ip_part;

select * from tab_ip_part  where part_flag='part2';
select count(*) from tab_ip_part  where part_flag='part2';


alter table tab_ip change id id_alter string;
ALTER TABLE tab_cts ADD PARTITION (partCol = 'dt') location '/external/hive/dt';

show partitions tab_ip_part;

//write to hdfs
insert overwrite local directory '/home/hadoop/hivetemp/test.txt' select * from tab_ip_part where part_flag='part1';    
insert overwrite directory '/hiveout.txt' select * from tab_ip_part where part_flag='part1';

//array 
create table tab_array(a array<int>,b array<string>)
row format delimited
fields terminated by '\t'
collection items terminated by ',';

示例数据
tobenbrone,laihama,woshishui     13866987898,13287654321
abc,iloveyou,itcast     13866987898,13287654321


select a[0] from tab_array;
select * from tab_array where array_contains(b,'word');
insert into table tab_array select array(0),array(name,ip) from tab_ext t; 

//map
create table tab_map(name string,info map<string,string>)
row format delimited
fields terminated by '\t'
collection items terminated by ';'
map keys terminated by ':';

示例数据：
fengjie         age:18;size:36A;addr:usa
furong      age:28;size:39C;addr:beijing;weight:180KG


load data local inpath '/home/hadoop/hivetemp/tab_map.txt' overwrite into table tab_map;
insert into table tab_map select name,map('name',name,'ip',ip) from tab_ext; 

//struct
create table tab_struct(name string,info structint,tel:string,addr:string>)
row format delimited
fields terminated by '\t'
collection items terminated by ','

load data local inpath '/home/hadoop/hivetemp/tab_st.txt' overwrite into table tab_struct;
insert into table tab_struct select name,named_struct('age',id,'tel',name,'addr',country) from tab_ext;

//cli shell
hive -S -e 'select country,count(*) from tab_ext' > /home/hadoop/hivetemp/e.txt  
有了这种执行机制，就使得我们可以利用脚本语言（bash shell,python）进行hql语句的批量执行

select * from tab_ext sort by id desc limit 5;

select a.ip,b.book from tab_ext a join tab_ip_book b on(a.name=b.name);

//UDF
select if(id=1,first,no-first),name from tab_ext;

hive>add jar /home/hadoop/myudf.jar;
hive>CREATE TEMPORARY FUNCTION my_lower AS 'org.dht.Lower';
select my_upper(name) from tab_ext;

echarts象形渐变柱状图星星跌入梦境* echarts angular.js 前端
一、效果图如下：二、代码如下（1）父组件importitemfrom'../bigdata/components/item.vue'exportdefault{components:{item}}.page-con{width:100%;height:100%;.main-con{width:35%;height:33%;}}（2）子组件importechartsfrom"echarts";exp
大数据（Big Data）：探索信息时代的海量数据世界 hong161688 大数据
大数据（BigData）：探索信息时代的海量数据世界一、大数据的定义与特点大数据（BigData），或称巨量资料，是指那些在传统数据处理应用软件无法有效捕捉、管理和处理的数据集合。这些数据集通常具有海量、高增长率和多样化的特点，需要新的处理模式才能赋予其更强的决策力、洞察发现力和流程优化能力。大数据的“大”不仅体现在数据量的规模上，更在于其处理难度和复杂性，以及对信息提取和价值挖掘的需求。大数据的
Ingest Pipeline & Painless Script 折纸虚桐 ES学习笔记 elasticsearch
DELETEtech_blogs#Blog数据，包含3个字段，tags用逗号间隔PUTtech_blogs/_doc/1{"title":"Introducingbigdata......","tags":"hadoop,elasticsearch,spark","content":"Youknow,forbigdata"}#测试splittagsPOST_ingest/pipeline/_sim
HIVE 数据模型 HFDYCYY 大数据
体系结构：元数据/HQL的执行安装：嵌入/远程/本地管理：CLI/web界面/远程服务数据类型：基本/复杂/时间数据模型：数据存储/内部表/分区表/外部表/桶表/视图WEB管理工具：http://tdxy-bigdata-04:8889/notebook/editor?type=hive集群状态管理：http://tdxy-bigdata-03:7180/cmf/home基于HDFS没有专门的数据
山东大学大数据管理与分析知识点总结 weixin_51565263 云计算大数据 mapreduce 数据仓库
大数据概述大数据(bigdata)，或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理大数据四个本质特征大量化（volume），快速化（velocity），多样化（variety），价值化（value）；四个VVolume—数量大：数据每两年就增长一倍（大数据摩尔
大数据-Big Data Dingdangr big data
大数据（BigData）是指规模庞大、多样化、高速度的数据集合。与传统数据相比，大数据具有一些显著的特点，并广泛应用于各个领域。以下是对大数据的详细解释：一、大数据的定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。二、大数据的主要特点数据量巨大（Volume）：大数据最
BigData学习日记 wsuan
做一个简单的开篇说明从今天开始，每天定时更新当天所学知识，进行知识总结的同时进行一下日子的计算，也算为自己加油。
pyflink1.18.0 报错 TypeError: cannot pickle ‘_thread.lock‘ object Thomas2143 总结 pyflink
完整报错Traceback(mostrecentcalllast):File"/Users//1.py",line851,inds1=my_datastream.key_by(lambdax:x[0]).process(MyProcessFunction())#返回元组即:f0f1f2三列File"/Users/thomas990p/bigdataSoft/minicondaarm/minicon
扩展学习|大数据，新的认识论和范式转变封印师请假去地球钓鱼计算机辅助信息分析主题扩展阅读大数据科研范式转变
文献来源：[1]KitchinR.BigData,NewEpistemologiesandParadigmShift[J].BigData&Society,2014,1(1):1-12.DOI:10.1177/2053951714528481.下载链接：https://pan.baidu.com/s/1RdnIo5VeL-CERk2sxyILiQ提取码：0ih2一、科学研究的范式转变正如库恩(19
阿里云计算平台大数据基础工程技术团队直聘！！！大数据
大数据基础工程技术团队，隶属于阿里云智能集团计算平台事业部，是一支负责阿里集团、公共云和混合云场景计算平台大数据&AI产品的稳定性建设、架构&成本优化、运维产品ABM（ApsaraBigdataManager）研发和售后技术专家支持的团队。通过软件工程，数据智能化的方法论，围绕数据系统化建设运维智能工具链，打造飞天大数据&AI运维管控平台ABM，解决超大规模分布式集群运维管理问题，提升产品的稳定性
单细胞注释刘综一
单细胞-注释-2022-01-17多个样本单细胞分析流程-(jianshu.com)一、人工注释人工注释需要借助文献检索marker或者结合常用的注释数据库，例如两个常用的数据库：CellMarker（http://bio-bigdata.hrbmu.edu.cn/CellMarker/）；panglaoDB（ASingleCellSequencingResourceForGeneExpressi
[bigdata-050] 规则引擎和专家系统pyke+pyclipse+drools 未济2019
反欺诈最有效的方式，是搜索所有的欺诈事件，然后将欺诈行为和防范措施进行规则化，表达成产生式规则，再由规则引擎驱动进行反欺诈业务实战。产生式规则，就是AI领域早期的专家系统。规则引擎如下：1.clipsehttp://clipsrules.sourceforge.net/http://clipsrules.sourceforge.net/FAQ.html这个是nasa在1985年开发的，ansic，
【Fellow 云集 | 经管主题/EI会议 | 快见刊】第三届大数据、区块链与经济管理国际学术会议 (ICBBEM 2024)，早投稿、早送审、早录用！艾思科蓝 AiScholar 学术会议大数据区块链信任链人工智能软件工程线性回归算法
第三届大数据、区块链与经济管理国际学术会议(ICBBEM2024)The3rdInternationalConferenceonBigdataBlockchainandEconomyManagement大会网站：https://ais.cn/u/YFbQru（更多会议详情）大会时间：2024年3月29-31号大会地点：中国-武汉截稿时间：以官网信息为准提交检索：EICompendex，Scopus
python+大数据学习打卡day1 岁月不静好456 big data 学习
【大数据从0-1打卡-day1】1、简单了解一些关于大数据的概念数据：数据就是对客观事件进行记录并可以鉴别的符号。他不仅仅是指数字，还可以是有一定意义的字母、文字、符号、语音、文字、图画、视频或者这些元素的结合等。企业数据分析方向：现状分析：离线分析原因分析：实时分析预测分析：机器学习数据分析基本流程：采集、处理、分析、应用大数据：大数据(bigdata)，指的是所涉及的资料量规模巨大到无法透过主
因果推断推荐系统工具箱 - CFF（二） processor4d
文章名称【CIKM-2021】【BeijingKeyLaboratoryofBigDataManagementandAnalysisMethods-AntGroup】CounterfactualReview-basedRecommendation核心要点文章旨在解决现有基于评论的推荐系统中存在的评论稀疏和不平衡的问题，提出在feature-aware的推荐场景下，利用反事实样本提升模型性能。作者通
requests实验临风. 爬虫爬虫网络爬虫 python
文章目录实验目的：实验内容：1.使用百度搜索引擎查询给定的一个关键词（例如：bigdata），将搜索得到的网页存储起来。2.给定使用baidu搜索引擎的关键词列表，将搜索得到的网页分别存储起来。2.1代码展示2.2效果展示2.3注意事项3.在人邮教育官网上搜索“爬虫”的图书信息，结果保存起来。3.1代码展示3.2效果展示4.给定关键词列表（例如：【大数据、java、python】），在人邮教育官网
python数据可视化库_python和r中用于数据可视化的前9个库 weixin_26738983 可视化 python 数据可视化数据分析人工智能
python数据可视化库Intherapidlygrowingworldoftoday,whentechnologyisexpandingataratelikeneverbefore,bigdataisswiftlywalkingintopeople’slives.Thoughpeoplemayhavewaystoobtaindata,whenitcomestodrawinginsightsorc
spark好的文章链接 Trank-Lw spark 大数据分布式
https://blog.51cto.com/u_16099325/6763760`javaspark官方文档sparkjavaapi手册http://www.17bigdata.com/book/spark/BianChengZhiNan/SPARKGongXiangBianLiang.htmlJavaSparkML实现的文本分类https://blog.csdn.net/coderma/art
使用Python和OpenCV检测图像中的物体并将物体裁剪下来要去坐飞船图像处理
转载哦~https://blog.csdn.net/binbigdata/article/details/80029681介绍硕士阶段的毕设是关于昆虫图像分类的，代码写到一半，上周五导师又给我新的昆虫图片数据集了，新图片中很多图片很大，但是图片中的昆虫却很小，所以我就想着先处理一下图片，把图片中的昆虫裁剪下来，这样除去大部分无关背景，应该可以提高识别率。原图片举例（将红色矩形框部分裁剪出来））：s
Hadoop2.7配置不会吐丝的蜘蛛侠。 Hadoop hadoop 大数据 hdfs
core-site.xmlfs.defaultFShdfs://bigdata/ha.zookeeper.quorum192.168.56.70:2181,192.168.56.71:2181,192.168.56.72:2181-->hadoop.tmp.dir/export/data/hadoop/tmpfs.trash.interval1440io.file.buffer.size13107
Hadoop搭建（完全分布式）莫噶搭建分布式 hadoop 大数据
节点分布：bigdata-masterbigdata-slave1bigdata-salve2NameNodeNodeManagerNodeManagerSecondaryNameNodeDataNodeDataNodeResourceManagerNodeManagerDataNode目录一、jdk安装：二、hadoop安装一、jdk安装：jdk-8u212链接：https://pan.baid
因果推断推荐系统工具箱 - CFF（一） processor4d
文章名称【CIKM-2021】【BeijingKeyLaboratoryofBigDataManagementandAnalysisMethods-AntGroup】CounterfactualReview-basedRecommendation核心要点文章旨在解决现有基于评论的推荐系统中存在的评论稀疏和不平衡的问题，提出在feature-aware的推荐场景下，利用反事实样本提升模型性能。作者通
RDD 依赖关系 zmx_messi 大数据 spark
RDD血缘关系RDD不会保存数据的，RDD为了提供容错性，需要将RDD间的关系保存下来，一旦出现错误，可以根据血缘关采将数据源重新读取进行计算。packagecom.atguigu.bigdata.spark.core.rdd.depimportorg.apache.spark.{SparkConf,SparkContext}objectSpark01_RDD_Dep{defmain(args:A
转换算子小案例 zmx_messi spark 大数据
1)数据准备agent.log：时间戳，省份，城市，用户，广告，中间字段使用空格分隔。2)需求描述统计出每一个省份每个广告被点击数量排行的Top33)需求分析4)功能实现整体思路代码实现packagecom.atguigu.bigdata.spark.core.rdd.operator.transformimportorg.apache.spark.{SparkConf,SparkContext}
【征稿已开启】第五大数据、人工智能与软件工程国际研讨会（ICBASE 2024）艾思科蓝-何老师【H8053】大数据人工智能软件工程
第五大数据、人工智能与软件工程国际研讨会（ICBASE2024）20245thInternationalConferenceonBigData&ArtificialIntelligence&SoftwareEngineering2024年09月20-22日|中国温州第五届大数据、人工智能与软件工程国际研讨会（ICBASE2024）将于2024年09月20-22日在中国温州隆重举行。会议主要围绕大数
2024初始Spring（并使用idea创建springweb项目）菜鸟小木 spring java 后端
前言spring呢，以前一直是简单的了解，并没有利用空闲时间去进行对应的深入的学习，今天呢原本是打算好好学的，然后后来呢感觉还是太早了接触，打算把前面知识在过一编之后再开始Spring介绍Spring|Home大家想要访问的话，可以去官网下面具体查看对应的文档Fromconfigurationtosecurity,webappstobigdata—whatevertheinfrastructure
spark学习4：spark安装 hzp666 spark spark 大数据
1.下载spark安装包2.配置环境1.cd/bigdata/spark-3.0.1-bin-hadoop3.2/conf/2.4.添加动态库在hadoop-3.2.2/bin目录下添加hadoop.dll和winutils.exe文件，可以从https://github.com/cdarlint/winutils和https://github.com/steveloughran/winutils
商业智能（BI）数据分析、挖掘概念 kalvin_y_liu 数据科学数据分析数据挖掘
商业智能（BI）数据分析挖掘概念一、商业智能（BI）数据分析挖掘概念数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结。1.分析型客户关系管理（AnalyticalCRM/aCRM用于支持决策，改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识，和如何与顾客有效接触的知识，进行收集、分析、应用。2.大数据（BigData）大数据既是一个被滥用的流行语，也是一个当今社
Fink CDC数据同步（二）MySQL数据同步苡~ mysql 数据库 flink
1开启binlog日志2数据准备usebigdata;droptableifexistsuser;CREATETABLE`user`(`id`INTEGERNOTNULLAUTO_INCREMENT,`name`VARCHAR(20)NOTNULLDEFAULT'',`birth`VARCHAR(20)NOTNULLDEFAULT'',`gender`VARCHAR(10)NOTNULLDEFAU
大数据分析|设计大数据分析的三个阶段封印师请假去地球钓鱼统计与数据分析素养max 大数据分析数据采集数据暂存
文献来源：SaggiMK,JainS.Asurveytowardsanintegrationofbigdataanalyticstobiginsightsforvalue-creation[J].InformationProcessing&Management,2018,54(5):758-790.下载链接：链接：https://pan.baidu.com/s/14IGaCOc-plxAiaVhw
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

大数据集群搭建和使用之五——Hive配置与使用

Hive

MySQL配置

卸载先前的MySQL（安全起见）

安装MySQL

下载mysql的repo源，例如5.7.20版本

安装MySQL

测试安装是否成功

更换密码（mysql的要求，否则后续造作不能进行）

使用新密码登录，并刷新远程登录权限

修改mysql的root密码

远程登录

配置hive&mysql

建立相关hadoop文件夹

修改hive-site.xml

修改hive-env.sh

驱动包

启动

使用Hive

建表

导入数据

查询数据

用上传方式导入数据

从hive的工作目录外面导入数据

建立external table（区别上一条）

从已有表的基础上建立新的表

更多语法

你可能感兴趣的:(BigData)