Au-csdn

Hive安装与使用

Hive安装与使用

文章目录

Hive安装与使用

Hive安装
设置Hive执行环境
Hive支持的数据类型
表的创建

内部表
外部表
分区表
桶表

Array、Map、Struct的使用

Array
Map
Struct

Hive安装

到官网下载 apache-hive-2.3.5-bin.tar.gz 文件到/home/au/software/hive（目录随意）。
解压该文件：tar -zxvf apache-hive-2.3.5-bin.tar.gz -C 解压后存放的位置。
修改文件名：mv apache-hive-2.3.5-bin hive，或者创建软连接：ln -s apache-hive-2.3.5-bin hive。
配置环境变量：vi ~/.bashrc，添加如下内容：

export HIVE_HOME=/home/au/software/hive
export PATH=$PATH:$HIVE_HOME/bin

让环境变量生效：source ~/.bashrc。
修改hive配置文件，在hive/conf目录下创建文件hive-site.xml：touch hive-site.xml。
修改hive-site.xml，添加如下内容：


<configuration>
    <property>
        <name>javax.jdo.option.ConnectionUserNamename>
        <value>hivevalue>
    property>
    <property>
        <name>javax.jdo.option.ConnectionPasswordname>
        <value>hivevalue>
    property>
    <property>
        <name>javax.jdo.option.ConnectionURLname>
        <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=truevalue>
    property>
    <property>
        <name>javax.jdo.option.ConnectionDriverNamename>
        <value>com.mysql.jdbc.Drivervalue>
    property>
configuration>

在mysql中创建hive用户，密码也为hive（用户名密码随意，取名hive方便记忆），并允许远程登录：

grant all on hive.* to 'hive'@'%' identified by 'hive';
flush privileges;

上传mysql驱动包mysql-connector-java-5.1.10.jar到hive/lib目录下。
初始化hive数据库：schematool -dbType mysql -initSchema，最后一行出现schemaTool completed代表初始化成功。

设置Hive执行环境

Hive的运行模式即任务的执行环境，分为本地与集群两种，可以通过mapred.job.tracker来指明。
设置方式：
hive > set mapred.job.tracker.local。

由于hive打印表默认没有表头，通过如下设置来显示表头：
hvie > set hive.cli.print.header=true。

设置reduce任务的个数，在比较sort by和order by的区别时需要设置，否则看不出效果：
hive > set mapred.reduce.tasks=2。

Hive支持的数据类型

在Java中支持的数据类型在Hive中都支持，具体如下：

tinyint(y)    smallint(s)    int    bigint(l)
float    double    decimal
boolean
string    varchar    char
timestamp    date    interval
binary
Array数组    Map键值对    Struct对象

表的创建

展示所有的库：show databases。
使用某个库：use database-name。
展示所有的表：show tables。

数据导入表的方式：

insert：使用insert语句插入数据会转化成MapReduce任务。

load：使用load方式插入就是将文件上传至hdfs，即hdfs dfs -put。

子查询。

表的类型有：

内部表

外部表

分区表

桶表

内部表

内部表：就是一般的表，未被external修饰的是内部表，与数据库中的Table在概念上类似，每一个Table在Hive中都有一个相应的目录存数据，存储位置在hive.metastore.warehouse.dir设置，默认位置是hdfs上的/user/hive/warehouse，所有的内部表数据都是保存在这个目录中，当表定义被删除的时候，表中的数据和元数据随之一并被删除。

建立内部表：

create table people(
    id int,
    name string
)
row format delimited       // 表中一行对应与hdfs文件的一行
fields terminated by ','   // 一行中每列用逗号分隔，如果不写这句话，那么在hdfs存储的一行数据就会紧挨在一起
stored as textfile;        // 默认值为textfile，以文本格式存放在hdfs

插入数据：

insert into people values(1, '张三');

本地文件导入：

load data local inpath '/home/au/people_data' into table people;

people_data文件内容：
1,jack
2,rose
3,merry
4,lisa

hdfs文件导入：

load data inpath '/people_data' into table people;

也可以直接将文件上传至hdfs上该表存放的路径，我这里是/user/hive/warehouse/au.db/people/，因为导入文件的时候实际上就是将文件上传至该目录：

hdfs dfs -put /home/au/people_data /user/hive/warehouse/au.db/people/

子查询插入数据：

建表时利用子查询：

create table people_back
as
select * from people;

插入时利用子查询：

insert into/overwrite table people
select * from people_back;

外部表

外部表：被external修饰的是外部表，数据存在与否和表的定义互不约束，仅仅只是表对hdfs上相应文件的一个引用，即把hdfs中某个目录下的数据当做表来使用，当删除表定义的时候，表中的数据依然存在，数据存放路径不在/user/hive/warehouse。

创建外部表：

先在hdfs根目录创建一个ext_table目录，并将本地文件student_data（事先创建好）上传至该目录：

hdfs dfs -mkdir /ext_table
hdfs dfs -put /home/au/student_data /ext_table/

student_data文件内容：
1,jack
2,rose
3,merry
4,lisa

创建student表

create external table student(
    id int,
    name string
)
row format delimited       // 表中一行对应与hdfs文件的一行
fields terminated by ','   // 一行中每列用逗号分隔，如果不写这句话，那么在hdfs存储的一行数据就会紧挨在一起
stored as textfile         // 默认值为textfile，以文本格式存放在hdfs
location '/ext_table';     // 指定student_data数据文件所在位置

当删除student表时，只会删除hive中student表的定义，ext_table目录中的数据并不会被删除。

分区表

分区底层实现逻辑为：与Mapreduce类似，在一个表对应的目录下，一个分区对应一个目录。
分区表使用场景：单表数据量巨大，而且查询又经常限定某一个类别。

分区的指标只能是伪列，即不能用表中字段作为分区指标。

创建分区表：

create table teacher(
    id int,
    name string
)
partitioned by (month string)  // 不能用表中字段作为分区指标
row format delimited
fields terminated by ','
stored as textfile;

导入数据：

load data local inpath '/home/au/teacher_data' into table teacher partition(month='1');
load data local inpath '/home/au/teacher_data' into table teacher partition(month='2');
load data local inpath '/home/au/teacher_data' into table teacher partition(month='3');

teacher_data文件内容：
1,jack
2,rose
3,merry
4,lisa

导入完后查询数据：

hive > select * from teacher;

id	name	month
1	jack	1
2	rose	1
3	merry	1
4	lisa	1
1	jack	2
2	rose	2
3	merry	2
4	lisa	2
1	jack	3
2	rose	3
3	merry	3
4	lisa	3


hive > show partitions teacher;

partition
month=1
month=2
month=3

在hdfs上查看/user/hive/warehouse/au.db/teacher目录可查看到有三个目录：month=1，month=2，month=3。

桶表

桶表：将大表进行哈希散列抽样存储，方便做数据和代码验证，桶表中的数据只能从其它表中用子查询进行插入。比如将表分成10份，每次只拿其中的十分之一来使用，可以快速的得到结果。
分桶底层实现逻辑：在表对应的目录下，将源文件拆分成N个小文件。
使用场景：对于一个庞大的数据集我们经常需要拿出来一小部分作为样例，然后在样例上验证我们的查询，优化我们的程序，利用分桶可以实现数据的抽样。

开启分桶功能：

hive > set hive.enforce.bucketing=true;

创建桶表：

create table teacher_bucket(
    id int,
    name string
)
clustered by(id) into 2 buckets // 根据id分成2桶
row format delimited
fields terminated by ','
stored as textfile;

插入数据：

insert into table teacher_bucket
select * from student; // 上面创建的student表作为输入

查出某一桶：

select * from teacher_bucket
tablesample(bucket 1 out of 2 on id); // 查第一桶

在`hdfs`上查看`/user/hive/warehouse/au.db/teacher_bucket`目录可查看到有两个个目录：`000000_0，000001_0`。

Array、Map、Struct的使用

Hive是支持复合类型的，有Array、Map、Struct三种，并且他们可以嵌套使用，Array是通过下标取值，Map是通过key取值，Struct是通过。

Array

创建带有Array类型的列的表：

create table tab_array(
    a array,
    b array
)
row format delimited
fields terminated by '\t' // 每列以制表符\t分隔
collection items terminated by ',' // 每个array中的数据以逗号,分隔
stored as textfile;

导入数据：

load data local inpath '/home/au/tab_array' into table tab_array;

tab_array文件中数据如下（建议不要直接复制，中间的\t可能会变成四个空格，这样就失效了）：
1,2,3,4 hello,world
5,6,7   my,name
8,9,0   is,java

查询数据（array通过下标访问，如array[0]）：

查询全部数据：
hive > select * from tab_array;
结果：
[1,2,3,4]	["hello","world"]
[5,6,7]	["my","name"]
[8,9,0]	["is","java"]

通过数组下标访问：
hive > select a[0],b[1] from tab_array;
结果：
1	world
5	name
8	java

Map

创建带有Map类型的列的表：

create table tab_map(
    a map,
    b map
)
row format delimited
fields terminated by '\t' // 每列以制表符\t分隔
collection items terminated by ',' // 每个map中的数据以逗号,分隔
map keys terminated by ':' // map中key，value以冒号:分隔
stored as textfile;

导入数据：

load data local inpath '/home/au/tab_map' into table tab_map;

tab_map文件中数据如下：
1:jack,2:rose   merry:3,lisa:4
5:maria mark:6,space:7,deep:8

查询数据（map通过key访问，如map[1]，map["merry"]）：

hive > select * from tab_map;
结果：
{1:"jack",2:"rose"}	{"merry":3,"lisa":4}
{5:"maria"}	{"mark":6,"space":7,"deep":8}


查询某个map值：
hive > select a[1], b["merry"] from tab_map;
结果：
jack	3
NULL	NULL

Struct

Struct和C语言中的结构体类似，也可以看成Java中的一个类，每一行数据中的Struct代表一个对象。

创建带有struct类型的列的表：

create table tab_struct(
    id int,
    info struct
)
row format delimited
fields terminated by '\t' // 每列以制表符\t分隔
collection items terminated by ',' // 每个struct中的数据以逗号,分隔
stored as textfile;

create table tab_struct(
    id int,
    info struct
)
row format delimited
fields terminated by '\t'
collection items terminated by ','
stored as textfile;

导入数据：

load data local inpath '/home/au/tab_struct' into table tab_struct;

tab_struct文件中数据如下：
1    19,18788881111
2   20,13898761827

查询数据（struct通过点来访问属性，如info.age，info.tel）：

hive > select * from tab_struct;
结果：
1	{"age":19,"tel":"18788881111"}
2	{"age":20,"tel":"13898761827"}

hive > select id, info.age, info.tel from tab_struct;
结果：
1	19	18788881111
2	20	13898761827

你可能感兴趣的:(大数据,Hive)

hivePB级迁移方案我要用代码向我喜欢的女孩表白数据库 bigdata-大数据专栏 hive
1、评估磁盘空间大小、调整副本数、设置heapsize大小2、distcp-i-skipcrccheck源端到目标端，迁移3、元数据迁移，建表，替换location地址，或者导出db4、表分区修复5、配置增量T-1迁移或者T-26、校验历史分区脚本，表结构，大小，文件数7、根据ditcp不对的，进行补数脚本，删分区，重拉8、任务校验，客户跑完任务后，校验指定分区的count数和内容的md59、任务
深入探讨Ceph：分布式存储架构的未来深度Linux ceph 分布式架构 C/C++
在数字化浪潮汹涌澎湃的当下，数据量呈爆发式增长，传统存储系统在应对海量数据存储、高并发访问以及灵活扩展等方面，逐渐显得力不从心。分布式存储技术应运而生，成为解决现代数据存储难题的关键方案，而Ceph作为分布式存储领域的佼佼者，正日益受到广泛关注和应用。Ceph以其卓越的性能、高可靠性、强大的扩展性以及开源的特性，在众多分布式存储系统中脱颖而出，被广泛应用于云计算、大数据、人工智能等前沿领域。无论是
Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
《AI 大模型 ChatGPT 的传奇》武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js 算法数据结构
《AI大模型ChatGPT的传奇》——段方某世界100强企业大数据/AI总设计师教授北京大学博士后助理：1三6三二四61四五41AI大模型的概念和特点1.1什么是”大模型、多模态“？1.2大模型带来了什么？1.3大模型为什么能产生质变？1.4算法层面的跃升1.4.1RNN到transformor1.4.2扩散模型diffusion1.4.3跨模态的CLIP框架1.5AIGC的耀眼成果1.5.1AI
Hive基本操作小肥柴呀 Apache Hive hive 数据库
Hive基本操作1.Hive常用命令1.1Hive启动1.2Hive退出1.3Hive查看历史命令1.4Hive常用交互命令2.数据库基本操作2.1创建数据库2.2创建数据库并指定hdfs存储位置2.3删除空数据库2.4强制删除非空数据库2.5查看所有数据库2.6查看数据相关信息2.7数据库切换2.8修改数据库3.数据表基本操作3.1创建表3.1.1创建表的方式3.1.2创建内部表3.1.3创建外
hive迁移补数脚本细粒度表名-分区唯一键我要用代码向我喜欢的女孩表白 hive hadoop 数据仓库
假设我通过对数脚本发现，这些表对不上。假设检测出来是这样的（这些表存在于源端，但不存在目标端）我们需要从源端迁移过去。diff.txtads_xx1dt=20250219ads_xx2dt=20250217ads_xx2dt=20250218ads_xx2dt=20250219ads_xx3dt=20250217ads_xx4dt=20250217bak_xx1dt=20250109bak_xx1
十、大数据资源平台功能架构 moton2017 大数据治理大数据大数据治理数据资产数据管理元数据架构数据资源
一、大数据资源平台的功能架构图总体结构大数据资源平台功能架构图关键组件：1.用户（顶行）此部分标识与平台交互的各种利益相关者。其中包括：市领导各部门分析师区政府外部组织公民开发人员运营经理2.功能模块（顶部水平部分）这些代表平台的主要功能区域：门户（Portal）：用户访问平台的入口。开放中心（开放中心）：方便数据共享和访问。共享中心（共享中心）：管理数据共享和协作。运营中心：监控和管理平台的运营
分布式系统架构设计原理与实战：理解分布式系统的基本概念 AI天才研究院计算大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍在当今的互联网时代，数据量的爆炸性增长和业务的快速发展，使得单一的计算机系统已经无法满足我们的需求。为了解决这个问题，分布式系统应运而生。分布式系统是一种能在多台计算机（也称为节点）上运行，并通过网络进行通信和协调的系统。它能够提供高可用性、高可靠性、高扩展性和高性能等特性，因此在云计算、大数据、微服务等领域得到了广泛的应用。然而，设计和实现一个分布式系统并不是一件容易的事情。它涉及到
阿里云服务器的作用腾云服务器阿里云服务器云计算
使用阿里云服务器能做什么？大家都知道可以用来搭建网站、数据库、机器学习、Python爬虫、大数据分析等应用，阿里云服务器网来详细说下使用阿里云服务器常见的玩法以及企业或个人用户常见的使用场景：玩转阿里云服务器使用阿里云服务器最常见的应用就是用来搭建网站，例如个人博客、企业网站等；除了搭建网站还可以利用阿里云GPU服务器搭建机器学习和深度学习等AI应用；使用阿里云大数据类型云服务器做数据分析；利用云
数据湖构建 HaoHao_010 服务器云服务器云计算阿里云
阿里云的数据湖构建（DataLake）是一种用于存储和处理大量不同类型数据的解决方案，通常用于大数据分析和机器学习等应用场景。数据湖与传统的数据仓库不同，它能够存储结构化、半结构化和非结构化数据，支持大规模数据的整合、存储、查询和分析。阿里云提供了一整套工具和服务来帮助企业构建数据湖，以下是数据湖构建的主要步骤和关键服务：1.数据湖概述数据湖是一种统一的数据存储库，能承载来自多个来源的数据，包括：
国产唯一开源湖仓框架LakeSoul 2.0 重磅升级：支持快照回滚、Flink和Hive对接元灵数智大数据数据库 spark
首先，附上Github链接LakeSoul：https://github.com/meta-soul/LakeSoul，可搜索公众号元灵数智，在底部菜单了解我们-用户交流获取官方技术交流群二维码，进群与业内大佬进行技术交流。DMetaSoul团队于7月初发布了LakeSoul2.0版本，对1.0版本进行了多方面升级优化，提高了自身架构设计的灵活性，也更好地适应客户未来业务高速发展的需要。2.0版本
HTML5期末大作业：基于 html css js仿腾讯课堂首页 web学生网页设计 web前端 css dreamweaver html html5期末作业
精彩专栏推荐文末获取联系✍️作者简介:一个热爱把逻辑思维转变为代码的技术博主作者主页:【主页——获取更多优质源码】web前端期末大作业：【毕设项目精品实战案例(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】超炫酷的Echarts大屏可视化源码：【Echarts大屏展示大数据平台可视化(150套)】HTML+CSS+JS实例代码：【️HTML+CSS+JS实例代码
shell字典数组吃不到的烤鱼 shell脚本
转自:http://www.firefoxbug.com/index.php/archives/2369/#shell字典数组#!/bin/bashecho"shell定义字典"#必须先声明declare-Adicdic=([key1]="value1"[key2]="value2"[key3]="value3")#打印指定key的valueecho${dic["key1"]}#打印所有key值e
python天气数据分析与处理,用python数据分析天气 2401_84504019 人工智能
本篇文章给大家谈谈python天气预报可视化分析报告，以及基于python的天气预测系统研究，希望对各位有所帮助，不要忘了收藏本站喔。基于大数据重庆市气象数据分析摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对气象数据等问题，对气象信息进行研究分析，然后开发设计出气象数据分
HTTP 协议星竹服务器 http 网络协议服务器
项目：csdn:https://blog.csdn.net/2303_76953932/article/details/142704176?spm=1001.2014.3001.5501halo:https://xingzhu.top/archives/webfu-wu-qi-xiao-xiang-mu-linux-c-epoll说明：参考学习:https://www.bilibili.com/v
Java本地缓存技术选型（Guava Cache、Caffeine、EhCache）子龙技术 java
前言对一个java开发者而言，提到缓存，第一反应就是Redis。利用这类缓存足以解决大多数的性能问题了，我们也要知道，这种属于remotecache（分布式缓存），应用的进程和缓存的进程通常分布在不同的服务器上，不同进程之间通过RPC或HTTP的方式通信。这种缓存的优点是缓存和应用服务解耦，支持大数据量的存储，缺点是数据要经过网络传输，性能上会有一定损耗。与分布式缓存对应的是本地缓存，缓存的进程和
从0-1学习Mysql第七章: 分区与分库分表一小路一掌握 Go 语言：编程世界的进阶钥匙学习 mysql 数据库后端面试
第七章:分区与分库分表在大数据时代，单个数据库或表往往难以应对海量数据带来的存储、查询和维护压力。分区、分表和分库分表技术正是在这种背景下应运而生。它们通过将数据进行逻辑或物理拆分，实现数据管理的灵活性和系统性能的优化。1.分区表的概念与使用场景1.1什么是分区表？分区表是将一个大表按照某种规则（如范围、列表、哈希等）划分为多个逻辑子表的技术。虽然物理上数据仍存储在同一张表内，但查询时数据库可以根
Spark之PySpark james二次元大数据 Spark Python PySpark
PySpark是ApacheSpark的PythonAPI，它允许开发者使用Python编程语言进行大规模数据处理和分析。ApacheSpark是一个快速、通用、可扩展的大数据处理引擎，支持批处理、流处理、机器学习、图计算等多种数据处理模式。PySpark使得Python开发者能够利用Spark强大的分布式计算能力，处理大数据集，并执行高效的并行计算。一、PySpark核心概念1.RDD（弹性分布
天气API接口在日常生活与商业决策中的应用 FB13713612741 python
天气，作为自然界中最不可控却又对人类活动影响巨大的因素之一，其变化无常的特性使得人们长期以来都在寻找预测和控制它的方法。随着科技的进步，尤其是互联网和大数据技术的发展，天气信息的获取和应用变得更加便捷和高效。天气API接口，作为连接天气数据与各类应用的桥梁，正逐步渗透到我们日常生活的方方面面，并在商业决策中发挥着越来越重要的作用。一、天气API接口的基本概念与技术原理天气API接口是一种提供天气数
大数据最全大模型入门到应用——LangChain：索引（Indexes）-[文本分割器 2401_84182507 程序员 langchain
分类目录：《大模型从入门到应用》总目录LangChain系列文章：基础知识快速入门安装与环境配置链（Chains）、代理（Agent:）和记忆（Memory）快速开发聊天模型模型（Models）基础知识大型语言模型（LLMs）基础知识LLM的异步API、自定义LLM包装器、虚假LLM和人类输入LLM（HumanInputLLM）缓存LLM的调用结果加载与保存LLM类、流式传输LLM与ChatMod
pandas series 相加_Numpy和Pandas教程 weixin_39778393 pandas series 相加
Pandas简介-python数据分析library-基于numpy(对ndarray的操作)-有一种用python做Excel/SQL/R的感觉-为什么要学习pandas?-pandas和机器学习的关系，数据预处理，featureengineering。-pandas的DataFrame结构和大家在大数据部分见到的spark中的DataFrame非常类似。目录-numpy速成-Series-Da
2025届毕业设计选题参考，包含网站管理系统开发，微信小程序开发，APP开发，大数据分析，人工智能平姐设计计算机毕业设计选题清单微信小程序开发语言人工智能数据分析
网站开发选题：1、基于Java的企业食堂管理系统的设计与实现2、基于web的办公平台3、综合学工服务系统4、超市管理系统5、基于springboot的云笔记共享系统6、毕业生实习管理系统7、驾校预约管理系统8、基于Java的航空订票系统9、企业资源规划系统10、洗衣房预约管理系统的设计与实现11、桌面端有声小说12、基于Python的毕业生就业率分析管理系统的设计与实现13、基于VUE的富平县农产
十分钟了解大数据处理的五大关键技术及其应用 IT时代周刊 2019年5月大数据程序员编程语言 hadoop
其中主要工作环节包括：♦大数据采集、♦大数据预处理、♦大数据存储及管理、♦大数据分析及挖掘、♦大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。一、大数据采集技术数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取
【FL0091】基于SSM和微信小程序的社区二手物品交易小程序猿毕设小程序微信小程序 spring boot python 后端 java
‍博主介绍‍全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/知乎/b站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战，以及程序定制化开发、文档编写、答疑辅导等。精彩专栏推荐订阅计算机毕业设计精品项目案例（持续更新）文末获取源码+数据库+文档感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和学长沟
Java中的堆外内存：DirectByteBuffer与Unsafe 吴晓斌kobe Java学习 java 堆外内存 Unsafe
在Java中，堆内存（Heap）是JVM管理的内存区域，用于存储对象实例。然而，Java还支持使用堆外内存（Off-HeapMemory），即直接操作操作系统分配的内存。堆外内存的使用场景广泛，尤其是在需要高性能、低延迟的应用中，如网络通信、文件IO、大数据处理等。本文将深入探讨堆外内存的使用场景、性能优势及潜在风险，并通过代码实战展示如何使用DirectByteBuffer和Unsafe来操作堆
Python大数据可视化：基于Python的王者荣耀战队的数据分析系统设计与实现_flask+hadoop+spider m0_74823490 面试学习路线阿里巴巴 python flask hadoop
开发语言：Python框架：flaskPython版本：python3.7.7数据库：mysql5.7数据库工具：Navicat11开发软件：PyCharm系统展示管理员登录管理员功能界面比赛信息管理看板展示系统管理摘要本文使用Python与MYSQL技术搭建了一个王者荣耀战队的数据分析系统。对用户提出的功能进行合理分析，然后搭建开发平台以及配置计算机软硬件；通过对数据流图以及系统结构的设计，创建
汽车行业大数据应用的主要方向数据科学智慧大数据
汽车行业大数据应用的主要方向随着技术的不断发展和智能化的浪潮，大数据在汽车行业中的应用越来越广泛。下面将介绍汽车行业大数据应用的主要方向，并提供相关的源代码示例。智能驾驶与自动驾驶大数据在智能驾驶与自动驾驶技术中起着重要的作用。通过收集和分析大量的车载传感器数据、地图数据、交通状况数据等，可以实现实时的环境感知、路径规划和决策，从而提高驾驶安全性和效率。以下是一个简单的示例代码，展示了如何使用大数
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
Flink连接kerberos认证的hive 并使用table API lisacumt flink hive 大数据
有个问题flink的kerveros通过配置设置。但是HiveCatalog还需要再次使用UserGroupInformation再次认证。直接上代码：importcom.amihaiemil.eoyaml.*;importlombok.AllArgsConstructor;importlombok.Data;importlombok.NoArgsConstructor;importorg.apa
DataFlow 模型是什么？ Shockang 大数据理论体系大数据 big data
前言本文隶属于专栏《100个问题搞定大数据理论体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见100个问题搞定大数据理论体系正文WHY无界、无序、全球规模的数据集在日常业务中越来越常见（例如网络日志、移动使用统计和传感器网络）。与此同时，这些数据集的消费者已经进化出复杂的要求，例如事件时间排序和按数据本身的特征进行窗口，此外，他们贪得无
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他