lsy107816

Hive的介绍与使用

Hive介绍与使用

数据仓库的基本介绍

数据仓库的基本概念：

英文是datawarehourse数据仓库，主要用于存储数据和分析性报告以及决策支持，不会产生数据，也不会消费数据

数据仓库的主要特征：

面向主题：有确切的分析目标

集成性：相关的数据都会被放入数据仓库，便于下一步的分析

非易失性：数据一旦进入数据仓库不会轻易的改变

时变性：根据不同的需求，会产生一些不同的分析维度

数据库与数据仓库的区别：

数据库： OLTP 主要用于联机事务处理，实现业务数据库中的增删改查

数据仓库：OLAP 主要用于联机分析处理，实现对数据的分析查询，操作的都是历史数据，不会新增，也不会修改

数据仓库的分层：

分为三层：源数据层、数据仓库层、数据应用层

源数据层：贴源层 ODS层，主要用于获取源数据

数据仓库层：DW层，主要用于对贴源层的数据进行分析，得出想要的结果

数据应用层：APP层，主要用于对仓库层分析之后的结果进行进一步的展示

数据在各个层级之间流动的过程，称之为ETL过程（抽取Extra，转化Transfer，装载Load）的过程

数据仓库的元数据管理

主要用于记录数据库表之间的关系，数据库表字段的含义，还有一些数据处理的规则，数据装载的周期，数据导出的周期等

hive的基本介绍

hive是基于hadoop的一个数据仓库工具，可以将hdfs上的结构化数据映射成一张表，hive底层的数据存储使用的是hdfs，数据的统计计算时使用的MapReduce，可以将hive当作一个MapReduce的客户端工具，写的hql语句会被翻译成mapreduce程序去运行。

数据结构：结构化数据是指字段个数一定，字段之间的分隔符一定，半结构化数据是指xml，json这类，非结构化数据是指没有任何规律格式的数据。

hive特点：

扩展性：hadoop集群的可扩展

延展性：支持用户的自定义函数

容错性：良好的容错

hive的架构：

用户接口：编写sql语句，提交给hive

解析器：编译器，将我们的sql语句编译成一个mapreduce程序

优化器，将sql语句进行优化

执行器：提交mapreduce任务，执行

元数据库：hive的元数据包含了表与hdfs数据之间的映射关系，默认使用的时derby，一般改用mysql

hive的安装：

使用mysql作为元数据库存储（使用yum源进行安装）

#解压hive的安装包
cd /export/softwares
tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/
#在线安装mysql相关的软件包
yum install mysql mysql-server mysql-devel
#启动mysql服务
/etc/init.d/mysqld start
#通过mysql安装的自带脚本进行设置
/usr/bin/mysql_secure_installation
#1.没有root密码直接回车  2.设置root用户密码 3.移除匿名用户y
#4.是否远程访问 n  5.移除测试数据库 y 6.重新加载mysql y
#进入mysql的客户端进行授权
mysql -uroot -p
grant all privileges on *.* to 'root'@'%' identified by '123456' with grant option;
#刷新权限表
flush privileges;

修改hive的配置文件

修改hive-env.sh

cd /export/servers/hive-1.1.0-cdh5.14.0/conf
vim hive-site.xml

HADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0
# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/export/servers/hive-1.1.0-cdh5.14.0/conf

修改hive-site.xml

vim hive-site.xml



        
                javax.jdo.option.ConnectionURL
                jdbc:mysql://node03.hadoop.com:3306/hive?createDatabaseIfNotExist=true
        

        
                javax.jdo.option.ConnectionDriverName
                com.mysql.jdbc.Driver
        
        
                javax.jdo.option.ConnectionUserName
                root
        
        
                javax.jdo.option.ConnectionPassword
                123456
        
        
                hive.cli.print.current.db
                true
        
        
                hive.cli.print.header
                true
        
        
                hive.server2.thrift.bind.host
                node03.hadoop.com

上传mysql的lib驱动包

将mysql的lib驱动包上传到hive的lib目录下
cd /export/servers/hive-1.1.0-cdh5.14.0/lib
将mysql-connector-java-5.1.38.jar 上传到这个目录下

交互方式：

第一种：hive交互shell

bin/hive

第二种：hive JDBC服务

启动hiveserver2服务

前台启动

bin/hive --service hiveserver2

后台启动

nohup bin/hive --service hiveserver2  &

beeline连接hiveserver2

bin/beeline
beeline> !connect jdbc:hive2://node03.hadoop.com:10000

第三种：hive命令

使用 –e 参数来直接执行hql的语句

bin/hive -e "use myhive;select * from test;"

使用 –f 参数通过指定文本文件来执行hql的语句

vim hive.sql
use myhive;select * from test;

bin/hive -f hive.sql

Hive基本操作

创建数据库操作

创建数据库

create database if not exists myhive;
use myhive；

hive的库和表的存放位置由hive-site.xml当中的一个属性决定

hive.metastore.warehouse.dir
/user/hive/warehouse

创建数据库并指定hdfs的存储位置

 create database myhive2 location '/myhive2';

修改数据库

使用alter database 命令来修改数据库的一些属性，但是数据库的元数据信息是不可更改的，包括数据库的名称以及数据库所在的位置

alter database myhive2 set dbproperties('createtime'='201812');

查看数据库的基本信息

desc  database  myhive2;

查看数据库的更多详细信息

desc database extended myhive2;

删除数据库

删除一个空的数据库，如果数据库下有数据，就会报错，相应的文件也会被删除

drop database myhive2;

创建数据库表的语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
   [(col_name data_type [COMMENT col_comment], ...)] 
   [COMMENT table_comment] 
   [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
   [CLUSTERED BY (col_name, col_name, ...) 
   [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
   [ROW FORMAT row_format] 
   [STORED AS file_format] 
   [LOCATION hdfs_path]

每一行的解释：

1、创建表的三个关键字段

2、定义表的列名以及类型

3、注释信息，只能使用英文或者拼音

4、分区：这里的是hive的分区，分的是文件夹

5、分桶：按照字段进行划分文件

6、划分到多少个桶里去

7、指定字段之间的分隔符

8、指定数据的存储格式为哪一种

9、指定表在hdfs的哪个位置

hive中的表模型

hive建表时的字段类型

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types

（一）管理表（内部表）

建表:

use myhive;
create table stu(id int,name string);
insert into stu values (1,"zhangsan");
select * from stu;

创建表并指定字段之间的分隔符，指定文件存储格式，指定hdfs的存储位置

create table if not exists stu2(id int,name string) row format delimited fields terminated by '\t' sorted as textfile location '/user/stu2';

根据查询结果创建表：这种语法会将stu2里面的数据以及表结构都复制到stu3中

create table stu3 as select * from stu2;

根据已存在的表结构创建表：只复制表结构不复制数据

create table stu4 like stu2;

查询表的类型

desc formatted stu2；

（二）外部表

说明：外部表的数据都是指定hdfs文件的文件路径加载进来，外部表认为自己没有独享数据，所以删除外部表的时候，不会同步删除hdfs的数据，与内部表的特征相反，删除表的时候，不会删除表数据

创建学生和老师表，并向表中加载数据

#创建学生表
create external table techer (t_id string,t_name string) row format delimited fields terminated by '\t';
#创建老师表
create external table student (s_id string,s_name string,s_birth string , s_sex string ) row format delimited fields terminated by '\t';

从本地文件系统向表中加载数据

load data local inpath '/export/servers/hivedatas/student.csv' into table student;

加载数据并覆盖原有的数据

load data local inpath '/export/servers/hivedatas/student.csv' overwrite into table student;

从hdfs文件系统向表中加载数据（需要提前将数据上传到hdfs文件系统，相当于是移动文件的操作）

cd /export/servers/hivedatas
hdfs dfs -mkdir -p /hivedatas
hdfs dfs -put techer.csv /hivedatas/
#从hdfs系统上加载数据
load data inpath '/hivedatas/techer.csv' into table techer;

如果删除student表，hdfs的数据依然存在，并且重新创建表之后，就直接存在数据了，因为student表使用的是外部表，删除表之后数据依然保留在hdfs上

#删除教师表
drop table techer；
#查看教师表
show tables；
#去到数据的保存目录，可以发现/user/hive/warehouse/myhive.db/techer下还有techer.csv的数据
#再次创建教师表
create external table techer (t_id string,t_name string) row format delimited fields terminated by '\t';
#直接查看表 可以看到数据直接就能导入进去
select * from techer；

（三）分区表：

就是分文件夹，可以按照时间或者其他条件，创建一些文件夹关键词是partitioned by

创建一个分区的表

create table score (s_id string,c_id string,s_score int) partitioned by (month string) row format delimited fields terminated by '\t';

创建多个分区的表

create table score2(s_id string,c_id string,s_score int) partitioned by (year string,month string,day string) row format delimited fields terminated by '\t';

加载数据到分区

load data local inpath '/export/servers/hivedatas/score.csv' into table score partition (month = '201806');

加载数据到一个多分区的表中

load data local inpath '/export/servers/hivedatas/score.csv' into table score2 partition(year='2018',month='06',day='01');

查看表分区

show partitions score；

添加一个分区

alter table score add partition(month='201803');

同时添加多个分区

alter table score add partition(month='201804') partition(month = '201805');

在添加分区之后，就能在hdfs文件系统上看到表下面多了一个文件夹

删除分区

alter table score drop partition（month = '201803'）;

（四）分桶表

将数据按照指定的字段分到多个桶中去，也就是将数据按照字段进行划分，可以将数据按照字段划分到多个文件中去

在这之前需要开启hive的桶表功能，默认是关闭的

set hive.enforce.bucketing = true;
#设置reduce的个数
set mapreduce.job.reduces=3;

创建桶表

创建分桶表的语法关键字：clustered by (col_name) into xx buckets

create table course (c_id string,c_name string,t_id string) clustered by (c_id) into 3 buckets row format delimited fields terminated by '\t';

桶表的数据加载，只能通过insert overwrite来进行数据的加载

创建普通表，通过insert overwrite的方式来将普通表的数据通过查询的方式加载到桶表中

#创建普通表
create table course_common (c_id string,c_name string,t_id string) row format delimited fields terminated by '\t';
#普通表加载数据
load data local inpath '/export/servers/hivedatas/course.csv' into table course_common;
#通过insert overwrite 给桶表加载数据
insert overwrite table course select * from course_common cluster by (c_id);

修改表

表重命名

alter table score4 rename to score5;

增加/修改/删除列信息

#查询表结构
desc score5;
#添加列
alter table score5 add columns (mycol string,mysco string);
#更新列
alter table score5 change column mysco mysconew int;
#删除表
drop table score5；

hive表当中加载数据：

load data通过load的方式加载数据

 load data local inpath '/export/servers/hivedatas/score.csv' overwrite into table score partition(month='201806');

insert overwrite select
通过一张表，然后将查询结果插入到另外一张表里面去

insert overwrite table score4 partition(month='201802') select s_id ,c_id ,s_score from score;

通过查询语句查询某张表，并且将数据弄到另外一张表里面去

Hive参数配置方式

Hive参数大全：
https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties

对于一般参数，有三种设定方式

配置文件：

自定义的配置文件：hive-site.xml

默认的配置文件：hive-default.xml

用户自定义的配置会覆盖默认配置，此外，hive也会去读入Hadoop的配置，因为hive是作为Hadoop的客户端启动的，hive的配置会覆盖Hadoop的配置，配置文件对本机的所有hive进程都有效

命令行参数：

启动hive时，可以在命令行添加-hiveconf param=value来设定参数

参数声明：

可以在HQL中使用set关键字来设定

三种设定方式的优先级依次递增，参数声明>命令行参数>配置文件参数

hive函数

hive自带了一些函数，当不能满足需求时，需要我们自己自定义函数

官方文档地址：

https://cwiki.apache.org/confluence/display/Hive/HivePlugins

编程步骤：

1、继承org.apache.hadoop.hive.ql.UDF

2、需要实现evaluate函数，evaluate支持重载

注意点：

1、UDF必须要有返回值类型，可以返回null，但不能返回void

2、UDF中常用的时Text这样的类型，不推荐使用java类型

UDF开发实例

实现将一个字母字符串全部转换为大写

1、创建maven工程，打入jar包

<repositories>
    <repository>
        <id>cloudera</id>
 <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>2.6.0-cdh5.14.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-exec</artifactId>
        <version>1.1.0-cdh5.14.0</version>
    </dependency>
</dependencies>
<build>
<plugins>
    <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-compiler-plugin</artifactId>
        <version>3.0</version>
        <configuration>
            <source>1.8</source>
            <target>1.8</target>
            <encoding>UTF-8</encoding>
        </configuration>
    </plugin>
     <plugin>
         <groupId>org.apache.maven.plugins</groupId>
         <artifactId>maven-shade-plugin</artifactId>
         <version>2.2</version>
         <executions>
             <execution>
                 <phase>package</phase>
                 <goals>
                     <goal>shade</goal>
                 </goals>
                 <configuration>
                     <filters>
                         <filter>
                             <artifact>*:*</artifact>
                             <excludes>
                                 <exclude>META-INF/*.SF
                                 META-INF/*.DSA
                                 META-INF/*/RSA</exclude>
                             </excludes>
                         </filter>
                     </filters>
                 </configuration>
             </execution>
         </executions>
     </plugin>
</plugins>
</build>

2、编写java类继承UDF，并重载evaluate方法

public class ItcastUDF extends UDF {
    public Text evaluate(final Text s) {
        if (null == s) {
            return null;
        }
        //返回大写字母
        return new Text(s.toString().toUpperCase());
    }
}

3、将项目打包，并上传到hive的lib目录下添加jar包

cd /export/servers/hive-1.1.0-cdh5.14.0/lib
mv original-day_06_hive_udf-1.0-SNAPSHOT.jar udf.jar

4、hive的客户端添加jar包

add jar /export/servers/hive-1.1.0-cdh5.14.0/lib/udf.jar;

5、设置函数与自定义函数关联

create temporary function tolowercase as 'cn.lsy.udf.ItcastUDF';

6、使用自定义函数

select tolowercase（'abc'）

你可能感兴趣的:(大数据,hive)

从0开始使用Docker搭建Spark集群吃鱼的羊 SPARK Hadoop
https://www.jianshu.com/p/ee210190224f?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation最近在学习大数据技术，朋友叫我直接学习Spark，英雄不问出处，菜鸟不问对错，于是我就开始了Spark学习。为什么要在Docker上搭建Spark集群
Hive中文乱码解决方法快乐骑行^_^ 大数据大数据平台二次开发
Hive中文乱码解决方法一、Hive中文乱码原因二、Hive中文乱码解决方法三、修改hive配置文件四、再次查看表信息，中文注释正常一、Hive中文乱码原因hive的元数据是由mysql管理的，mysql默认编码是latin1，中文存储进去容易乱码，所以最好把mysql的编码改成utf-8二、Hive中文乱码解决方法需要把相应注释的地方的字符集由latin1改成utf-8，用到注释的就三个地方，表
Fink与Hadoop的简介以及联系 Bugkillers hadoop 大数据分布式
Fink和Hadoop是两个常用于大数据处理的开源工具，它们可以搭配使用以构建高效的数据处理系统。一、Fink和Hadoop的关系Fink：1、Fink是一个分布式流处理框架，专注于实时数据处理。它支持高吞吐、低延迟的流处理，适用于实时分析、事件驱动应用等场景。2、Fink提供精确一次（exactly-once）语义，确保数据处理的准确性。Hadoop：1、Hadoop是一个分布式存储和批处理框架
Windows环境下构建本地多节点Elasticsearch集群静谧星光c windows elasticsearch jenkins 大数据
Windows环境下构建本地多节点Elasticsearch集群在大数据领域，Elasticsearch是一个经常使用的分布式搜索和分析引擎。本文将介绍如何在Windows操作系统下搭建一个本地的多节点Elasticsearch集群。通过搭建本地集群，我们可以在单一系统上模拟出多个节点，从而加深对Elasticsearch集群内工作原理的理解。准备工作首先，确保你的系统已经安装了Java开发环境（
Hbase深入浅出天才之上数据存储 Hbase 大数据存储
目录HBase在大数据生态圈中的位置HBase与传统关系数据库的区别HBase相关的模块以及HBase表格的特性HBase的使用建议Phoenix的使用总结HBase在大数据生态圈中的位置提到大数据的存储，大多数人首先联想到的是Hadoop和Hadoop中的HDFS模块。大家熟知的Spark、以及Hadoop的MapReduce，可以理解为一种计算框架。而HDFS，我们可以认为是为计算框架服务的存
如何在Java中设计大规模稀疏数据处理架构省赚客app开发者 java 架构开发语言
如何在Java中设计大规模稀疏数据处理架构大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在大数据时代，稀疏数据在各个领域变得越来越常见，例如推荐系统、自然语言处理、图像处理等。稀疏数据通常包含大量零值或空值，直接使用传统的数据处理架构可能导致效率低下，内存和计算资源浪费。因此，设计一个高效的稀疏数据处理架构成为Java开发者面临的关键挑战。本文将探讨如何在Java中
程序员如何将技术咨询服务转化为SaaS产品 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
引言与概述在当今快速发展的数字化时代，软件即服务（SaaS）已经成为企业服务市场的重要趋势。随着云计算和大数据技术的普及，越来越多的企业开始将传统的技术咨询服务转化为SaaS产品，以提供更加灵活、可扩展的服务。这不仅为企业带来了新的增长点，也极大地改变了技术服务行业的发展格局。SaaS市场的增长趋势SaaS市场呈现出快速增长的态势，根据市场研究机构的预测，全球SaaS市场的规模将在未来几年内持续扩
[1138]基于JAVA的安全监管网络人员信息智慧管理系统的设计与实现阿鑫学长【毕设工场】 java 网络开发语言课程设计毕业设计
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的安全监管网络人员信息智慧管理系统的设计与实现指导老师（一）选题的背景和意义选题背景与意义：随着信息技术的飞速发展和大数据时代的到来，安全监管网络人员信息管理面临着前所未有的挑战与机遇。当前，执法人员、监督员以及各类从业人员的信息档案管理工作日益繁重，传统的人工管理模式效率低下、易出错且难以满足实时更新、精准查询的需求。特别是在复杂的执法环
在Hadoop集群中实现数据安全：技术与策略并行 Echo_Wish 实战高阶大数据 hadoop 大数据分布式
在Hadoop集群中实现数据安全：技术与策略并行随着大数据技术的广泛应用，Hadoop已经成为处理和存储海量数据的首选平台。然而，随着数据规模的扩大，如何确保Hadoop集群中的数据安全也成为了亟待解决的难题。毕竟，数据安全不仅关系到企业的隐私保护，也直接影响到数据的可信度与可用性。本文将探讨如何在Hadoop集群中实现数据安全，分析数据加密、访问控制、审计日志等方面的技术与策略，并通过一些具体的
什么是GaussDB 如清风一般 gaussdb
什么是GaussDB简介GaussDB是华为自主创新研发的分布式关系型数据库。该产品具备企业级复杂事务混合负载能力，同时支持分布式事务，同城跨AZ部署，数据0丢失，支持1000+的扩展能力，PB级海量存储。同时拥有云上高可用，高可靠，高安全，弹性伸缩，一键部署，快速备份恢复，监控告警等关键能力，能为企业提供功能全面，稳定可靠，扩展性强，性能优越的企业级数据库服务。应用场景交易型应用大并发、大数据量
hive建表语句增加字段、分区基础操作节点。csn 数据库 #hive hive hadoop big data
目录hive建表内部分区表外部分区表表结构复制：hive表删除hive表重命名表修改操作增加分区修改分区删除分区新增表字段hive建表IFNOTEXISTS:表不存在才会创建分隔符：field.delim是表的两个列字段之间的文件中的字段分隔符.serialization.format是文件序列化时表中两个列字段之间的文件中的字段分隔符.分区partition:创建表时可指定分区字段，多个分区字段
《传统教培机构的痛点：数字化转型如何破局？》
数字化浪潮下的困境在当今时代，数字化浪潮正以前所未有的速度席卷全球，深刻地改变着人们的生活、工作和学习方式。这是一个数据爆炸的时代，数据成为了驱动社会发展的核心要素之一。据统计，全球每天产生的数据量高达数万亿字节，这些数据涵盖了人们生活的方方面面，从购物习惯到社交行为，从健康状况到学习偏好，都被数字化记录下来。[]()数字化时代的技术创新日新月异，人工智能、大数据、云计算、物联网等新兴技术不断涌现
Hive JOIN过滤条件位置玄学：ON vs WHERE的量子纠缠数据大包哥大数据 #Hive #大厂SQL面试指南 hive hadoop 数据仓库
HiveJOIN过滤条件位置玄学：ONvsWHERE的量子纠缠作为数据工程师，HiveJOIN就像吃火锅选蘸料——放错位置味道全变！今天带你破解字节/阿里等大厂高频面试题：ON和WHERE后的过滤条件究竟有什么不同？一、核心差异对比表特性ON子句WHERE子句执行时机JOIN操作时JOIN完成后影响范围单表过滤（左右表独立）两表JOIN后的结果集NULL值处理保留未匹配的主表记录过滤掉所有不满足条
Aerospike 小的~~ nosql Aerospike
文章来源：拉勾教育Java高薪训练营第3期Aerospike介绍Aerospike（简称AS）是一个分布式，可扩展的键值存储的NoSQL数据库。T级别大数据高并发的结构化数据存储读写操作达微妙级，99%的响应可在1毫秒内实现采用混合架构，索引存储在内存中，而数据可存储在机械硬盘(HDD)或固态硬盘(SSD)上（也可存储在内存）AS内部在访问SSD屏蔽了文件系统层级，直接访问地址，保证了数据的读取速
mysql 原理_mysql底层原理高傲的大白杨 mysql 原理
一：MySql架构1.一条sql语句如何执行的：mysql5.7查询缓存默认关闭，mysql8缓存已被移除。存储引擎对比：MySIAM：表级锁定，不支持事务，已读为主InnoDB：支持事务，支持外键，支持行级别和表级别的锁定，B+索引，效率高Memory：内存存储。Archive：用于存储和检索大量很少引用的历史、存档、安全审计信息，不支持事务。mysql架构局部性原理：读取磁盘的数据，它附近的数
6个大数据应用案例雪兽软件科技前沿大数据
根据市场数据预测报告，到2026年，全球大数据市场可能达到2684亿美元。随着大数据市场的快速增长，组织正在利用大数据来获得洞察力，帮助他们做出更好的决策，改善运营，最终推动最佳增长。从医疗保健到金融，从零售到电信，大数据正被用于改变行业的运作方式，使企业能够创造新的收入来源，增强客户体验，提高运营效率。这个全面的博客将探索令人兴奋的大数据用例领域，探索商业组织如何利用数据获得洞察力，推动创新，并
Java 大视界 -- Java 大数据在智能体育中的应用与赛事分析（80）青云交大数据新视界 Java 大视界 java 大数据智能体育数据采集运动员训练赛事分析赛事预测
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- Java 大数据在智能供应链中的应用与优化（76）青云交大数据新视界 Java 大视界大数据智能供应链数据采集整合数据存储管理需求预测物流调度风险管理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
基于 GBase 数据库的海量数据处理与性能优化 big crab 数据库 oracle
一、引言随着大数据时代的到来，海量数据的存储和高效处理成为各行业的核心需求。GBase系列数据库（包括GBase8a、GBase8s和GBase8c）以其强大的性能、灵活的存储架构以及高效的查询优化功能，成为处理大规模数据的理想选择。本文将从GBase数据库的特性出发，探讨如何在实际应用中进行海量数据的高效处理，同时提供相关代码示例，帮助开发者更好地理解和应用GBase数据库。二、GBase数据库
GBase 8a慢SQL优化案例-2 通过分析函数改写不等值关联排序取值 dudulang8088 sql 数据库数据仓库
某气象现场一条查询语句，大数据场景下，单个机构查询耗时5分钟以上，需要分析，SQL语句如下：SELECTt.station_no,t.collect_time_stamp,t.r2020,t.topFROM(SELECTt1.station_no,t1.collect_time_stamp,t1.r2020,(SELECTCOUNT(*)+1FROM(SELECTstation_no,--站点编号
数据驱动业务增长，E-MapReduce 真实案例解析 Anna_Tong mapreduce 大数据云计算数据分析阿里云实时计算数据驱动
在大数据时代，数据已经成为企业核心竞争力的关键因素之一。无论是电商、金融、物流还是制造业，企业都在探索如何更高效地处理、分析和利用海量数据，以实现精准决策、优化运营并提升业务增长。然而，面对PB级甚至EB级的数据规模，传统的本地大数据计算架构往往难以满足性能和成本的要求。如何在保证计算效率的同时降低运维成本，成为企业数据战略中的关键挑战。阿里云E-MapReduce（EMR）作为一款云原生的大数据
GBase 数据库的高性能架构与优化实践 big crab 数据库架构
引言随着信息技术的快速发展，数据库作为支撑各行各业数据存储和处理的核心技术之一，承担着越来越重要的角色。在现代企业中，大数据量、复杂查询和高并发处理已成为普遍需求。GBase数据库作为国内领先的数据库产品之一，提供了卓越的性能和灵活的架构设计，能够高效处理复杂的事务、分析查询和海量数据。本文将探讨GBase数据库的高性能架构，并结合实际案例展示其优化实践。一、GBase数据库架构概述GBase数据
大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统_bert+lstm 2301_76348014 程序员深度学习大数据知识图谱
文章目录大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统一、项目概述二、系统实现基本流程三、项目工具所用的版本号四、所需要软件的安装和使用五、开发技术简介Django技术介绍Neo4j数据库Bootstrap4框架Echarts简介NavicatPremium15简介Layui简介Python语言介绍MySQL数据库深度学习六、核心理论贪心算法A
python编译成dll文件_Python 调用DLL文件 weixin_39682511 python编译成dll文件
http://blog.csdn.net/magictong/archive/2008/10/14/3075478.aspx貌似原文的网页服务器有问题，总是load不全，所以备个份：Python调用windows下DLL详解在python中某些时候需要C做效率上的补充，在实际应用中，需要做部分数据的交互。使用python中的ctypes模块可以很方便的调用windows的dll（也包括linux下
大数据专业毕业设计选题118例：数据挖掘数据分析可视化 HaiLang_IT 毕设选题教程毕业设计大数据数据挖掘
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
大数据之-hdfs+hive+hbase+kudu+presto集群(6节点) 管哥的运维私房菜大数据 hdfs hive kudu presto hbase
几个主要软件的下载地址：prestohttps://prestosql.io/docs/current/index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/hdfshttp://archive.apache.org/dist/ha
使用Docker搭建Flink集群 O_1CxH Flink大数据 Kafka大数据 docker flink 容器
目录使用Docker搭建Flink集群docker-compose一键搭建步骤附录参考资料使用Docker搭建Flink集群在学习大数据框架的时候，需要一个真实的环境。我们知道，像spark、flink这些计算框架都有多种运行模式：在本地使用多线程模拟集群真正的分布式集群如果直接在IDE（Intellj）里面编译和运行写好的程序，实际上是用的前一种运行模式；如果想尝试真正的生产环境中任务的提交和管
国家网络安全宣传周 | 2024年网络安全领域重大政策法规一览网安加社区安全网络安全政策法规
随着我国网络安全政策法规不断健全，网络安全工作机制也日渐成熟，各项工作已稳步步入法治化的轨道，与此同时，网络安全标准体系逐步清晰，安全防线日益坚固，为国家的网络安全建设提供了坚实的基础。网安加社区特为大家整理了2024年国内发布的网络安全领域相关政策法规，希望能为广大从业者与关注者提供相关参考，共同促进网络安全生态的健康发展。2024年网络安全重大政策法规一览◉1.《旅游大数据安全与隐私保护要求（
高可用（HA）架构 weixin_34344403 运维系统架构 java
http://aokunsang.iteye.com/blog/2053719浅谈web应用的负载均衡、集群、高可用(HA)解决方案http://zhuanlan.51cto.com/art/201612/524201.htm互联网架构“高可用”http://www.blogjava.net/ivanwan/archive/2013/12/25/408014.htmlLVS/Nginx/HAPro
【计算机毕设选题】2025计算机毕业设计选题推荐-高通过率选题指南（二）计算机YiDian 计算机毕设实战案例毕业设计选题/开题源码计算机毕业设计选题毕业设计选题计算机毕设选题计算机毕业设计
计算机毕业设计作为大学生涯的收官之作，承载着对学生专业技能、创新思维及实践能力的全面考验。随着信息技术的飞速发展，计算机毕业设计的形式也日益多样化，从传统的网站（Web）开发到新兴的小程序、APP构建，再到大数据分析与处理，每一种形式都代表着不同的技术挑战与实现路径。本文旨在探讨这些多样化的毕业设计形式及其背后的技术支撑，为即将踏上毕业设计征程的学子们提供一份详实的参考指南，对毕设开发需要帮助，以
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc