bingoabin

hive

一、伪分布式

当我们按照hadoop伪分布式集群搭建博客搭建了hadoop以后，发现这是一个空的hadoop，只有YARN，MapReduce，HDFS，而这些实际上我们一般不会直接使用，而是需要另外部署Hadoop的其他组件，来辅助使用。比如我们把数据存储到了hdfs，都是文件格式，用起来肯定不方便，用HIVE把数据从HDFS映射成表结构，直接用sql语句即可操作数据。另外针对分布式数据计算算法MapReduce，需要直接写MapReduce程序，比较复杂，此时使用Hive，就可以通过写SQL语句，来实现MapReduce的功能实现。

操作步骤

1. 安装mysql

安装mysql，配置远程登录，具体参考mysql章节
并配置可以远程登录mysql

2. 下载hive2.1并解压配置环境变量

下载hive2.1

解压到opt目录下，更换目录为hive-2.1.1
 # tar zxvf apache-hive-2.1.1-bin.tar.gz
 # mv apache-hive-2.1.1-bin hive-2.1.1

配制系统环境变量：

 # vim /etc/profile

export HADOOP_HOME=/usr/local/hadoop-2.6.0
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native
export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib"
export HIVE_HOME=/opt/hive-2.1.1
export HIVE_CONF_DIR=${HIVE_HOME}/conf
export JAVA_HOME=/opt/jdk1.7.0_79
export PATH=.:$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$PATH

保存后，使配制生效：

  # source /etc/profile

3. 修改hive-env.sh文件

修改hive-env.sh文件，在文件底部增加以下环境变量：

 # cd /opt/hive-2.1.1/conf
 # cp hive-env.sh.template hive-env.sh

 # vim hive-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_79
export HIVE_HOME=/opt/hive-2.1.1
export HIVE_CONF_DIR=/opt/hive-2.1.1/conf
export HIVE_AUX_JARS_PATH=/opt/hive-2.1.1/lib
export HADOOP_HOME=/opt/hadoop-2.6.0

4. 修改hive-site.xml文件

4.1 修改hive-site.xml文件，并将所有的${system:java.io.tmpdir}替换为绝对路径：

 # cp hive-default.xml.template hive-site.xml
 # vim hive-site.xml 

由于在该配置文件中有如下两个配置项注明了hive在HDFS中数据存储的目录，因此我们需要在HDFS上手动创建并赋权限，也就是需要在hdfs上创建/tmp/hive 和/user/hive/warehouse

 # hadoop fs -mkdir -p /user/hive/warehouse
 # hadoop fs -chmod -R 777 /user/hive/warehouse #递归赋予读写权限 
 # hadoop fs -mkdir -p /tmp/hive/ #创建/tmp/hive/目录  
 # hadoop fs -chmod -R 777 /tmp/hive #目录赋予读写权限

   
  hive.exec.local.scratchdir  
  ${system:java.io.tmpdir}/${system:user.name}  
  Local scratch space for Hive jobs  
 
 
  
  hive.downloaded.resources.dir  
 ${system:java.io.tmpdir}/${hive.session.id}_resources
  Temporary local directory for added resources in the remote file system.  
  
  
  
  hive.querylog.location  
  ${system:java.io.tmpdir}/${system:user.name}  
  Location of Hive run time structured log file  
  

   
  hive.server2.logging.operation.log.location  
  ${system:java.io.tmpdir}/${system:user.name}/operation_logs  
  Top level directory where operation logs are stored if logging functionality is enabled

替换后：

   
  hive.exec.local.scratchdir  
  /opt/hive-2.1.1/tmp/  
  Local scratch space for Hive jobs  
  

  
  hive.downloaded.resources.dir  
  /opt/hive-2.1.1/tmp/${hive.session.id}_resources  
  Temporary local directory for added resources in the remote file system.  
  

  
  hive.querylog.location  
  /opt/hive-2.1.1/tmp/  
  Location of Hive run time structured log file  
  

  
  hive.server2.logging.operation.log.location  
  /opt/hive-2.1.1/tmp/root/operation_logs  
  Top level directory where operation logs are stored if logging functionality is enabled

4.2 修改hive-site.xml文件，修改文件中的元数据的连接，驱动，用户名，密码

hive-site.xml中相关元数据信息配制：
javax.jdo.option.ConnectionDriverName，将对应的value修改为MySQL驱动类路径；
javax.jdo.option.ConnectionURL，将对应的value修改为MySQL的地址；
javax.jdo.option.ConnectionUserName，将对应的value修改为MySQL数据库登录名;
javax.jdo.option.ConnectionPassword，将对应的value修改为MySQL数据库的登录密码：

    
    javax.jdo.option.ConnectionDriverName  
    com.mysql.jdbc.Driver  
    Driver class name for a JDBC metastore
   

  
    javax.jdo.option.ConnectionURL
    jdbc:mysql://192.168.208.110:3306/hive?createDatabaseIfNotExist=true
    
      JDBC connect string for a JDBC metastore.
      To use SSL to encrypt/authenticate the connection, provide database-specific SSL flag in the connection URL.
      For example, jdbc:postgresql://myhost/db?ssl=true for postgres database.
    
  
 
  
    javax.jdo.option.ConnectionUserName
    root
    Username to use against metastore database
   

  
    javax.jdo.option.ConnectionPassword
    11111
    password to use against metastore database

将MySQL驱动包添加到Hive的lib目录下：mysql-connector-java-5.1.38-bin.jar

5. hive的启动及测试：

对hive元数据初始化（mysql中hive元信息初始化、建表等）：

 # schematool -initSchema -dbType mysql
 # hive

6. 注意

注：如果要用beeline -u jdbc:hive2://ip:10000进行连接，需要修改hdfs的core-site.xml配置


    hadoop.proxyuser.root.hosts
    *


    hadoop.proxyuser.root.groups
    *


# 备注：hadoop.proxyuser.XXX.hosts 与 hadoop.proxyuser.XXX.groups 中XXX为异常信息中User:* 中的用户名部分,这里用户名都是root，所以hdfs的core-site.xml中的标签名为hadoop.proxyuser.root.hosts与hadoop.proxyuser.root.groups

二、分布式

当我们按照hadoop完全分布式集群搭建博客搭建了hadoop以后，发现这是一个空的hadoop，只有YARN，MapReduce，HDFS，而这些实际上我们一般不会直接使用，而是需要另外部署Hadoop的其他组件，来辅助使用。比如我们把数据存储到了hdfs，都是文件格式，用起来肯定不方便，用HIVE把数据从HDFS映射成表结构，直接用sql语句即可操作数据。另外针对分布式数据计算算法MapReduce，需要直接写MapReduce程序，比较复杂，此时使用Hive，就可以通过写SQL语句，来实现MapReduce的功能实现。

操作步骤

注意：首先需要注意的是让Hadoop完全分布式环境跑起来，然后只需要在namenode节点安装hive即可！

1. hive包下载

hive2.1.1下载地址

2. 解压缩配置环境变量

   # cd /opt                                     # hive包的目录放到服务器的opt目录下 
   # tar -xzvf apache-hive-2.1.1-bin.tar.gz             # 将压缩包进行解压  
   # mv apache-hive-2.1.1-bin hive2.1.1                  #更换hive的目录名为hive2.1.1

 # vim /etc/profile               # 修改环境变量配置文件
    
    export JAVA_HOME=/opt/jdk1.8
    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    export PATH=$PATH:$JAVA_HOME/bin

    export HADOOP_HOME=/opt/hadoop2.6.0
    export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

    export HIVE_HOME=/opt/hive2.1.1
    export HIVE_CONF_DIR=$HIVE_HOME/conf
    export CLASSPATH=.:$HIVE_HOME/lib:$CLASSPATH
    export PATH=$PATH:$HIVE_HOME/bin

# source /etc/profile #使配置生效

3. 修改Hive配置

3.1 生成 hive-site.xml配置文件

 # cd /opt/hive2.1.1/conf/
 # cp hive-default.xml.template hive-site.xml

3.2 创建HDFS目录

注意：我们需要在HDFS创建/user/hive/warehouse，/tmp/hive这两个目录，因为在修改hive-site.xml配置文件的时候需要使用该目录！

 # hdfs dfs -mkdir -p /user/hive/warehouse         # 创建warehouse目录
 # hdfs dfs -chmod 777 /user/hive/warehouse        # 给warehouse目录进行赋权

 # hdfs dfs -mkdir -p /tmp/hive/                   # 创建warehouse目录
 # hdfs dfs -chmod 777 /tmp/hive                   # 给warehouse目录进行赋权

3.3 修改hive-site.xml文件中的临时目录

将${system:java.io.tmpdir}全部替换为/opt/hive2.1.1/tmp/【该目录需要自己手动建】，将${system:user.name}都替换为root

   
  hive.exec.local.scratchdir  
  ${system:java.io.tmpdir}/${system:user.name}  
  Local scratch space for Hive jobs  
  

   
  hive.downloaded.resources.dir  
  ${system:java.io.tmpdir}/${hive.session.id}_resources
  Temporary local directory for added resources in the remote file system.  
   

   
  hive.querylog.location  
  ${system:java.io.tmpdir}/${system:user.name}  
  Location of Hive run time structured log file  
   

   
  hive.server2.logging.operation.log.location  
  ${system:java.io.tmpdir}/${system:user.name}/operation_logs  
  Top level directory where operation logs are stored if logging functionality is enabled

替换后

   
  hive.exec.local.scratchdir  
  /opt/hive2.1.1/tmp/root  
  Local scratch space for Hive jobs  
   

   
  hive.downloaded.resources.dir  
  /opt/hive2.1.1/tmp/${hive.session.id}_resources  
  Temporary local directory for added resources in the remote file system.  
   

   
  hive.querylog.location  
  /opt/hive2.1.1/tmp/root  
  Location of Hive run time structured log file  
   

   
  hive.server2.logging.operation.log.location  
  /opt/hive2.1.1/tmp/root/operation_logs  
  Top level directory where operation logs are stored if logging functionality is enabled

3.4 修改hive-site.xml文件，修改文件中的元数据的连接，驱动，用户名，密码

hive-site.xml中相关元数据信息配制：
javax.jdo.option.ConnectionDriverName，将对应的value修改为MySQL驱动类路径；
javax.jdo.option.ConnectionURL，将对应的value修改为MySQL的地址；
javax.jdo.option.ConnectionUserName，将对应的value修改为MySQL数据库登录名;
javax.jdo.option.ConnectionPassword，将对应的value修改为MySQL数据库的登录密码：

    
    javax.jdo.option.ConnectionDriverName  
    com.mysql.jdbc.Driver  
    Driver class name for a JDBC metastore
   

  
    javax.jdo.option.ConnectionURL
    jdbc:mysql://192.168.210.70:3306/hive?createDatabaseIfNotExist=true
    
      JDBC connect string for a JDBC metastore.
      To use SSL to encrypt/authenticate the connection, provide database-specific SSL flag in the connection URL.
      For example, jdbc:postgresql://myhost/db?ssl=true for postgres database.
    
  

  
    javax.jdo.option.ConnectionUserName
    root
    Username to use against metastore database
   

  
    javax.jdo.option.ConnectionPassword
    11111
    password to use against metastore database
  

         
    hive.metastore.schema.verification      
    false        
            Enforce metastore schema version consistency.        True: Verify that version information stored in metastore matches with one from Hive jars.  Also disable automatic              schema migration attempt. Users are required to manully migrate schema after Hive upgrade which ensures              proper metastore schema migration. (Default)        False: Warn if the version information stored in metastore doesn't match with one from in Hive jars.

3.5 下载mysql驱动，并上传到hive中

mysql驱动下载地址

下载后，上传到/opt/hive2.1.1/lib目录下

3.6 修改hive-env.sh文件

 # cd /opt/hive2.1.1/conf
 # cp hive-env.sh.template hive-env.sh
 
 打开hive-env.sh配置并且添加以下内容：

export  HADOOP_HOME=/opt/hadoop2.6.0
export  HIVE_CONF_DIR=/opt/hive2.1.1/conf
export  HIVE_AUX_JARS_PATH=/opt/hive2.1.1/lib

4. 启动hive

  # cd /opt/hive2.1.1/bin      
  # schematool -initSchema -dbType mysql           # 对数据库进行初始化

三、beeline

当在伪分布式hadoop2.6.0集群中，部署添加了hive2.1.1后，发现输入hive命令，可以进行连接hive，但是用beeline连接连不上。如果用beeline连不上，那就不能通过jdbc来操作hive数据仓库了，这样就影响使用，比较麻烦，下面提供解决办法！

操作步骤

如果要用beeline -u jdbc:hive2://ip:10000进行连接hive，需要修改hdfs的core-site.xml配置


    hadoop.proxyuser.root.hosts
    *


    hadoop.proxyuser.root.groups
    *

*备注：hadoop.proxyuser.XXX.hosts 与 hadoop.proxyuser.XXX.groups 中XXX为异常信息中User:中的用户名部分,这里用户名都是root，所以hdfs的core-site.xml中的标签名为hadoop.proxyuser.root.hosts与hadoop.proxyuser.root.groups

beeline 的连接和关闭

Hive安装后的初始化

   #cd /opt/hive2.1.1/bin      
   #schematool -initSchema -dbType mysql           # 对数据库进行初始化

此时hive命令即可使用，但是如果想要通过beeline进行连接。

使用beeline连接

Error: Could not open client transport with JDBC Uri: jdbc:hive2://192.168.159.131:10000: java.net.ConnectException: Connection refused (state=08S01,code=0)
       这个是因为hive中的hiveServer2没有启动起来,启动的命令是: hive --service hiveserver2

需要启动hiveserver2服务

nohup hive --service hiveserver2 &
ps -aux| grep hiveserver2

beeline -u jdbc:hive2://192.168.186.55:10000/default

四、hql

当在伪分布式集群上，搭建部署了hive以后，发现hive无法执行带where语句的sql，那hive将无法使用，下面介绍解决该问题的方案！

操作步骤

hive连接执行sql，可以执行带where语句的sql，但是采用beeline连接，无法执行带where的sql语句，报could not initialize calss org.apache.hadoop.hive.ql.optimizer.calcite.translator.SqlFunctionConverter

解决方案：
在/etc/profile中加入配置：

export HIVE_AUX_JARS_PATH=/opt/hive-2.1.1/lib

五、内存溢出

搭建了hadoop伪分布式集群，并且在其上搭建了hive环境，但是在执行HQL语句的时候，老是报内存溢出，很麻烦，只需要简单设置，就可以解决该问题。

操作方案

运行程序过程中，报内存溢出：java.sql.SQLException: Error running query: java.lang.OutOfMemoryError: PermGen space

解决方案：
在/opt/hive-2.1.1/conf/hive-env.sh

export HADOOP_HEAPSIZE=102400

六、元数据

搭建了hadoop伪分布式集群，并且在其上搭建了hive环境，hive运行报HiveMetaStoreClient错误。

解决办法

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient

修改hive-site.xml，将value修改为false即可！

         
    hive.metastore.schema.verification      
    false        
            Enforce metastore schema version consistency.        True: Verify that version information stored in metastore matches with one from Hive jars.  Also disable automatic              schema migration attempt. Users are required to manully migrate schema after Hive upgrade which ensures              proper metastore schema migration. (Default)        False: Warn if the version information stored in metastore doesn't match with one from in Hive jars.

七、demo

代码实例

package oa.epoint.com.hive;

import java.io.UnsupportedEncodingException;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;

public class HiveTest {
	private static String driveName = "org.apache.hive.jdbc.HiveDriver";
	private static String url = "jdbc:hive2://100.2.5.2:10000/default";
//	private static String url = "jdbc:hive2://192.168.1.131:10000/test";
	private static String user = "hdfs";
	private static String passwd = "d010";
	private static String sql = "";
	private static String sql1 = "";
	private static ResultSet res;

	public static void main(String[] args) {
		Connection con = null;
		Statement stm = null;

		try {
			con = getConnection();
			stm = con.createStatement();

			String tableName = "stu2";
			dropTable(stm, tableName);
			createTable(stm, tableName);
			selectData(stm, tableName);
		} catch (ClassNotFoundException e) {
			e.printStackTrace();
			System.out.println(driveName + " not found! ");
			System.out.println(e.getMessage());
		} catch (SQLException e1) {
			e1.printStackTrace();
			System.out.println("connection error! ");
			System.out.println(e1.getMessage());
		} finally {
			try {
				if (res != null) {
					res.close();
					res = null;
				}
				if (stm != null) {
					stm.close();
					stm = null;
				}
				if (con != null) {
					con.close();
					con = null;
				}
			} catch (SQLException e2) {
				e2.printStackTrace();
				System.out.println("close connection or statement error! ");
				System.out.println(e2.getMessage());
			}
		}
	}

	private static Connection getConnection() throws ClassNotFoundException, SQLException {
		Class.forName(driveName);
		Connection con = DriverManager.getConnection(url, user, passwd);
		System.out.println("connection success!");
		return con;
	}

	private static void dropTable(Statement stm, String tableName) throws SQLException {
		sql = "drop table if exists " + tableName;
		System.out.println("Running:" + sql);
		stm.executeUpdate(sql);
	}

	private static void createTable(Statement stm, String tableName) throws SQLException {
		sql = "create table if not exists " + tableName + " (stuid string, name string, sex string, age int) clustered by (stuid) into 2 buckets STORED AS ORC";
		System.out.println("Running:" + sql);
		stm.executeUpdate(sql);
		sql1 = "insert into "+tableName+"(stuid,name,sex,age) values ('1001','xubin1','man',25),('1002','xubin2','man',26),('1003','xubin3','man',27),('1004','xubin4','man',28)";
		stm.executeUpdate(sql1);
		String id,name,gender,num;
		try {
			id = new String("1001".getBytes(),"iso8859-1");
			name = new String("徐彬1".getBytes(),"iso8859-1");
			gender = new String("男".getBytes(),"iso8859-1");
			num = "25";
			sql1 = "insert into stu1 values('$ID','$NAME','$GENDER',$NUM)";
			stm.execute(sql1.replace("$ID", id).replace("$NAME", name).replace("$GENDER", gender).replace("$NUM", num));
		} catch (UnsupportedEncodingException e) {
			e.printStackTrace();
		}
		
	}

	private static void selectData(Statement stm, String tableName) throws SQLException {
		sql = "select * from " + tableName;
		System.out.println("Running:" + sql);
		res = stm.executeQuery(sql);
		while (res.next()) {  
            String uid = res.getString(1);  
            String ufname = res.getString(2);  
            String ulname = res.getString(3);  
            String udate = res.getString(4);  
            System.out.println(uid + "\t" + ufname + "\t" + ulname + "\t" + udate );  
        }
	}
	


}

beeline -u jdbc:hive2://ip:10000/default -n user -p passwd

beeline

!connect jdbc:hive2://ip:10010/default

vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
KaiwuDB X 济南大数据局：构建城市级重点车辆智慧监管中枢数据库
项目背景2022年2月14日，交通运输部联合多部门对《道路运输车辆动态监督管理办法》进行重要修订。新规突出"科技强监"理念，明确要求各级管理机构依托智能监管平台构建常态化监管机制：一方面强化对重点营运车辆的动态监测，另一方面建立事故预防预警体系。这一政策不仅为城市重点车辆监管提供了权威的政策指引，更在全国范围内掀起了监管平台智能化升级的热潮。作为城市治理的中枢部门，济南市大数据局肩负着重点车辆监管
Docker容器如何实现分布式微服务：从0到1的深度解析 cda2024 docker 分布式微服务
在当今云计算和大数据时代，企业面临的最大挑战之一是如何快速、稳定地部署和管理复杂的软件应用。传统的单体架构已难以满足现代互联网应用的需求，而分布式微服务架构成为了解决这一难题的关键。但问题随之而来：如何高效地构建和管理分布式微服务？Docker容器技术的出现为这个问题带来了新的曙光。它不仅简化了应用程序的打包和部署过程，还为微服务架构提供了强大的支持。本文将深入探讨Docker容器如何实现分布式微
2025年7月-9月广深地区学术会议征稿邀稿 | 2025年7-9月广州学术会议、深圳学术会议参会投稿 | 广深参会 EI 检索会议推荐 | 期待在广东与您相见，共襄学术盛举！
会议名称【点击会议名称查看详情】会议时间会议地点第四届能源与电力系统国际学术会议(ICEEPS2025)2025年7月17-19日广州第七届电子与通信，网络与计算机技术国际学术会议（ECNCT2025）2025年7月18-20日广州2025年人工智能与基础模型国际学术会议（AIFM2025）2025年7月18-20日广州第六届经济管理与大数据应用国际学术会议(ICEMBDA2025)2025年7月
Python爬企查查网站数据的爬虫代码如何写？ cda2024 python 爬虫开发语言
在大数据时代，数据的获取与分析变得尤为重要。企业信息查询平台“企查查”作为国内领先的企业信用信息查询工具，提供了丰富的企业数据资源。对于数据科学家和工程师而言，能够从这些平台高效地抓取数据，无疑是一项重要的技能。本文将详细介绍如何使用Python编写爬虫代码，从企查查网站抓取企业数据，并探讨其中的技术难点和解决方案。为什么选择Python？Python是一门广泛应用于数据科学和网络爬虫开发的语言，
如何利用AWS Lambda作为Serverless数据库进行大数据处理 AI天才研究院 AI人工智能与大数据自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术Serverless数据库一直是构建数据分析应用的主要选择之一。它能帮助客户节省运行服务所需的服务器成本、快速弹性扩展和自动伸缩能力，并且能提升整体性能，有效减少运维和开发资源投入。但是，在实际生产环境中，它们也面临着很多技术上的挑战，比如如何让Serverless数据库服务可以像传统数据库一样，做到高并发处理、实时计算等。而AWSLambda为Serverless数据
大数据领域数据产品的零售行业应用创新模式大数据洞察大数据与AI人工智能大数据零售单例模式 ai
大数据领域数据产品的零售行业应用创新模式关键词：大数据、零售行业、数据产品、应用创新、客户洞察、智能决策、数字化转型摘要：本文深入探讨了大数据技术在零售行业中的应用创新模式。我们将从零售行业数字化转型的背景出发，分析大数据产品如何重塑零售价值链，包括客户洞察、供应链优化、精准营销和智能决策等方面。文章将详细介绍相关技术原理、算法实现和实际应用案例，为零售企业提供可操作的大数据应用框架和创新思路。1
大数据如何助力企业文化“软实力”升级？深挖数据背后的文化密码 Echo_Wish 大数据高阶实战秘籍大数据
大数据如何助力企业文化“软实力”升级？深挖数据背后的文化密码今天我们聊一个听起来很“软”的话题——企业文化，但从一个不太“软”的角度来看：大数据如何参与企业文化的建设与提升。企业文化往往被看作无形资产，是团队凝聚力、创新力的源泉。但传统“喊口号”式的文化建设常常效果有限。大数据技术的兴起，给我们提供了洞察员工心理、量化文化影响的新思路，让文化建设从“感性”走向“理性”，从“盲目”变得“精准”。一、
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
Docker快速部署Hive服务长路 ㅤ 运维 Docker配置 Hive环境大数据远程调试
文章目录前言Docker快速配置hive环境资料获取前言博主介绍：✌目前全网粉丝4W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)CSDN搜索：长路视频平台：b站-Coder长路Docker快速配置hive环境Ap
从UI设计到数字孪生实战：构建智慧教育的个性化学习平台
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：数字孪生重构智慧教育的技术范式在教育数字化转型加速推进的背景下，传统在线教育正面临"个性化不足、学习体验单一、效果评估滞后"的瓶颈。教育部数据显示，采用数字孪生技术的智慧教育平台，学生学习效率平均提升35
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户_用户每日登陆脉脉会访问app不同的模块,现有两个表表1记录了每日脉脉活跃用户的ui(1)
文章目录每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户每日语录第25题：1.需求列表1.初级题:每日活跃用户思路分析(1)创建表(2)思路答案获取加技术群讨论附表文末SQL小技巧后记每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户大家好，我是Maynor。相信大家和我一样，都有一个大厂梦，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大
Spring Boot 项目启动时按需初始化加载数据我叫晨曦啊 spring boot spring boot java 后端
1、新建类，类上添加注解@Component，该类用于在项目启动时处理数据加载任务；2、该类实现ApplicationRunner接口，并重写run方法；3、在重写的run方法里处理数据加载任务；注意：有定时加载数据需求的话，添加定时任务即可；一次性加载大数据量时可能内存溢出；同一个项目中，可以定义多个ApplicationRunner的实现类；存在多个ApplicationRunner的实现类时
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Apache SeaTunnel × Hive 深度集成指南：原理、配置与实践数据库
在大数据处理的复杂生态中，数据的高效流转与整合是实现数据价值的关键。ApacheSeaTunnel作为一款高性能、分布式、易扩展的数据集成框架，能够快速实现海量数据的实时采集、转换和加载；而ApacheHive作为经典的数据仓库工具，为结构化数据的存储、查询和分析提供了坚实的基础。将ApacheSeaTunnel与Hive进行集成，能够充分发挥两者的优势，构建起高效的数据处理链路，满足企业多样化的
大数据平台之ranger与ldap集成，同步用户和组无级程序员大数据大数据 hadoop
ranger可以通过ranger-usersync与linux系统同步用户，但是，还有个问题，就是我们的hiveserver一般是集群，可以是多台服务器，那么我们空间同步哪一台呢，而且如果用户多了，如何管理用户登录密码呢，所以，还是要用ldap比较合理。首先是安装openldap:yum-yinstallopenldapcompat-openldapopenldap-clientsopenldap
vue-scrollto实现页面组件锚点定位长路 ㅤ 前端 vue.js 前端 javascript
文章目录前言背景操作指南安装及配置步骤vue组件中使用参考文章前言博主介绍：✌目前全网粉丝3W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)视频平台：b站-Coder长路背景vue中在hash模式下，页面的动态渲染
SQL Server 临时表、表变量与WITH语句的用法与区别 Favor_Yang SQL调优及高级SQL语法编写数据库 sql sqlserver
引言在SQLServer数据处理中，临时表、表变量和WITH语句（CTE）是关键的中间结果集管理工具。临时表适合大数据量操作，表变量优化小数据量场景，而CTE则简化复杂查询逻辑。三者选择需综合考量数据量级、事务需求及代码可读性。本文将深入解析其工作机制，通过实测对比指导场景化选型。1.临时表（TemporaryTables）定义与创建通过#（本地）或##（全局）前缀创建物理表：--本地临时表CRE
从0到1：Vue.js与D3.js搭建AI大数据动态看板
一、引言在当今AI和大数据盛行的时代，数据如同企业的“石油”，蕴含着巨大的价值。随着数据量呈指数级增长，如何从海量数据中快速提取有价值的信息，并以直观、易懂的方式呈现出来，成为了数据分析领域的关键挑战。数据看板作为一种强大的数据可视化工具，能够将复杂的数据转化为直观的图表、图形和指标，帮助用户快速理解数据背后的含义，做出更明智的决策。无论是企业的管理层、业务分析师还是数据科学家，都可以通过数据看板
YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

hive

一、伪分布式

操作步骤

1. 安装mysql

2. 下载hive2.1并解压配置环境变量

3. 修改hive-env.sh文件

4. 修改hive-site.xml文件

5. hive的启动及测试：

6. 注意

二、分布式

操作步骤

1. hive包下载

2. 解压缩配置环境变量

3. 修改Hive配置

3.1 生成 hive-site.xml配置文件

3.2 创建HDFS目录

3.3 修改hive-site.xml文件中的临时目录

3.4 修改hive-site.xml文件，修改文件中的元数据的连接，驱动，用户名，密码

3.5 下载mysql驱动，并上传到hive中

3.6 修改hive-env.sh文件

4. 启动hive

三、beeline

操作步骤

beeline 的连接和关闭

Hive安装后的初始化

使用beeline连接

需要启动hiveserver2服务

四、hql

操作步骤

五、内存溢出

操作方案

六、元数据

解决办法

七、demo

代码实例

你可能感兴趣的:(大数据,hadoop)