西门催学不吹雪

Hive 教程（一）—— Hive 介绍及安装

文章目录

1. Hive 入门

1.1 什么是 Hive
1.2 Hive 的优缺点
1.3 Hive 架构原理
1.4 Hive 和数据库比较

2. Hive 安装

2.1 下载地址
2.2 Hive 安装部署
2.3 MySql 安装
2.4 MySql 中 user 表中主机配置
2.4 Hive 元数据配置到 MySql
2.5 Hive 基本操作

2.5.1 Hive 基本操作
2.5.2 将本地文件导入 Hive 案例
2.5.3 Hive 常用交互命令
2.5.4 Hive 其他命令操作

2.6 HiveJDBC 访问
2.7 Hive 常见属性配置

2.7.1 Hive 数据仓库位置配置
2.7.2 查询后信息显示配置
2.7.3 Hive 运行日志信息配置
2.7.4 参数配置方式

1. Hive 入门

1.1 什么是 Hive

Hive：由 Facebook 开源用于解决海量结构化日志的数据统计，现已归于 Apache。
Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。
本质是：将 HQL 转化成 MapReduce 程序。

Hive 处理的数据存储在 HDFS
Hive 分析数据底层的实现是 MapReduce
执行程序运行在 Yarn 上

1.2 Hive 的优缺点

优点

① 操作接口采用类 SQL 语法，提供快速开发的能力（简单、容易上手）。
② 避免了去写 MapReduce，减少开发人员的学习成本。
③ Hive 的执行延迟比较高，因此 Hive 常用于数据分析，对实时性要求不高的场合。
④ Hive 优势在于处理大数据，对于处理小数据没有优势，因为 Hive 的执行延迟比较高。
⑤ Hive 支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
缺点

① Hive 的 HQL 表达能力有限

⑴ 迭代式算法无法表达
⑵ 数据挖掘方面不擅长

② Hive 的效率比较低

⑴ Hive 自动生成的 MapReduce 作业，通常情况下不够智能化
⑵ Hive 调优比较困难，粒度较粗

1.3 Hive 架构原理

用户接口：Client

CLI（hive shell）、JDBC/ODBC（java 访问 hive）、WEBUI（浏览器访问 hive）
元数据：Meta store

元数据包括：表名、表所属的数据库（默认是 default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
默认存储在自带的 derby 数据库中，推荐使用 MySQL 存储 Meta store
Hadoop

使用 HDFS 进行存储，使用 MapReduce 进行计算。
驱动器：Driver

（1）解析器（SQL Parser）：将 SQL 字符串转换成抽象语法树 AST，这一步一般都用第三方工具库完成，比如 antlr；对 AST 进行语法分析，比如表是否存在、字段是否存在、SQL 语义是否有误。
（2）编译器（Physical Plan）：将 AST 编译生成逻辑执行计划。
（3）优化器（Query Optimizer）：对逻辑执行计划进行优化。
（4）执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于 Hive 来说，就是MR/Spark。

Hive 通过给用户提供的一系列交互接口，接收到用户的指令（SQL），使用自己的 Driver，结合元数据（MetaStore），将这些指令翻译成 MapReduce，提交到 Hadoop 中执行，最后，将执行返回的结果输出到用户交互接口。

1.4 Hive 和数据库比较

由于 Hive 采用了类似 SQL 的查询语言 HQL（Hive Query Language），因此很容易将 Hive 理解为数据库。其实从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。数据库可以用在 Online 的应用中，但是Hive 是为数据仓库而设计的。

查询语言

由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发可以很方便的使用 Hive 进行开发。
数据存储位置

Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。
数据更新

由于 Hive 是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive 中不建议对数据的改写，所有的数据都是在加载的时候确定好的。而数据库中的数据通常是需要经常进行修改的。
索引

Hive 在加载数据的过程中不会对数据进行任何处理，甚至不会对数据进行扫描，因此也没有对数据中的某些 Key 建立索引。Hive要访问数据中满足条件的特定值时，需要暴力扫描整个数据，因此访问延迟较高。由于 MapReduce 的引入， Hive 可以并行访问数据，因此即使没有索引，对于大数据量的访问，Hive 仍然可以体现出优势。数据库中，通常会针对一个或者几个列建立索引，因此对于少量的特定条件的数据的访问，数据库可以有很高的效率，较低的延迟。由于数据的访问延迟较高，决定了 Hive 不适合在线数据查询。
执行

Hive 中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的。而数据库通常有自己的执行引擎。
执行延迟

Hive 在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce框架。由于 MapReduce 本身具有较高的延迟，因此在利用 MapReduce 执行 Hive 查询时，也会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive 的并行计算显然能体现出优势。
可扩展性

由于 Hive 是建立在 Hadoop 之上的，因此 Hive 的可扩展性是和 Hadoop 的可扩展性是一致的（世界上最大的 Hadoop 集群在 Yahoo，2009 年的规模在 4000 台节点左右）。而数据库由于 ACID 语义的严格限制，扩展行非常有限。目前最先进的并行数据库 Oracle 在理论上的扩展能力也只有 100 台左右。
数据规模

由于 Hive 建立在集群上并可以利用 MapReduce 进行并行计算，因此可以支持很大规模的数据；对应的，数据库可以支持的数据规模较小。

2. Hive 安装

2.1 下载地址

Hive 官网

2.2 Hive 安装部署

Hive 安装及配置

① 将 hive 的安装包上传到 Linux 服务器上（apache-hive-2.3.6-bin.tar.gz）
② 解压安装包到指定目录下

tar -zxvf apache-hive-2.3.6-bin.tar.gz -C /hadoop/

③ 重命名解压后的目录

mv apache-hive-2.3.6-bin/ hive-2.3.6

④ 修改 /hadoop/hive/conf 目录下的 hive-env.sh.template 名称为 hive-env.sh

mv hive-env.sh.template hive-env.sh

⑤ 配置 hive-env.sh 文件

配置 HADOOP_HOME 路径

# Set HADOOP_HOME to point to a specific hadoop install directory
HADOOP_HOME=/hadoop/hadoop-2.7.7

配置 HIVE_CONF_DIR 路径

# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/hadoop/hive-2.3.6/conf

⑥ 配置 hive 环境变量

vim /etc/profile

#HIVE
export HIVE_HOME=/hadoop/hive-2.3.6
export PATH=$PATH:$HIVE_HOME/bin

source /etc/profile

Hadoop 集群配置

① 必须启动 hdfs 和 yarn
② 在 HDFS 上创建 /tmp 和 /user/hive/warehouse 两个目录并修改他们的同组权限可写

hadoop fs -mkdir /tmp

hadoop fs -mkdir -p /user/hive/warehouse

hadoop fs -chmod g+w /tmp

hadoop fs -chmod g+w /user/hive/warehouse

2.3 MySql 安装

查看 mysql 是否安装，如果安装了，卸载 mysql

rpm -qa|grep mysql

rpm -qa|grep mariadb

使用以下命令进行移除操作

rpm -e --nodeps {file-name}

解压 mysql 安装包（mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar）

 tar -xvf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar -C mysql/

按照依赖关系依次安装 rpm 包，依赖关系依次为 common→libs→client→server

rpm -ivh mysql-community-common-5.7.28-1.el7.x86_64.rpm

rpm -ivh mysql-community-libs-5.7.28-1.el7.x86_64.rpm

rpm -ivh mysql-community-client-5.7.28-1.el7.x86_64.rpm

rpm -ivh mysql-community-server-5.7.28-1.el7.x86_64.rpm

注：ivh 中， i-install 安装；v-verbose 进度条；h-hash 哈希校验

mysql 初始化配置，设置 root 密码

① 停止 mysql 服务

systemctl stop mysqld.service

② 设置免密登陆

vim /etc/my.cnf

添加这句话，这时候登入 mysql 就不需要密码

skip‐grant‐tables

③ 重启 mysql 服务

systemctl start mysqld.service

④ 进入 mysql，更改密码

mysql -u root

use mysql;

update user set authentication_string=PASSWORD("19990628") where user="root";

quit;

⑤ 退出免密登陆

systemctl stop mysqld.service

vim /etc/my.cnf

注释免密登录

#skip‐grant‐tables

systemctl start mysqld.service

⑤ 密码登录 mysql

mysql -u root -p

接下来根据提示，输入刚才修改的密码即可
;

2.4 MySql 中 user 表中主机配置

配置只要是 root 用户 + 密码，在任何主机上都能登录 MySQL 数据库。

进入 mysql

mysql -u root -p

使用 mysql 数据库

use mysql;

查询 user 表

select User, Host from user;

修改 user 表，把 Host 表内容修改为 %

update user set host='%' where host='localhost';

根据查询结果，删除 root 用户的其他 host
刷新

flush privileges;

退出

quit

2.4 Hive 元数据配置到 MySql

驱动拷贝，将驱动拷贝到到 /hadoop/hive-2.3.6/lib/ 目录下（mysql-connector-java-5.1.46.jar）

cp mysql-connector-java-5.1.46.jar /hadoop/hive-2.3.6/lib/

配置 Meta store 到 MySql

① 在 /hadoop/hive-2.3.6/conf 目录下创建一个 hive-site.xml

touch hive-site.xml

② 在文件中，拷贝以下数据

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<property>
	  <name>javax.jdo.option.ConnectionURL</name>
	  <value>jdbc:mysql://master:3306/metastore?createDatabaseIfNotExist=true&amp;useSSL=false</value>
	  <description>JDBC connect string for a JDBC metastore</description>
	</property>

	<property>
	  <name>javax.jdo.option.ConnectionDriverName</name>
	  <value>com.mysql.jdbc.Driver</value>
	  <description>Driver class name for a JDBC metastore</description>
	</property>

	<property>
	  <name>javax.jdo.option.ConnectionUserName</name>
	  <value>root</value>
	  <description>username to use against metastore database</description>
	</property>

	<property>
	  <name>javax.jdo.option.ConnectionPassword</name>
	  <value>19990628</value>
	  <description>password to use against metastore database</description>
	</property>
</configuration>

③ 初始化元数据库

schematool -dbType mysql -initSchema

测试 hive 是否可用

hive

show databases;

2.5 Hive 基本操作

2.5.1 Hive 基本操作

启动 hive

hive

查看数据库

show databases;

打开默认数据库

use default;

显示 default 数据库中的表

show tables;

创建一张表

create table student(id int, name string);

查看表的结构

desc student;

向表中插入数据

insert into student values(1000,"xiaoming");

查询表中数据

select * from student;

删除已创建的 student 表

drop table student;

退出 hive

quit;

2.5.2 将本地文件导入 Hive 案例

需求： 将本地 /root/data/student.txt 这个目录下的数据导入到 hive 的 student(id int, name string) 表中。

创建 student.txt 数据（以 tab 键间隔）

1001	zhangshan
1002	lishi
1003	zhaoliu

启动 hive

hive

使用 default 数据库

use default;

创建 student 表, 并声明文件分隔符 ’\t’

create table student(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

加载 /root/data/student.txt 文件到 student 数据库表中。

load data local inpath '/root/data/student.txt' into table student;

Hive 查询结果

select * from student;

2.5.3 Hive 常用交互命令

“-e” 不进入 hive 的交互窗口执行 sql 语句

hive -e "select id from student;"

“-f” 执行脚本中 sql 语句

① 创建 hive.sql 文件

select id from student;

② 执行文件中的 sql 语句

hive -f hive.sql

③ 执行文件中的 sql 语句并将结果写入文件中

hive -f hive.sql > hive_result.txt

2.5.4 Hive 其他命令操作

退出 hive 窗口：

exit;

quit;

在 hive client 命令窗口中如何查看 hdfs 文件系统

dfs -ls /;

在 hive client 命令窗口中如何查看本地文件系统

! ls /root;

查看在 hive 中输入的所有历史命令

① 进入到当前用户的根目录
② 查看 .hivehistory 文件

cat .hivehistory

2.6 HiveJDBC 访问

启动 hiveserver2 服务

hiveserver2

启动 beeline

beeline

连接 hiveserver2

!connect jdbc:hive2://master:10000

注意：这里可能出现报错：
Error: Could not open client transport with JDBC Uri: jdbc:hive2://master:10000: Failed to open new session: java.lang.RuntimeException:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: root is not allowed to impersonate anonymous root(state=08S01,code=0)

解决方法：参考博客

2.7 Hive 常见属性配置

2.7.1 Hive 数据仓库位置配置

默认数据仓库的最原始位置是在 hdfs 上的：/user/hive/warehouse 路径下。
在仓库目录下，没有对默认的数据库 default 创建文件夹。如果某张表属于 default 数据库，直接在数据仓库目录下创建一个文件夹。
修改 default 数据仓库原始位置（将 hive-default.xml.template 如下配置信息拷贝到 hive-site.xml 文件中）。

<property>
  <name>hive.metastore.warehouse.dirname>
  <value>/user/hive/warehousevalue>
  <description>location of default database for the warehousedescription>
property>

配置同组用户有执行权限

hdfs dfs -chmod g+w /user/hive/warehouse

2.7.2 查询后信息显示配置

在 hive-site.xml 文件中添加如下配置信息，就可以实现显示当前数据库，以及查询表的头信息配置。

<property>
  <name>hive.cli.print.headername>
  <value>truevalue>
property>

<property>
  <name>hive.cli.print.current.dbname>
  <value>truevalue>
property>

重新启动 hive，对比配置前后差异。

① 配置前

② 配置后

2.7.3 Hive 运行日志信息配置

Hive 的 log 默认存放在 /tmp/root/hive.log目录下（当前用户名下）
修改 hive 的 log 存放日志到 /hadoop/hive-2.3.6/logs

① 修改 /hadoop/hive-2.3.6/conf/hive-log4j2.properties.template 文件名称为 hive-log4j2.properties

mv hive-log4j2.properties.template hive-log4j2.properties

② 在 hive-log4j2.properties 文件中修改 log 存放位置

property.hive.log.dir = /hadoop/hive-2.3.6/logs

2.7.4 参数配置方式

查看当前所有的配置信息（在 hive client 下）

set;

参数的配置三种方式

① 配置文件方式

默认配置文件：hive-default.xml
用户自定义配置文件：hive-site.xml

注意： 用户自定义配置会覆盖默认配置。另外，Hive 也会读入 Hadoop 的配置，因为 Hive 是作为 Hadoop 的客户端启动的，Hive 的配置会覆盖 Hadoop 的配置。配置文件的设定对本机启动的所有 Hive 进程都有效。

② 命令行参数方式

启动 Hive 时，可以在命令行添加 -hiveconf param=value 来设定参数。（仅对本次hive启动有效）

hive -hiveconf mapred.reduce.tasks=10;

③ 参数声明方式

可以在 HQL 中使用 SET 关键字设定参数

set mapred.reduce.tasks=100;

查看参数设置

set mapred.reduce.tasks;

你可能感兴趣的:(大数据,#,Hive)

【趋势】《2024—2026金融科技十大趋势预测》一览学客汇商业研究商业观察人工智能大数据金融科技科技洞察 IT趋势金融行业预测
本白皮书基于新华三在金融行业的前沿实践和IDC的全球研究成果，深入分析了金融科技领域的十大关键趋势，旨在为金融机构提供前瞻性的战略指导和业务创新的参考。导言当前，在地缘政治冲突加剧、商业经济市场环境高度不确定、数字化业务加速发展的背景下，金融行业处于深度变革的潮流中，金融机构亟需重新思考其在技术支出、业务决策及业务创新发展等方面的投资重点。此外，金融机构也越来越需要借助大数据和AI技术来提升业务的
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 m0_74825360 面试学习路线阿里巴巴爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
不同hive集群中基于表的数据一致性比对 AA赵师傅 hadoop数据管理 hive 数据验证数据迁移 hadoop
前阵子博主遇到一个需求，因对hadoop集群进行数据迁移，数据迁移完毕后进行两个hive库的数据一致性的比对，不仅对源表数据进行比对，而且要同时使用两个集群加工相同数据，对加工后的数据进行数据一致性比对。博主已知的数据迁移方法有两种，第一种就是hadoopdistcp功能来进行集群间数据的复制，那么基本就不用做源表的数据验证了，集群间数据复制失败会报错提示。第二种方法就是数据的导入导出了，把原集群
Hadoop、Hive、Hbase集群间的数据迁移这个操蛋的人生！！！
一、hadoop集群间拷贝数据：迁移之前需要把两个集群的所有节点都互通/etc/hosts文件（重要，包括各个数据节点）两个集群版本不相同hadoopdistcphftp://192.168.57.73:50070/hive3/20171008/hive3/如果两个集群的版本相同，则可以使用hdfs协议，命令如下：hadoopdistcphdfs://namenodeip:9000/foohdfs
Hive面试题汇总大数据侠客 hive相关问题汇总及解决 hive hadoop 数据仓库面试
Hive定义Hive是建立在Hadoop上的数据仓库基础构架。可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种
CDH大数据平台梦龙zmc 大数据大数据
CDH概念CDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的核心元素-可伸缩存储和分布式计算-以及基于web的用户界面和重要的企业功能。CDH是Apache许可的开放源码，是唯一
Hive之数据迁移方案(实测) 南风知我意丿 Hive hive hadoop hdfs
文章目录Hive的迁移涉及两个技术点：1.仅迁移元数据2.元数据及Hive数据全量迁移2.1全表迁移2.1.1旧集群2.1.2新集群2.2仅部分分区迁移（主要步骤）2.1.1旧集群2.1.2新集群2.3beeline连接hive并进行数据迁移Hive的迁移涉及两个技术点：1.仅迁移元数据参考：网易元数据管理-hive元数据迁移与合并2.元数据及Hive数据全量迁移主要流程1.将旧集群的hive数据
Spring Boot集成RocketMQ实现分布式事务 missterzy 分布式与微服务消息队列（MQ）java-rocketmq spring boot rocketmq
RocketMQ是由阿里巴巴集团开发的一款高性能、高可靠、分布式的开源消息中间件，它在2012年对外开源，并于2016年捐赠给Apache软件基金会，随后在2017年成为了Apache的顶级项目。RocketMQ的设计旨在满足互联网业务场景中的海量消息传递需求，尤其擅长处理高并发、大数据量以及实时计算场景。主要特点和功能包括：1.分布式架构：RocketMQ采用了分布式部署架构，允许生产者、消费者
【原创】运维基础之OpenResty(Nginx+Lua)+Kafka weixin_30293079 大数据运维 lua
使用docker部署1下载#wgethttps://github.com/doujiang24/lua-resty-kafka/archive/v0.06.tar.gz#tarxvfv0.06.tar.gz2准备配置文件testkafka.conf#vitestkafka.conflua_package_path"/usr/local/openresty/lualib/resty/kafka/?.
Java 大视界 -- Java 大数据中的自然语言生成技术与实践（63）青云交大数据新视界 Java 大视界大数据自然语言生成基于规则模型基于统计模型基于深度学习模型新闻写作智能客服
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
动态规划详解-最小路径和问题【python】数据分析螺丝钉 LeetCode刷题与模拟面试动态规划算法 leetcode python 数据结构
作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。会一些的技术：数据分析、算法、SQL、大数据相关、python欢迎加入社区：码上找工作作者专栏每日更新：LeetCode解锁1000题:打怪升级之旅python数据分析可视化：企业实战案例备注说明：方便大家阅读，统一使用python，带必要注释，公众号数据分析螺丝钉一起打怪升级1.问题介绍和应用场景最小路径和问题是一个常见的动态规划问
Java 大视界 -- Java 大数据中的知识图谱构建与应用（62）青云交大数据新视界 Java 大视界大数据知识图谱信息抽取知识融合智能搜索智能推荐风险评估
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
[Python从零到壹] 七十七.图像识别及经典案例篇之目标检测入门普及和ImageAI对象检测详解 Eastmount Python从零到壹 python 目标检测 ImageAI 图像是被基础系列
欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智
用 Java 的思路快速学习 Scala 进朱者赤其他大数据 scala Scala
引言Scala是一种结合了面向对象和函数式编程的现代编程语言，广泛应用于大数据处理框架如ApacheSpark和ApacheFlink。对于熟悉Java的开发者来说，Scala的学习曲线相对平缓。本文将通过类比Java中的概念，帮助Java开发者快速上手Scala。1.基本语法1.1.数据类型以下是Scala和Java数据类型的汇总表格：Scala数据类型Java数据类型说明Intint32位整数
python鸢尾花数据集knn_【python+机器学习1】python 实现 KNN weixin_39629269 python鸢尾花数据集knn
欢迎关注哈希大数据微信公众号【哈希大数据】1KNN算法基本介绍K-NearestNeighbor(k最邻近分类算法)，简称KNN，是最简单的一种有监督的机器学习算法。也是一种懒惰学习算法，即开始训练仅仅是保存所有样本集的信息，直到测试样本到达才开始进行分类决策。KNN算法的核心思想：要想确定测试样本属于哪一类，就先寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后判断这K个样本中大部分所
函数计算 FC 诚邀您参加【Cloud Up 挑战赛】赢取丰厚奖品！ github
亲爱的开发者们，函数计算FC团队向你们发出诚挚邀请，加入我们即将举办的【CloudUp挑战赛】，这不仅是一场技术盛宴，更是一次展示才华与创新的机会。从互联网应用开发到AI、大数据，再到现代化应用开发，本次赛事覆盖了所有你渴望掌握的技能点，旨在为你提供一个实践平台，将理论知识转化为解决实际业务问题的能力。挑战赛为期三周，活动时间为2024年11月25日至12月13日，立即参与：https://dev
未来商贸物流：人工智能与大数据的深度融合呆码科技临沂软件开发软件开发商贸物流科技人工智能
未来商贸物流：人工智能与大数据的深度融合在当今数字化浪潮汹涌澎湃的时代，商贸物流行业正站在变革的十字路口，而人工智能与大数据宛如一对闪耀的双子星，为其照亮前行的道路，深度融合之下，一个全新的未来画卷正徐徐展开。智能预测需求：精准把握市场脉搏传统的商贸物流往往依赖过往经验和粗略的市场调研来预估货物需求，这就如同在迷雾中摸索，充满不确定性。而如今，借助大数据的海量存储与超强分析能力，以及人工智能的深度
【大数据之路11】多范式编程语言 Scala 程序员老五大数据 scala 开发语言
多范式编程语言Scala1.Scala概述1.Scala介绍2.学习Scala的必要性1.基于编程语⾔⾃身2.基于活跃度2.Scala基础语法1.HelloScala2.变量定义1.变量与常量2.Scala自动类型识别3.lazy懒加载3.数据类型1.相关概述1.Scala数据类型列表2.测试代码3.Scala数据类型结构图2.Scala基本类型操作3.编码规范4.流程控制1.if2.块表达式3.
2024年大数据最全数据仓库｜数据库面试题总结_面试题数据仓库 2301_82243558 程序员大数据数据仓库数据库
这里值得注意的是不要想着为每个字段建立索引，因为优先使用索引的优势就在于其体积小。索引有哪几种类型？主键索引:数据列不允许重复，不允许为NULL，一个表只能有一个主键。唯一索引:数据列不允许重复，允许为NULL值，一个表允许多个列创建唯一索引。可以通过ALTERTABLEtable_nameADDUNIQUE(column);创建唯一索引可以通过ALTERTABLEtable_nameADDUNI
AI Agent：一场智能革命的开始机器人openai区块链
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
C# 与.NET 日志变革：JSON 让程序“开口说清话” 步、步、为营 c#.net json
一、引言：日志新时代的开启在软件开发的漫长旅程中，日志一直是我们不可或缺的伙伴。它就像是应用程序的“黑匣子”，默默地记录着程序运行过程中的点点滴滴，为我们在调试、排查问题以及性能优化时提供关键线索。在早期，文本日志是我们最常用的记录方式，它简单直接，就像我们随手写下的日记，记录着事件发生的时间、内容等基本信息。然而，随着软件系统规模的不断扩大，架构日益复杂，尤其是在微服务、大数据分析以及云原生应用
Hive架构及搭建方式西北偏北up hive
Hive架构及搭建方式[TOC]前言本文档基于hive3.1.2编写hive的基础知识基本架构整个hive由hiveserver2和hive客户端组成hive客户端有三种，beeline、使用jdbc链接hiveserver、或使用hiveCLI(这个已经过时，hive官方已经不推荐，推荐beeline)hiveserver本身由hiveserver2和metastore组成metastore是h
python方差分析误差棒_一文讲透，带你学会用Python绘制带误差棒的柱状图和条形图... 加勒比考斯 python方差分析误差棒
Python数据可视化，作为数据常用的必备技能，是目前大数据和数据分析的一个热门，而matplotlib库作为Python中最为常用和经典的二维绘图库，受到了很多人的青睐，最近已经和大家共同探讨了多种类型的图表的绘制，其中关于误差棒图，咱们已经在上次一起讨论过了，今天咱们继续深入研究误差棒图相关的知识。那今天咱们聊点什么呢？咱们一起探讨一下如何在Python中绘制带误差棒的柱状图和条形图吧！首先，
hive数据类型 qzWsong hive
数字类型TINYINT(1字节整数)SMALLINT(2字节整数)INT/INTEGER(4字节整数)BIGINT(8字节整数)FLOAT(4字节浮点数)DOUBLE(8字节双精度浮点数)示例：createtablet_test(astring,bint,cbigint,dfloat,edouble,ftinyint,gsmallint)时间类型TIMESTAMP(时间戳)(包含年月日时分秒毫秒的
hive数据操作，导入导出 qzWsong hive
数据导入导出将数据文件导入hive的表方式1：导入数据的一种方式：手动用hdfs命令，将文件放入表目录；方式2：在hive的交互式shell中用hive命令来导入本地数据到表目录hive>loaddatalocalinpath'/root/order.data.2'intotablet_order;方式3：用hive命令导入hdfs中的数据文件到表目录hive>loaddatainpath'/ac
【大数据入门核心技术-Hive】（十六）hive表加载csv格式数据或者json格式数据 forest_long 大数据技术入门到21天通关大数据 hive hadoop 开发语言后端数据仓库
一、环境准备hive安装部署参考：【大数据入门核心技术-Hive】（三）Hive3.1.2非高可用集群搭建【大数据入门核心技术-Hive】（四）Hive3.1.2高可用集群搭建二、hive加载Json格式数据1、数据准备vistu.json[{"id":111,"name":"name111"},{"id":222,"name":"name22"}]上传到hdfshadoopfs-putstu.j
镜舟科技荣登《2024 中国大数据产业年度「国产化」优秀代表厂商》榜单！数据库软件数据分析
在近日于上海成功举办的“释放×数效应·共创智+未来”2024第七届金猿&魔方论坛上，镜舟科技凭借其在数据分析领域的卓越贡献和国产化技术实力，入选《2024中国大数据产业年度「国产化」优秀代表厂商》榜单，展现了其在国产化、信创道路上的成果。镜舟科技自2022年成立以来，始终致力于帮助中国企业建立卓越的数据分析系统，形成自身的“数据护城河”。基于开源项目StarRocks进行深度研发，镜舟科技推出2款
云起无垠入选中国信息通信研究院2024年度首期“磐安”优秀案例人工智能
近日，中国信通院举办的深度观察报告会系列论坛在北京顺利召开。在数字生态治理分论坛上，2024年度首期“磐安”优秀案例——AI+数字安全应用优秀案例遴选结果正式公布，云起无垠凭借其在生成式AI网络安全攻防对抗垂直领域扎实的研究及应用成果，成功入选该年度首期“磐安”优秀案例。当下，数字化浪潮席卷全球，信息技术广泛渗透各个产业。云计算、大数据、人工智能、物联网等前沿技术深度融合，传统制造业生产线、现代服
东华发思特&巨杉数据库：打造智慧城市分布式大数据联合解决方案巨杉数据库SequoiaDB SequoiaDB巨杉数据库巨杉数据库 sequoiadb 东华发思特联合解决方案
合作伙伴公司简介东华发思特为东华软件旗下控股子公司，是一家通过高新技术企业认定的技术企业，拥有CMMI3、ISO27001、ISO9000、ISO20000等高级行业资质认证。公司组建了一批视野开拓、经验丰富的管理和研发团队，如今已打造了一系列新型智慧城市产品体系，以HarryData大数据中台和BobbyLink物联网中台为核心，以数字政府、数字文旅、数字乡村、城市精细化管理平台等为产业互联网助
数据治理组织架构产品经理自我修养大数据
企业数据治理体系除了在技术方面的实施架构，还需要管理方面的组织架构支撑。一般在数据治理建设初期，集团会先成立数据治理管理委员会。从上至下由决策层、管理层、执行层构成。决策层决策、管理层制定方案、执行层实施。层级管理、统一协调。4.2.1组织架构1）决策层提供数据标准管理的决策职能，通俗理解即拍板定方案。2）管理层审议数据标准管理相关制度对跨部门难的数据标准管理争议事项进行讨论并决策管理重大数据标准
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1